Benutzerspezifische Werkzeuge
Sie sind hier: Startseite Forschung Computerlinguistik

Computerlinguistik

Forschungsprojekte und Ressourcen aus dem Bereich der Computerlinguistik

Korpora

  • Das Bonner Frühneuhochdeutsch-Korpus

    Das Frühneuhochdeutschkorpus besteht aus 40 Quellen, die nach Sprachlandschaften und Zeitschnitten (1350 - 1400, 1450 - 1500, 1550 - 1600 und 1650 -1700) angeordnet sind. Es handelt sich um Auswahltexte mit einem Umfang von jeweils ca. 30 Normalseiten. Sämtliche Texte sind mit Wortklassenangaben und z.T. Formenbestimmungen annotiert.

    Ansprechpartner: Prof. Dr. W. Lenders, H.-C. Schmitz

  • Kant-Korpus

    Es handelt sich beim Kant-Korpus um das elektronische Textarchiv der Bände 1 - 23 der Akademieausgabe der Werke Kants. Das Korpus wird texttechnologisch erschlossen. Der größte Teil liegt SGML-kodiert vor. Bände 1 - 9 sind im WWW recherchierbar. Die Bände 14 - 23 werden derzeit im Rahmen des Projekts "Bereitstellung und Pflege von Kants Gesammelten Werken in elektronischer Form" (s.u.) aufbereitet.

    Ansprechpartner: Dr. B. Schröder

  • Limas-Korpus

    Repräsentatives Zeitschnittkorpus der deutschen Gegenwartssprache (Schriftsprache) von 1970: Es handelt sich um eine Auswahl von 500 Texten, respektive Textfragmenten, verschiedener Textsorten mit insgesamt 1 Mio Wortformen. Das Korpus kann in seiner Gesamtheit im WWW recherchiert werden: http://www.korpora.org/Limas/.

    Ansprechpartner: Dr. B. Schröder, Dr. G. Willée

  • Mittelhochdeutsch-Korpus

    Sammlung von Texten mittelhochdeutscher Autoren (Hartmann von Aue, Konrad von Würzburg, Heinrich Wittenwiler u.a.). Die Texte sind unbearbeitet, z.T. unkorrigiert und nicht annotiert. Das Korpus ist nicht verfügbar.

    Ansprechpartner: Prof. Dr. W. Lenders

Wörterbücher

  • Bonner Wortdatenbank

    Die Bonner Wortdatenbank wurde seit 1979 in verschiedenen Forschungsprojekten aufgebaut. Ihre Grundlage sind 12 Wörterbücher aus Systemen der 70er Jahre, deren Daten nach einem einheitlichen Klassifikationsschema zu einer Datenbank integriert wurden. Die BWDB umfasst ca. 300 000 Worteinträge mit jeweils Angaben zur Wortklasse und Morphosyntax.

    Ansprechpartner: Prof. Dr. W. Lenders

  • Mackensen-Wörterbuch

    Das Mackensen-Wörterbuch enthält den Wortschatz der 3. Auflage des Deutschen Wörterbuchs von Lutz Mackensen von 1955. Jeder Eintrag ist mit Angabe der Morphemgrenze, Wortklassenangaben und Angabe der Sprachvarietät versehen.

    Ansprechpartner: Prof. Dr. W. Lenders, Dr. G. Willée

Formale Semantik und Pragmatik

  • Interpretation von Fokus:

    • Formalisierung von Mehrfachfokusstrukturen

    • pragmatische Motivation von Fokusrealisierungen

  • Formalisierung von pragmatischen Constraints durch Modellierung von Intentions- und Wissenszuständen der Kommunikanten (intention-belief framework):

    • Begriffsbildung im Handlungskontext

    • Auflösung von Sprechaktambiguitäten im Sprachspielkontext

    • pragmatische Funktion von Diskurspartikeln

    Ansprechpartner: H.-C. Schmitz, Dr. B. Schröder

Korpuslinguistik

  • Entwicklung von Zeitschnittkorpora für die sprachhistorische Untersuchung des neueren Deutsch

    gemeinsam mit Prof. Dr. Klaus Peter Wegera, Germanistisches Institut der Ruhr-Universität Bochum

    Das Ziel des Vorhabens besteht darin, in der Form von Zeitschnittkorpora die empirische Basis zur Untersuchung der Tendenzen und Trends in der Entwicklung der Deutschen Sprache dieses Jahrhunderts zu legen. Dabei wollen die Antragsteller dem Vorbild des LIMAS-Korpus folgen, das die Sprache des Jahres 1970 in standardisierter Form als Auswahlkoprus darstellt und dessen Nützlichkeit für die synchronische Sprachforschung erwiesen ist. Nach Maßgabe der Grundlinien des LIMAS-Korpus sollen zwei weitere Zeitschnittkorpora erstellt und partiell ausgewertet werden, und zwar einmal für das Jahr 1930 und zum anderen für 1950. Die Kriterien, nach denen die Texte des LIMAS-Korpus ausgewählt wurden, sollen im Grundsatz beibehalten bleiben, aber im Hinblick auf die ins Auge gefaßten Zeitschnitte angepaßt werden. Die Zeitschnittkorpora sollen getaggt, d.h. mit eindeutigen Wortklassenangaben versehen werden.

    Ansprechpartner: Prof. Dr. W. Lenders

  • Lexikalische Strukturen

    Auf der Basis vorhandener maschinenlesbarer Wörterbücher wird nach Möglichkeiten der Repräsentation von Wortbedeutungen in 'maschinen-verarbeitbarer' Form gesucht. Dabei soll - in Abkehr von der eher ins Leere laufenden Idee der 'reusability' der 90er Jahre - ein Weg eingeschlagen werden, der eine dynamische und flexible Bedeutungsdarstellung erlaubt.

    Literatur:
    - N. Weber: Die Semantik von Bedeutungsexplikationen. Frankfurt 1999.
    - H. Helbig: Die semantische Struktur natürlicher Sprache. Berlin 2001.

    Ansprechpartner: Prof. Dr. W. Lenders

  • Maschinelle Lemmatisierung

    Das von Gerd Willée 1986 entwickelte System LEMMA2 (damals in PL/I geschrieben) wurde vollständig neu konzipiert und zusammen mit Karlheinz Stöber in der Programmiersprache C++ neu geschrieben. Ziel dieses neuen Systems LEMMA3 ist es - wie schon bei der Vorläuferversion -, die Wortformen unrestringierter geschriebener deutscher Texte automatisch zu lemmatisieren, d.h. sie mit einer eíndeutigen Wortklassenangabe sowie einer Grundform zu versehen (bei den Verbformen unter Angabe der [einfachen] Flexionsausprägung). Verwendet wird dabei ein Lexikon mit den Elementen der geschlossenen Wortklassen des Deutschen, eine morphologische Analyseliste sowie eine Menge von Kontextregeln zur Disambiguierung von homographen Wortformen und zur genauen Bestimmung der Flexonsausprägung bei Verben. Das fertige System soll in BOSS (Bonn Open Synthesis System) eingebaut werden. Durch die Verwendung von C++ ermöglicht den Einsatz des Systems auf verschiedenen Plattformen (etwa Windows, LINUX).

    Ansprechpartner: Dr. G. Willée

  • Rhetorische und argumentative Textbeschreibung

    Nach rhetorischen Regeln und Grundsätzen der Argumentation aufgebaute Texte sollten eine inhaltliche Kohärenz aufweisen, die sich in einer konsistenten Strukturbeschreibung darstellen lassen muss. Gegenstand der Untersuchungen ist die Entwicklung eines Instrumentariums rhetorischer und argumentativer Textbeschreibung auf der Basis bisheriger Forschungen und deren Anwendunge auf geeignete Korpora (Parlamentsreden; Texte aus LIMAS). Methode: Annotation der Korpora bezüglich rhetorischer und argumentativer Operatoren. Darstellung von rhetorischen Strukturen und Argumentationsstrukturen. Identifikation nicht-argumentativer Teile in argumentativen Texten.

    Literatur:
    - W. Lenders: Semantische und Argumentative Textdeskription. Ein Beitrag zur Simulation sprachlicher Kommunikation. Hamburg 1974.
    - W. Mann and S. Thompson: Rhetorical structure theory: Description and construction of text structures. In: G. Kempen, ed.: Natural Language Generation. Dordrecht 1987.

    Ansprechpartner: Prof. Dr. W. Lenders

Texttechnologie und Hypermedia

  • Multimodale Editionen

    Moderne multimediale Präsentationsformen ermöglichen es, neben die traditionellen Editionsformen von Texten (die kritische und die diplomatisch getreue Textedition) eine neue Editionsform zu setzen, für die hier die Bezeichnung Multimodale Textedition gewählt ist. Es handelt sich darum, dass sämtliche Manuskripte (Textzeugen), die Transskriptionen der Textzeugen, Anmerkungen, Kommentare, Wörterbücher, Bilder, bibliographische Angaben etc. hypertextartig miteinander verbunden werden, so dass dem "Leser" alle Daten, die über einen Text bekannt sind, potentiell zu Verfügung stehen.

    In dem Projekt Hartmann 2000 wird in Kooperation mit Prof. Dr. Roy A. Boggs, Florida Golf Coast University, U.S.A., und Prof. Dr. Kurt Gärtner, Universität Trier, eine solche Edition für das Werk des mittelalterlichen Epikers Hartmann von Aue erstellt. Eine weitere Edition dieser Art zum bisher nur handschriftlich vorliegenden Korpus der Übersetzungskollegs Paul Celans ist in Vorbereitung.

    Ansprechpartner: Prof. Dr. W. Lenders

Abgeschlossene Projekte

Weitere Links

Artikelaktionen