Computerlinguistik
Forschungsprojekte und Ressourcen aus dem Bereich der Computerlinguistik
Korpora
Das Bonner Frühneuhochdeutsch-Korpus
Das Frühneuhochdeutschkorpus besteht aus 40 Quellen, die nach Sprachlandschaften und Zeitschnitten (1350 - 1400, 1450 - 1500, 1550 - 1600 und 1650 -1700) angeordnet sind. Es handelt sich um Auswahltexte mit einem Umfang von jeweils ca. 30 Normalseiten. Sämtliche Texte sind mit Wortklassenangaben und z.T. Formenbestimmungen annotiert.
Ansprechpartner: Prof. Dr. W. Lenders, H.-C. Schmitz
-
Es handelt sich beim Kant-Korpus um das elektronische Textarchiv der Bände 1 - 23 der Akademieausgabe der Werke Kants. Das Korpus wird texttechnologisch erschlossen. Der größte Teil liegt SGML-kodiert vor. Bände 1 - 9 sind im WWW recherchierbar. Die Bände 14 - 23 werden derzeit im Rahmen des Projekts "Bereitstellung und Pflege von Kants Gesammelten Werken in elektronischer Form" (s.u.) aufbereitet.
Ansprechpartner: Dr. B. Schröder
-
Repräsentatives Zeitschnittkorpus der deutschen Gegenwartssprache (Schriftsprache) von 1970: Es handelt sich um eine Auswahl von 500 Texten, respektive Textfragmenten, verschiedener Textsorten mit insgesamt 1 Mio Wortformen. Das Korpus kann in seiner Gesamtheit im WWW recherchiert werden: http://www.korpora.org/Limas/.
Ansprechpartner: Dr. B. Schröder, Dr. G. Willée
Mittelhochdeutsch-Korpus
Sammlung von Texten mittelhochdeutscher Autoren (Hartmann von Aue, Konrad von Würzburg, Heinrich Wittenwiler u.a.). Die Texte sind unbearbeitet, z.T. unkorrigiert und nicht annotiert. Das Korpus ist nicht verfügbar.
Ansprechpartner: Prof. Dr. W. Lenders
Wörterbücher
Bonner Wortdatenbank
Die Bonner Wortdatenbank wurde seit 1979 in verschiedenen Forschungsprojekten aufgebaut. Ihre Grundlage sind 12 Wörterbücher aus Systemen der 70er Jahre, deren Daten nach einem einheitlichen Klassifikationsschema zu einer Datenbank integriert wurden. Die BWDB umfasst ca. 300 000 Worteinträge mit jeweils Angaben zur Wortklasse und Morphosyntax.
Ansprechpartner: Prof. Dr. W. Lenders
Mackensen-Wörterbuch
Das Mackensen-Wörterbuch enthält den Wortschatz der 3. Auflage des Deutschen Wörterbuchs von Lutz Mackensen von 1955. Jeder Eintrag ist mit Angabe der Morphemgrenze, Wortklassenangaben und Angabe der Sprachvarietät versehen.
Ansprechpartner: Prof. Dr. W. Lenders, Dr. G. Willée
Formale Semantik und Pragmatik
Interpretation von Fokus:
Formalisierung von Mehrfachfokusstrukturen
pragmatische Motivation von Fokusrealisierungen
Formalisierung von pragmatischen Constraints durch Modellierung von Intentions- und Wissenszuständen der Kommunikanten (intention-belief framework):
Begriffsbildung im Handlungskontext
Auflösung von Sprechaktambiguitäten im Sprachspielkontext
pragmatische Funktion von Diskurspartikeln
Ansprechpartner: H.-C. Schmitz, Dr. B. Schröder
Korpuslinguistik
Entwicklung von Zeitschnittkorpora für die sprachhistorische Untersuchung des neueren Deutsch
gemeinsam mit Prof. Dr. Klaus Peter Wegera, Germanistisches Institut der Ruhr-Universität Bochum
Das Ziel des Vorhabens besteht darin, in der Form von Zeitschnittkorpora die empirische Basis zur Untersuchung der Tendenzen und Trends in der Entwicklung der Deutschen Sprache dieses Jahrhunderts zu legen. Dabei wollen die Antragsteller dem Vorbild des LIMAS-Korpus folgen, das die Sprache des Jahres 1970 in standardisierter Form als Auswahlkoprus darstellt und dessen Nützlichkeit für die synchronische Sprachforschung erwiesen ist. Nach Maßgabe der Grundlinien des LIMAS-Korpus sollen zwei weitere Zeitschnittkorpora erstellt und partiell ausgewertet werden, und zwar einmal für das Jahr 1930 und zum anderen für 1950. Die Kriterien, nach denen die Texte des LIMAS-Korpus ausgewählt wurden, sollen im Grundsatz beibehalten bleiben, aber im Hinblick auf die ins Auge gefaßten Zeitschnitte angepaßt werden. Die Zeitschnittkorpora sollen getaggt, d.h. mit eindeutigen Wortklassenangaben versehen werden.
Ansprechpartner: Prof. Dr. W. Lenders
Lexikalische Strukturen
Auf der Basis vorhandener maschinenlesbarer Wörterbücher wird nach Möglichkeiten der Repräsentation von Wortbedeutungen in 'maschinen-verarbeitbarer' Form gesucht. Dabei soll - in Abkehr von der eher ins Leere laufenden Idee der 'reusability' der 90er Jahre - ein Weg eingeschlagen werden, der eine dynamische und flexible Bedeutungsdarstellung erlaubt.
Literatur:
- N. Weber: Die Semantik von Bedeutungsexplikationen. Frankfurt 1999.
- H. Helbig: Die semantische Struktur natürlicher Sprache. Berlin 2001.Ansprechpartner: Prof. Dr. W. Lenders
Maschinelle Lemmatisierung
Das von Gerd Willée 1986 entwickelte System LEMMA2 (damals in PL/I geschrieben) wurde vollständig neu konzipiert und zusammen mit Karlheinz Stöber in der Programmiersprache C++ neu geschrieben. Ziel dieses neuen Systems LEMMA3 ist es - wie schon bei der Vorläuferversion -, die Wortformen unrestringierter geschriebener deutscher Texte automatisch zu lemmatisieren, d.h. sie mit einer eíndeutigen Wortklassenangabe sowie einer Grundform zu versehen (bei den Verbformen unter Angabe der [einfachen] Flexionsausprägung). Verwendet wird dabei ein Lexikon mit den Elementen der geschlossenen Wortklassen des Deutschen, eine morphologische Analyseliste sowie eine Menge von Kontextregeln zur Disambiguierung von homographen Wortformen und zur genauen Bestimmung der Flexonsausprägung bei Verben. Das fertige System soll in BOSS (Bonn Open Synthesis System) eingebaut werden. Durch die Verwendung von C++ ermöglicht den Einsatz des Systems auf verschiedenen Plattformen (etwa Windows, LINUX).
Ansprechpartner: Dr. G. Willée
Rhetorische und argumentative Textbeschreibung
Nach rhetorischen Regeln und Grundsätzen der Argumentation aufgebaute Texte sollten eine inhaltliche Kohärenz aufweisen, die sich in einer konsistenten Strukturbeschreibung darstellen lassen muss. Gegenstand der Untersuchungen ist die Entwicklung eines Instrumentariums rhetorischer und argumentativer Textbeschreibung auf der Basis bisheriger Forschungen und deren Anwendunge auf geeignete Korpora (Parlamentsreden; Texte aus LIMAS). Methode: Annotation der Korpora bezüglich rhetorischer und argumentativer Operatoren. Darstellung von rhetorischen Strukturen und Argumentationsstrukturen. Identifikation nicht-argumentativer Teile in argumentativen Texten.
Literatur:
- W. Lenders: Semantische und Argumentative Textdeskription. Ein Beitrag zur Simulation sprachlicher Kommunikation. Hamburg 1974.
- W. Mann and S. Thompson: Rhetorical structure theory: Description and construction of text structures. In: G. Kempen, ed.: Natural Language Generation. Dordrecht 1987.Ansprechpartner: Prof. Dr. W. Lenders
Texttechnologie und Hypermedia
Multimodale Editionen
Moderne multimediale Präsentationsformen ermöglichen es, neben die traditionellen Editionsformen von Texten (die kritische und die diplomatisch getreue Textedition) eine neue Editionsform zu setzen, für die hier die Bezeichnung Multimodale Textedition gewählt ist. Es handelt sich darum, dass sämtliche Manuskripte (Textzeugen), die Transskriptionen der Textzeugen, Anmerkungen, Kommentare, Wörterbücher, Bilder, bibliographische Angaben etc. hypertextartig miteinander verbunden werden, so dass dem "Leser" alle Daten, die über einen Text bekannt sind, potentiell zu Verfügung stehen.
In dem Projekt Hartmann 2000 wird in Kooperation mit Prof. Dr. Roy A. Boggs, Florida Golf Coast University, U.S.A., und Prof. Dr. Kurt Gärtner, Universität Trier, eine solche Edition für das Werk des mittelalterlichen Epikers Hartmann von Aue erstellt. Eine weitere Edition dieser Art zum bisher nur handschriftlich vorliegenden Korpus der Übersetzungskollegs Paul Celans ist in Vorbereitung.
Ansprechpartner: Prof. Dr. W. Lenders
Abgeschlossene Projekte
MiLCA: Medienintensive Lehrmodule in der CL-Ausbildung
(gefördert vom BMBF)
Ansprechpartner: F. Haas, Dr. B. Schröder
Musik montiert, erzählt und hörend navigiert
(gefördert vom Kompetenznetzwerk Universitätsverbund MultiMedia NRW)
Entwicklung und Evaluation interaktiver Lernarrangements zu elektroakustischer und experimenteller Musik (Bereiche Ernste Musik und Popmusik) seit 1950 im Rahmen netzgestützter Unterrichtformen an NRW-Studienseminaren auf der Basis einer online-fähigen Testmethode.
Ansprechpartner: Dr. E. Ungeheuer und Dr. B. Schröder
Schnittstelle Internet-Telefonie: Kooperation mit der Firma Retivox
In Kooperation mit der Firma Retivox wurde ein akustisches Interface zu zu Internet-Diensten (Email, WWW) entwickelt.
Ansprechpartner: Dr. B. Schröder
ZiLit: Deutsch-jüdische Schriftsteller und der Zionismus
In Zusammenarbeit mit dem Teilprojekt B2 des SFB 534 "Judentum - Christentum" wurde eine XML-basierte, hypertextuell und thematisch erschlossene Literaturdatenbank mit WWW-Schnittstelle entwickelt.
Ansprechpartner: J. Pullmann, Dr. B. Schröder
Bereitstellung und Pflege von Kants Gesammelten Werken in elektronischer Form
Die Werke Kants gemäß der Akademie-Ausgabe wurden bis Band 23 in standardisierter Form aufbereitet und mittels des WWW zugänglich gemacht. Das Projekt widmet sich dabei in besonderer Weise den Bänden 14 - 23 (Nachlass und Opus Postumum).
Ansprechpartner: Prof. Dr. W. Lenders, H.-C. Schmitz
Weitere Links
- GLDV - Gesellschaft für Linguistische Datenverarbeitung
- SDV - Sprache und Datenverarbeitung
- LiB - Interdisziplinäre Kooperation Logik in Bonn
- ISCA - international speech communication association
- ESPP - European Society for Philosophy and Psychology
- TaCoS - Tagung der Computerlinguistik-Studierenden

