LEMMA
Automatische Lemmatisierung von Wortformen unrestringierter geschriebener deutscher Texte
Das von Gerd Willée 1986 entwickelte System LEMMA2 (damals in PL/I geschrieben) wurde vollständig neu konzipiert und zusammen mit Karlheinz Stöber in der Programmiersprache C++ neu geschrieben. Ziel dieses neuen Systems LEMMA3 ist es - wie schon bei der Vorläuferversion -, die Wortformen unrestringierter geschriebener deutscher Texte automatisch zu lemmatisieren, d.h. sie mit einer eindeutigen Wortklassenangabe sowie einer Grundform zu versehen (bei den Verbformen unter Angabe der [einfachen] Flexionsausprägung). Verwendet wird dabei ein Lexikon mit den Elementen der geschlossenen Wortklassen des Deutschen, eine morphologische Analyseliste sowie eine Menge von Kontextregeln zur Disambiguierung von homographen Wortformen und zur genauen Bestimmung der Flexonsausprägung bei Verben. Das fertige System soll in BOSS eingebaut werden. Die Verwendung von C++ ermöglicht den Einsatz des Systems auf verschiedenen Plattformen (etwa Windows, LINUX).
Ansprechpartner: Dr. G. Willée

