Publikation

Morphic-Plus - Ein morphologisches Analyseprogramm für die deutsche Flexionsmorphologie und Komposita-Analyse

Ottmar Lutzky

DFKI DFKI Documents (D) 95-07 1995.

Abstrakt

Die morphologische Analyse nimmt bei der Verarbeitung geschriebener natürlicher Sprache eine überaus wichtige Position ein. Neben der Grundform- und Wortartbestimmung mit Hilfe einer morphologischen Analyse wird vor allem die Ermittlung von Flexionsinformationen verstanden. Die Wichtigkeit dieses Teilprozesses für die Textanalyse ist von der zu bearbeitetenden Sprache abhängig. Die deutsche Sprache gehört zu einer Sprachklasse mit freier Wortstellung, d.h. die grammatikalische Information für ein Wort wird fast ausschließlich durch die Analyse der Flexionsform des Wortes und nicht durch dessen Stellung im Satz gewonnen. Mit Morphic-Plus steht ein Lemmatisierungsmodul zur Verfügung, mit dessen Hilfe flektierte Wortformen auf deren kanonische Wortstämme zurückgeführt werden kann. In der deutschen Sprache sind häufig zusammengesetzte Wörter, sogenannte Komposita, zu finden. Insbesondere in der wissenschaftlichen Literatur ist die Bildung neuer Worte aus bekannten Teilworten gängig. Morphic-Plus bietet daher neben einer Flexionsmorphologie auch eine Kompositaanalyse für zusammengesetzte Wörter. Bei der Analyse der Komposita durch Morphic-Plus wird die Wortbildung dahingehend eingeschränkt, daß ein Kompositum nur aus Nomen, Verben und Adjektiven gebildet werden kann. In dieser Arbeit wird sowohl auf die Organisation des zugrundeliegenden Lexikons und dessen Aufbau als auch auf die Algorithmen von Morphic-Plus und deren Implementierung eingegangen. Das Lexikon und die darin verschlüsselten Information ist für die Analyse von zentraler Bedeutung. Im Lexikon, Morphic-Lex genannt, ist das Wissen über die Sprache kodiert.

Deutsches Forschungszentrum für Künstliche Intelligenz
German Research Center for Artificial Intelligence