Projekt

SProUT

Shallow Processing with Unification and Typed Feature Structures

Shallow Processing with Unification and Typed Feature Structures

  • Laufzeit:

SProUT ist ein System zur partiellen Analyse von Texten. Es wird insbesondere - aber nicht ausschließlich - für die Erkennung von Namensausdrücken ("named entity recognition", NER) und für Meinungsanalyse ("opinion mining") eingesetzt. Die einfache Erkennung von Namensvorkommen beinhaltet u.a. Personennamen, Ortsnamen, Datums- und Währungsausdrücke, Funktionen, Firmen- und Organisationsnamen. Darüber hinaus kann SProUT auch Beziehungen zwischen Namensausdrücken erkennen und z.B. "Peter Müller, Ministerpräsident des Saarlandes" als eine komplexe kohärente Einheit analysieren. Darüber hinaus können SProUT-Instanzen "kaskadiert" werden, so dass die Ergebnisse der einen in einer anderen Instanz weiterverarbeitet werden. Auf diese Weise können komplexe Relationen aus Texten extrahiert werden.

SProUT erkennt gegenwärtig Namensausdrücke in den Sprachen Deutsch, Englisch, Französisch, Italienisch, Spanisch und Niederländisch mit hoher Qualität. Ressourcen für weitere Sprachen werden derzeit integriert.

SProUT ist in Java und C implementiert und wird mit einer Java-Programmierschnittstelle geliefert. Das System kann daher leicht in andere Anwendungen integriert werden. SProUT verarbeitet Textdateien und liefert strukturierte Ergebnisse in XML. Für Grammatikentwickler bietet SProUT eine Entwicklungs- und Test-Plattform mit komfortabler graphischer Benutzerschnittstelle an. Damit können angebotene Sprachressourcen jeweiligen speziellen Erfordernissen angepasst werden.

Projekt teilen auf:

Ansprechpartner

Deutsches Forschungszentrum für Künstliche Intelligenz
German Research Center for Artificial Intelligence