SProUT - Shallow Processing with Unification and Typed Feature Structures

Projekt

Shallow Processing with Unification and Typed Feature Structures

Laufzeit:
01.03.2006 - 31.12.2021

SProUT ist ein System zur partiellen Analyse von Texten. Es wird insbesondere - aber nicht ausschließlich - für die Erkennung von Namensausdrücken ("named entity recognition", NER) und für Meinungsanalyse ("opinion mining") eingesetzt. Die einfache Erkennung von Namensvorkommen beinhaltet u.a. Personennamen, Ortsnamen, Datums- und Währungsausdrücke, Funktionen, Firmen- und Organisationsnamen. Darüber hinaus kann SProUT auch Beziehungen zwischen Namensausdrücken erkennen und z.B. "Peter Müller, Ministerpräsident des Saarlandes" als eine komplexe kohärente Einheit analysieren. Darüber hinaus können SProUT-Instanzen "kaskadiert" werden, so dass die Ergebnisse der einen in einer anderen Instanz weiterverarbeitet werden. Auf diese Weise können komplexe Relationen aus Texten extrahiert werden.

SProUT erkennt gegenwärtig Namensausdrücke in den Sprachen Deutsch, Englisch, Französisch, Italienisch, Spanisch und Niederländisch mit hoher Qualität. Ressourcen für weitere Sprachen werden derzeit integriert.

SProUT ist in Java und C implementiert und wird mit einer Java-Programmierschnittstelle geliefert. Das System kann daher leicht in andere Anwendungen integriert werden. SProUT verarbeitet Textdateien und liefert strukturierte Ergebnisse in XML. Für Grammatikentwickler bietet SProUT eine Entwicklungs- und Test-Plattform mit komfortabler graphischer Benutzerschnittstelle an. Damit können angebotene Sprachressourcen jeweiligen speziellen Erfordernissen angepasst werden.

Kontakt

Stefania Racioppa, M.A.

Stefania.Racioppa@dfki.de

Keyfacts

Beteiligte Forschungsbereiche
Sprachtechnologie und Multilingualität
Leitung
Prof. Dr. Stephan Busemann
Webseite
http://sprout.dfki.de/