Informationsextraktion und Text Mining

Softwareprojekt im Wintersemester 2001/2002

Leitung:   Dr. Günter Neumann (neumann@dfki.de)
                              Dipl.-Inform. Jakub Piskorski (piskorsk@dfki.de)
          Dipl.-Ling. Feiyu Xu (feiyu@dfki.de)







Projektbeschreibung
 

Eine sich neu etablierte Forschungsrichtung ist die Erforschung und Realisierung von Systemen zur Informationsextraktion (IE). Das Ziel der IE ist die Konstruktion von Systemen, die gezielt domänspezifische Informationen aus freien Texten aufspüren und strukturierern können, bei gleichzeitigen "überlesen" irrelevanter Informationen. Die so extrahierten Informationen in Form von fein strukturierten Daten können vielseitig eingesetzt werden, z.B. zur feinkörnigen Textfilterung oder -klassifikation, als Einträge für Datenbanken, zur Unterstützung von Text Mining und Antwortextraktionssytemen.

Ziel des Softwareprojekts ist die Implementierung einer Reihe von relevanten Tools, die auf den machine learning Techniken basieren, zur Unterstützung der Konstruktion eines domänspezifischen IE-Systems. Wir werden auf einige der folgenden Themen fokusieren: domänspezifische Termextraktion, Extraktion relevanter Relationen zwischen den Termen (association rules mining), learning template filling rules and template merging rules. Die Ausgangsbasis fuer die Implementierung sind die bereits am DFKI entwickelten Tools.
 

Themen


Literatur

Voraussetzungen

Kenntnisse einer der folgenden imperativen Programmierprachen: Java, C, C++

Interesse an Softwareentwicklung in einem interdisziplinären Umfeld.
 

Stellung im Studienplan

Softwareprojekt: Wahlpflicht für Diplom-CL; 8 Leistungspunkte.
 

Scheinvergabe

Programmierprojekt und Dokumentation.

Zeit und Ort

Anfangsveranstaltung: 6. November 2001, Dienstag um 16:00 Uhr
Ort: DFKI, Bau 43, Zimmer 1.17 bei Günter Neumann

E-mail: neumann@dfki.de

Last modified: 18.08.2001