Informationsextraktion
und Text Mining
Softwareprojekt im Wintersemester 2001/2002
Leitung: Dr. Günter
Neumann (neumann@dfki.de)
Dipl.-Inform. Jakub Piskorski (piskorsk@dfki.de)
Dipl.-Ling.
Feiyu
Xu (feiyu@dfki.de)
Projektbeschreibung
Eine sich neu etablierte Forschungsrichtung ist die Erforschung und
Realisierung von Systemen zur Informationsextraktion (IE). Das Ziel der
IE ist die Konstruktion von Systemen, die gezielt domänspezifische
Informationen aus freien Texten aufspüren und strukturierern können,
bei gleichzeitigen "überlesen" irrelevanter Informationen. Die so
extrahierten Informationen in Form von fein strukturierten Daten können
vielseitig eingesetzt werden, z.B. zur feinkörnigen Textfilterung
oder -klassifikation, als Einträge für Datenbanken, zur Unterstützung
von Text Mining und Antwortextraktionssytemen.
Ziel des Softwareprojekts ist die Implementierung einer Reihe von relevanten
Tools, die auf den machine learning Techniken basieren, zur Unterstützung
der Konstruktion eines domänspezifischen IE-Systems. Wir werden auf
einige der folgenden Themen fokusieren: domänspezifische Termextraktion,
Extraktion relevanter Relationen zwischen den Termen (association rules
mining), learning template filling rules and template merging rules. Die
Ausgangsbasis fuer die Implementierung sind die bereits am DFKI entwickelten
Tools.
Themen
-
Term extraction (Pattern Extraction)
-
Association rules mining
-
Template filler rules extraction
-
Template merging rules
Literatur
-
Christopher Manning and Hinrich Schütze, 1999. Foundations of Statistical
Natural Language Processing. MIT Press,
Cambridge, MA.
-
Riloff, E. (1999) "Information Extraction as a Stepping Stone toward Story
Understanding" ( postscript
)
In Computational Models of Reading and Understanding,
Ashwin Ram and Kenneth Moorman, eds., The MIT Press.
-
Riloff, E. and Jones, R. (1999) "Learning Dictionaries for Information
Extraction by Multi-Level Bootstrapping" ( postscript
, pdf )
-
A. Kehler, Learning embedded discourse mechanisms for information extraction.
In proceedings of the AAAI Spring Symposium
on Applying Machine Learning to Discourse Processing, 1998. (postscript)
-
Finkelstein-Landau and Morin, Extracting Semantic Relationships between
Terms: Supervised vs. Unsupervised Methods. In Actes, International Workshop
on Ontological Engineering on the Global Information Infrastructure, pages
71-80, Dagstuhl Castle, Germany, 1999.
-
Un Yong Nahm and Raymond J. Mooney (2001) "Text
Mining with Information Extraction", submitted to the AAAI 2002
Spring Symposium on Mining Answers from Texts and Knowledge Bases, 2002.
-
Fujino Ryoichi, Arimura Hiroki, Arikawa Setsuo, Discovering Unordered and
Ordered Phrase Association Patterns for Text Mining,
In Proceeding of Pacific-Asia Conference on Knowledge Discovering and
Data Mining, 2000. (postscript)
-
M. Rajman and R. Besancon, Text Mining: Natural Language techniques and
Text Mining applications, Proc. of the 7th IFIP 2.6
Working Conference on Database Semantics (DS-7), Chapam & Hall
IFIP Proceedings serie. Leysin, Switzerland, Oct 7-10, 1997. (postscript)
-
R. Feldman, M. Fresko, Y. Kinar, Y. Lindell, O. Liphstat, M. Rajman, Y.
Schler, O. Zamir, Text Mining at the Term Level,
roc. of the 2nd European Symposium on Principles of Data Mining and
Knowledge Discovery (PKDD'98), Nantes, France,
September 23-26, 1998. (postscript)
-
R. Feldman, Y. Aumann, A. Amir, W. Kloesgen, A. Zilberstein, Maximal Association
Rules: a New Tool for Mining for Keyword co-occurrences in Document Collections.
In Proceedings of the 3-rd International Conference on Knowledge Discovery,
Newport Beach, CA.
Voraussetzungen
Kenntnisse einer der folgenden imperativen Programmierprachen: Java,
C, C++
Interesse an Softwareentwicklung in einem interdisziplinären Umfeld.
Stellung im Studienplan
Softwareprojekt: Wahlpflicht für Diplom-CL; 8 Leistungspunkte.
Scheinvergabe
Programmierprojekt und Dokumentation.
Zeit und Ort
Anfangsveranstaltung: 6. November 2001, Dienstag um 16:00 Uhr
Ort: DFKI, Bau 43, Zimmer 1.17 bei Günter Neumann
E-mail: neumann@dfki.de
Last modified: 18.08.2001