Maschinelle Lernverfahren für Informationsextraktion
und Text Mining
Hauptseminar im Sommersemester 2001
Leitung: Dr. Günter Neumann
,
Dipl.-Ling. Feiyu Xu, Dipl.-Inform.
Jakub Piskorski
Ort: Geb. 17.2, Konferenzraum 2.11
Zeit: Mittwoch 14-16 Uhr
Beginn: 18.04.2001
Inhalt
German:
Bei der Informationsextraktion und dem Text Mining
geht es um das Aufspüren und Strukturieren relevanter Informationseinheiten
aus einer Menge von unstrukturierten oder semi-strukturierten Texten. Wichtige
Teilbereiche hierbei sind z.B. Extraktion von Termen und Ontologien,
Topic
Detection, Named Entity Erkennung, Extraktion von Templates
und
Klassifikation
von Dokumenten. In den letzten Jahren werden in diesen verschiedenen
Teilbereichen verstärkt, maschinelle Lernverfahren entwickelt, um
eine möglichst automatische Anpassung der Basistechnologien an neue
Anwendungen und Wissensbereiche zu erreichen.
Das Seminar fängt mit einer kurzen Einfürung
in die Gebiete Informationsextraktion und Text Mining an, die auch eine
Abgrenzung zu verwandten Themen wie z.B. Information Retrieval and
Question
Answering Systems umfasst. Das Ziel dieses Seminars ist es dann, verschiedene
aktuelle maschinelle Lernverfahren für Informationsextraktion und
Text Mining zu diskutieren und zu vergleichen.
English:
Information extraction and text mining is concerned
with the detection and normalization of relevant information from a set
of unstructured
or semi-structured NL texts. Important subtasks
are here, e.g., the extraction of terms and ontologies, topic detection,
named entity recognition,
extraction of templates and text categorization.
In recent years more and more approaches based on Machine Learning are
used in order to
achieve a high degree of automatic adaptation
towards new application and knowledge areas.
This seminar starts with a short introduction
into the fields of information extraction and text mining, and a brief
comparision with other
research areas like information retrieval and
question answering systems. The main objective is then, to discuss and
compare the different
learning approaches currently developed in information
extraction and text mining.
Literatur
Einige kompakte Einführungen zum Thema
Informationsextraktion und Text Mining finden sich in:
Einführungsvorträge
Vorläufige Themenliste und Zeitplan
-
2. Mai Wissensbasierte
IE-Systeme: FASTUS, GATE, DFKI-SMES-Technologien
9. Mai Template Merging
16. Mai Induktive Lernverfahren: Supervised/Unsupervised
Template Learning
23. Mai Named Entity Recognition (Decision trees,
HMMs, Maximum Entropy Modeling)
-
Vortrag von Stephan Lesch[.ppt][.htm]
-
Literatur
-
A. Gallippi, Learning to Recognize Names Across
Languages. In Proceedings of the Sixteenth International Conference on
Computational Linguistics. Copenhagen, Denmark. August, 1996
-
Bikel, Miller, Schwartz and Weischedel, Nymble:
a High-Performance Learning Name-finder,In proceedings of ANLP-1997, Washington,
DC, pages 195-201
-
A. Borthwick, A
Maximum Entropy Approach to Named Entity Recognition, Ph.D. (1999)
New York University. Department of Computer Science, Courant Institute.
-
30. Mai Information Wrapping --- Lernen
aus Semi-Strukturierten Dokumenten
-
Vortrag von Ulf Knoblich [.ps.gz]
-
Literatur
-
D. Freitag, Information
extraction from HTML: application of a general machine learning approach,
In Proceedings of AAAI-98
-
D. Freitag and N. Kushmerick, Boosted
wrapper induction, In Proceedings of AAAI-2000.
-
Hsin-Hsi Chen, Shih-Chung Tsai, Jin-He Tsai, Mining
Tables from Large Scale HTML Texts, In Proceedings of Coling 2000, Saarbrücken,
Germany, 2000.
-
6. Juni Classification
-
13. Juni Clustering
-
Literatur
-
A
Comparison of Document Clustering Techniques. Michael Steinbach,
George Karypis and Vipin Kumar
-
Clustering
Full Text Documents, Joel D. Martin, Workshop on Data Engineering for
Inductive Learning IJCAI-95, Montreal (Canada), August 20, 1995
-
Lightweight
Document Clustering, Sholom Weiss, Brian White, Chid Apte
-
Zamir O., Etzioni O.: Web
Document Clustering: A Feasibility Demonstration. In:
SIGIR'98, Melbourne, Australia.
-
http://dewey.yonsei.ac.kr/memexlee/links/clustering.htm
-
20. Juni Topic detection
-
Vortrag: Johanna Völker [.ppt.zip]
-
Literatur
-
Topic
Detection and Tracking (TDT)
-
K.
Seymore and R. Rosenfeld, Large-scale
Topic Detection and Language Model Adaptation.
Tech. report CMU-CS-97-152, Computer
Science Department, Carnegie Mellon University, June, 1997.
-
Yiming Yang, Jaime Carbonell, Ralf Brown, Thom
Pierce, Brian T. Archibald, Xin Liu, Learning
Approaches for Detecting and Tracking News Events (pdf.gz). IEEE Intelligent
Systems: Special Issue on Applications of Intelligent Information Retrieval,Vol.
14(4), pp32-43, July/August 1999.
-
Allan, J., Carbonell, J.G., Doddington, G., Yamron,
J. and Yang Y., Topic
Detection and Tracking Pilot Study Final Report, Proceedings
of the Broadcast News Transcription and Understranding Workshop (Sponsored
by DARPA), Feb. 1998.
-
L. A. Mather, J. Note: Discovering
Encyclopedic Structure and Topics in Text
KDD-2000 Workshop on Text Mining
-
27. Juni Extraktion und Induktion von Ontologien
und Lexikalisch Semantischen Relationen
-
Vortrag: Claudia Vispi [.ppt]
-
Literatur
-
CMU World Wide Knowledge Base (Web->KB) project,
CS Department, Carnegie Mellon University, Pittsburgh
-
Finkelstein-Landau and Morin, Extracting Semantic
Relationships between Terms: Supervised vs. Unsupervised Methods. In Actes,
International Workshop on Ontological Engineering on the Global Information
Infrastructure, pages 71-80, Dagstuhl Castle, Germany, 1999.
-
A. Maedche and S. Staab. Discovering
Conceptual Relations from Text. In Proceedings of the 14th European
Conference on Artificial Intelligence, Berlin, August 21-25, 2000.
-
4. Juli Chinese Information Extraction
(Gastvortrag von Prof. Yao von der Shanghai Jiao Tong Universität)
Voraussetzungen/Bemerkungen
Einführung Informatik und Computerlinguistik, Grundkenntnisse
in formalen Sprachen (insbesondere Automatentheorie) und Logik,
Programmiererfahrung.
Scheine
Vortrag und Hausarbeit
________________________________________________________________________________________
E-mail: neumann@dfki.de
Last modified: 19.04.2001