Forschungsprojekt
TrendMiner - Large-scale, Cross-lingual Trend Mining and Summarisation of Real-time Media Streams
Das massive Wachstum von Online-Medien und die Zunahme von verteilt erstellten Inhalten (z.B. Weblogs, Twitter, Facebook) hat neue technologische Herausforderungen mit sich gebracht. Darunter fällt die Frage wie man den interpretierenden Zugriff auf solche mehrsprachigen (Text-)Daten effizient und zu erschwinglichen Preisen gewährleisten kann.
TrendMiner setzt sich insbesondere mit (multilingualen) Streaming Online-Medien auseinander und erarbeitet Lösungen für die Verarbeitung der sehr diversen natürsprachlichen Daten, die kurz, grammatisch fehlerhaft und umgangssprachlicher Natur sind.
Die temporale Dimension von Streaming Online-Medien stellt eine zusätzliche Herausforderung dar, da der zeitliche Kontext von Äußerungen mitberücksichtigt werden muss, wenn kurze Nachrichten zuverlässig interpretiert werden sollen.
Das Ziel von TrendMiner sind innovative und übertragbare Open-Source-Echtzeit-Methoden für das cross-linguale Mining und für die Zusammenfassung von großen Streamings von sprachlichen Daten in sozialen Medien. TrendMiner wird dies durch einen interdisziplinären Ansatz erreichen, der linguistische Methoden, wissensbasiertes Ableiten und maschinelles Lernen mit Verfahren aus den Wirtschafts- und Politikwissenschaften kombiniert.
TrendMiner verzichtet auf teure manuelle Annotierung von Daten und nutzt stattdessen Zeitreihendaten (z.B. von den Finanzmärkten und von politischen Umfragen) als Proxy. Eine wichtige Neuerung liegt im Einsatz von schwach überwachten Algorithmen des maschinellen Lernens für die automatische Erkennung von neuen Trends und Korrelationen.
Skalierbarkeit und Erschwinglichkeit werden durch eine Cloud-basierte Infrastruktur für Echtzeit-Text-Mining gewährleistet. Finanz-Decision Support und automatische politische Analyse werden in Kooperation mit Fachleuten implementiert. Die Ergebnisse von TrendMiner werden in zweiFallstudien validiert werden.
Kontakt
Ansprechpartner:
Thierry Declerck
Projektleitung:
Thierry Declerck
Homepage:
http://www.trendminer-project.eu
Beteiligte Forschungsbereiche
Publikationen
- 2012
- Thierry Declerck; Stefania Racioppa; Karlheinz Mörth
Automatized Merging of Italian Lexical Resources.
In: Núria Bel; Maria Gavrilidou; Monica Monachini; Valeria Quochi; Laura Rimell (Hrsg.). Proceeding of the LREC 2012 Workshop on Language Resource Merging. International Conference on Language Resources and Evaluation (LREC-12), 8th, located at LREC, May 22, Istanbul, Turkey, ELRA, Paris, 5/2012. - Christian Federmann; Dagmar Gromann; Thierry Declerck; Sabine Hunsicker; Hans-Ulrich Krieger; Gerhard Budin
Multilingual Terminology Acquisition for Ontology-based Information Extraction.
In: Guadalupe Aguado de Cea; Mari Carmen Suárez-Figueroa; Raúl García-Castro; Elena Montiel-Ponsoda (Hrsg.). Proceedings of the 10th Terminology and Knowledge Engineering Conference. Terminology and Knowledge Engineering Conference (TKE-2012), New frontiers in the constructive symbiosis of terminology and knowledge engineering, June 20-21, Madrid, Spain, Pages 166-175, TKE, Madrid, 6/2012. - Thierry Declerck; Hans-Ulrich Krieger; Dagmar Gromann
Acquisition, Representation, and Extension of Multilingual Labels of Financial Ontologies.
In: Rute Costa; Manuel Silva; António Lucas Soares (Hrsg.). Proceedings of the TKE Workshop "Challenges to knowledge representation in multilingual contexts". TKE Workshop "Challenges to knowledge representation in multilingual contexts", located at TKE, June 19, Madrid, Spain, Pages 17-26, TKE, Madrid, 6/2012. - Dagmar Gromann; Thierry Declerck
Terminology Harmonization in Industry Classification Standards.
In: Tatiana Gornostay (Hrsg.). Proceedings of CHAT 2012: The 2nd Workshop on the Creation, Harmonization and Application of Terminology Resources. Workshop on the Creation, Harmonization and Application of Terminology Resources (CHAT-12), located at TKE 2012, June 22, Madrid, Spain, Pages 19-26, ISBN 1650-3740, Linköping University Electronic Press, Linköping, 6/2012. - Thierry Declerck; Dagmar Gromann
Extraction of Multilingual Term Variants in the Business Reporting Domain.
In: Tatiana Gornostay (Hrsg.). Proceedings of CHAT 2012 The 2nd Workshop on the Creation, Harmonization and Application of Terminology Resources. Workshop on the Creation, Harmonization and Application of Terminology Resources (CHAT-12), located at TKE 2012, June 22, Madrid, Spain, Pages 41-47, ISBN 1650-3740, Linköping University Electronic Press, Linköping , 6/2012. - Thierry Declerck; Dagmar Gromann
Combining three Ways of Conveying Knowledge: Modularization of Domain, Terminological, and Linguistic Knowledge in Ontologies.
In: Thomas Schneider; Dirk Walther (Hrsg.). Proceedings of the 6th International Workshop on Modular Ontologies. International Workshop on Modular Ontologies (WoMO-12), 6th, located at FOIS, July 24, Graz, Austria, Pages 28-40, CEUR Workshop Proceedings, Vol. 875, ISBN ISSN 1613-0073, CEUR-WS, Aachen, 7/2012. - Thierry Declerck; Brigitte Krenn; Karlheinz Mörth (Hrsg.)
LThist 2012: First International Workshop on Language Technology for Historical Text(s).
Workshop on Language Technology for Historical Text(s) (LThist-12), located at The 11th Conference on Natural Language Processing, September 21, Vienna, Austria, ÖGAI, 9/2012.
