Sprachtechnologie: Prof. Uszkoreit erhält Google Focused Research Award

Die Einladung von Google kam Anfang des Jahres, die gute Nachricht einige Monate später: Prof. Dr. Hans Uszkoreit, wissenschaftlicher Direktor am DFKI, Sprachtechnologieexperte und Sprecher des DFKI-Projektbüros Berlin, wurde zu Jahresbeginn von Google gebeten, sich für einen Focused Research Award zu bewerben. Ende Juni kam die Bestätigung aus Kalifornien.




Prof. Uszkoreit und Dr. Feiyu Xu, DFKI Senior Software Ingenieurin, reichten die Projektskizze zusammen mit ihrem Kollegen Prof. Roberto Navigli von der La Sapienza Universität Rom in einem Spezialprogramm zu sprachverstehenden Systemen ein. Die Invitation-only-Ausschreibung, zu der Google führende Vertreter der Sprachtechnologie eingeladen hatte, lautete “Knowledge Graphs and Compositionality in Web-scale Natural Language Understanding”. Das von Uszkoreit, Xu und Navigli vorgeschlagene Projekt heisst LUcKY bzw. “Language Understanding cum Knowledge Yield". Untersucht werden Software-Werkzeuge, die die automatische Extraktion von begrifflichen Beziehungen (Relation Extraction) aus sehr großen Wissensbanken bzw. Faktensammlungen leisten. Die finanzielle Obergrenze für Focused Research Award Projekte in dem Google-Programm war vorgegeben mit 230.000 USD, Kürzungen bereits angekündigt. Bewilligt wurden nun 220.000 USD.

Der Großteil des menschlichen Faktenwissens wird sprachlich produziert, tradiert und in Texten archiviert. Durch Fortschritte in der Computerlinguistik und der anwendungsorientierten Sprachtechnologie gelingt es mittlerweile immer besser, nicht nur die voneinander getrennten Einzeldaten in Datensilos zu nutzen, sondern auch die Beziehung zwischen diesen Fakten zu analysieren und für den Erkenntnisgewinn einzusetzen. Sprachverstehende Systeme für Wissensextraktion aus sehr großen sprachlichen Wissensbanken versprechen eine Fülle von neuen Erkenntnissen. Sehr reichhaltige Quellen sind z.B. die populäre Online-Enzyklopädie Wikipedia, aber auch die weniger bekannte Freebase-Wissensbasis, eine kuratierte Daten- und Faktensammlung über Personen, Orte und Dinge mit aktuell über 1,8 Milliarden Einträgen und 40 Millionen Themen.

Die durch LUcKY resultierenden Wissensgraphen erschließen und repräsentieren explizite Inhaltszusammenhänge, die sprachlich in den Texten enthalten sind, aber von einer simplen Schlüsselwortsuche nicht gefunden werden können. Ziel ist die automatische Identifikation von semantischen Beziehungen zwischen Begriffen und das neue Wissen, welches sich über die Themenerkennung und die Beziehungsanalyse erschließen lässt. Eingesetzt werden die Sprachtechnologien, um in Anwendungsszenarien wie z.B. in medizinischen Big Data Beständen, Zusammenhänge erkennen und auswerten zu können. Das kann zu neuen Diagnosen, Therapien oder Medikamenten führen oder Erkenntniszuwachs liefern über bisher weniger bekannte Krankheitsverläufe, Heilungschancen oder Nebenwirkungen. Dem behandelnden Arzt erschließt sich der handhabbare Zugang zu extrem großen Datenmengen. Das persönliche Erfahrungswissen des Arztes wird durch die sprachliche Erschließung des hochgradig verteilten Wissens im Web, durch Wissensbanken und die Erfahrung der Vielen bereichert.

Weitere Anwendungsgebiete mit großem Nutzen für die breite Öffentlichkeit sind im Bereich Sentiment Analyse bzw. der Einschätzung von Kundeninteraktionen. Auf vielen Bewertungsplattformen findet man Produktbesprechungen, Rezensionen oder Empfehlungen, bei denen die Objektivität der Autoren nicht garantiert oder zumindest zweifelhaft ist. Gerade im Bereich des Tourismus könnten Kundenempfehlungen hilfreich sein und für die Kauf- oder Buchungsentscheidung eine große Rolle spielen. Leider ist in den vergangenen Jahren der Eindruck entstanden, dass diese Empfehlungen nur sehr begrenzt verlässlich sind, da nicht nachvollziehbar ist, ob der Rezensent z.B. eines Hotels, einer Ferienanlage oder eines Restaurants die Empfehlung als relevante private Meinung äußert oder möglicherweise ein Gefälligkeits- oder Auftragsposting erstellt. Die Analyse des Kundenfeedbacks könnte Aufschluss über die Verlässlichkeit des Kommentars bieten oder helfen mögliche Eigeninteressen des Kommentators zu identifizieren.

Zur Bedeutung der Focused Research Awards erklärt Google: „We fund specific research in areas of study that are of key interest to Google as well as the research community, through our Google Focused Research Awards program. These awards are large, multi-year commitments to support research that will have a significant impact on the field. Participation in the program is by invitation only.“

Für den Informatikstandort Saarbrücken ist es der dritte Google Focused Research Award. 2010 erhielt ihn Prof. Andreas Zeller, Universität des Saarlandes, im Bereich Software and Hardware Systems Infrastructure. Im Jahr 2011 wurde Prof. Gerhard Weikum, Max-Planck Institut für Informatik, im Bereich Information Retrieval, Extraction, and Organization mit einem Focused Research Award unterstützt.

 

DFKI Pressekontakt:

Reinhard Karger, M.A.

DFKI Unternehmenssprecher

Tel: +49 681 85775 5253

Fax: +49 681 85775 5485

Mobil: +49 151 1567 4571

E-Mail: reinhard.karger@dfki.de

 

Weitere Informationen:

http://googleresearch.blogspot.de/2013/07/natural-language-understanding-focused.html

http://research.google.com/university/relations/

http://research.google.com/university/relations/focused_research_awards.html

http://www.dfki.de/lt/lt-general.php

http://www.freebase.com