Prof. Sebastian Möller: Anwendungspotentiale der Sprachtechnologie und die Rolle des DFKI im Berliner KI-Ökosystem

22.10.2020 | Speech and Language Technology | Berlin

"Sprachtechnologie, insbesondere die Analyse von Sprache, eröffnet vielfältige, neue Anwendungsgebiete". In diesem Gespräch skizziert Prof. Dr. Möller, Sprecher des DFKI-Projektbüro Berlin, Anwendungsszenarien von Sprachtechnologie und spricht über die Rolle des DFKI im Berliner KI-Ökosystem.

Herr Professor Möller, Sie sind Professor an der TU Berlin und Sprecher des DFKI Projektbüros Berlin. Können Sie uns einen kurzen Abriss Ihrer wissenschaftlichen Laufbahn geben?

Gerne. Ich habe ursprünglich Elektrotechnik studiert und mich in der Signalverarbeitung spezialisiert. Dort habe ich mich mit der Fragestellung von Mensch-Maschine-Interaktion beschäftigt, also wie Menschen mit Technik umgehen. Ich bin also von Hause aus gar kein klassischer Informatiker.

Künstliche Intelligenz und Maschinelles Lernen gibt es ja schon lange, auch wenn es aktuell zu einem Hype-Thema geworden scheint. Wir haben damals z.B. versucht, mit Methoden des Maschinellen Lernens Säuglingsschreie zu klassifizieren. An der TU Berlin habe ich mich anschließend mit Mensch-Maschine-Interaktion, insbesondere Qualität und Gebrauchstauglichkeit, beschäftigt und tue das weiterhin.

Über diesen Ansatz bin ich dann auch zum DFKI gekommen. Genauer gesagt ging es um sprachtechnologische Systeme, also Systeme, in denen Menschen über Sprache mit Computern interagieren und da bin ich dann gefragt worden, ob ich das auch im Rahmen des DFKI machen möchte. Wobei es da im Deutschen hier eine Mehrdeutigkeit gibt; Sprache bedeutet ja sowohl die gesprochene wie auch die geschriebene Sprache. Ich habe mich eigentlich immer mehr mit gesprochener Sprache beschäftigt. In meinem Forschungsbereich am DFKI in Berlin arbeiten wir nun allerdings mehr mit geschriebener Sprache, also mit Texten.

Inwiefern ergänzen sich Ihre Arbeiten am DFKI mit Ihrer Tätigkeit an der TU Berlin?

Sie ergänzen sich sehr gut. An der TU Berlin beschäftigen wir uns auf verschiedenen Ebenen mit Mensch-Maschine-Interaktion, oder allgemeiner, mit Mensch-Technik-Interaktion. Wir beschäftigen uns zwar mit Sprache aber auch mit Video. Da geht es z.B. um Gaming, Virtuelle Realität, um digitale Technologien und wie man diese möglichst gut und gebrauchstauglich gestalten kann.

Die sprachbasierte Interaktion, also das, was man heutzutage gerne unter Chatbots zusammenfasst, ist eine Art der Mensch-Maschine-Interaktion. Sprachtechnologie, insbesondere die Analyse von Sprache, eröffnet vielfältige, neue Anwendungsgebiete, weil sehr viele Informationen bereits in Form von Text vorliegen. Daher ist z.B. die Informationsextraktion aus Texten eine grundlegende Technik, die man in den unterschiedlichsten Anwendungsfeldern gebrauchen kann. Deshalb ist Sprachtechnologie einerseits eine Spezialisierung in Bezug auf die Mensch-Maschine-Interaktion, aber andererseits auch eine grundlegende Technik, die man in vielen anderen Bereichen anwenden kann.

Lassen Sie uns über Projekte sprechen, die aktuell in Ihrem Forschungsbereich am DFKI laufen. Können Sie ein oder zwei Projekte skizzieren?

Wir arbeiten an einer Reihe von Projekten, die sich mit Informationsextraktion beschäftigen. Da geht es zum Beispiel darum, wie man Informationen über Ereignisse aus Texten herausfiltern kann. Solche Ereignisse können beispielsweise Unfälle, Staus, Streik oder ähnliches sein. Solche Ereignisse haben potenziell Auswirkungen auf den Zug- oder Autoverkehr, auf Lieferketten, auch darauf, ob ein Produkt hergestellt werden kann. Wie kommt man nun zeitnah an diese Information? Neben strukturierten Daten, die z.B. aus Datenbanken in internen (Firmen-) Netzen stammen, gibt es beispielsweise in sozialen Medien eine große Menge unstrukturierter öffentlicher Daten, die häufig sehr viel schneller und aktueller sind. Dort werden Gerüchte und Tatsachen verbreitet, man muss versuchen, diese Informationen sehr schnell zusammenzuführen. Zunächst mal, um sie zu identifizieren und anschließend zu verifizieren.

Das bedeutet, den Wahrheitsgehalt einer Information oder zumindest die Glaubwürdigkeit einer Information zu überprüfen. Hier beschäftigen wir uns mit Systemen, die z.B. in der Lage sind, Schlussfolgerungen aus solchen Informationen abzuleiten, um beispielsweise Staus auf der Autobahn zu vermeiden, oder der Deutschen Bahn frühzeitig Störungen im Signalnetz mitzuteilen, damit diese entsprechend Kunden informieren können oder Umleitungen planen. Oder im anderen Fall, wenn es um die Lieferketten geht: Welche Auswirkungen hat es z.B., wenn eine Firma aufgekauft wird oder irgendwo gestreikt wird? Welche Auswirkung hat das auf ein Produkt?

So etwas lässt sich mit Methoden der Informationsextraktion machen. Typischerweise ist der vorhandene Informationsträger Text, in allen möglichen lesbaren Formen.

Ein anderes Beispiel ist die Kuratierung von großen Datenmengen. Wenn wir mit Texten arbeiten, sind diese typischerweise multilingual. Allein in der Europäischen Union gibt es 24 Amtssprachen, in denen potenziell Texte vorliegen. Das bedeutet, dass diese Sprachtechnologien und Daten für diese unterschiedliche Sprachen anwendbar sein müssen.

Es herrscht ein Ungleichgewicht zwischen Sprachen wie Englisch, Spanisch, vielleicht auch Deutsch, für die deutlich mehr Daten vorliegen, und Ungarisch, Finnisch oder Kroatisch, für die weit weniger Daten verfügbar sind. Um diesem Problem zu begegnen, wollen wir vorhandene Daten und Tools zentral sammeln und zur Verfügung stellen. Dies dient auch der Inklusion von Sprachen und Sprachfamilien, die nicht so häufig gesprochen werden, denn diese sollen ja nicht deshalb zum Aussterben verdammt sein, weil es sich für einen kommerziellen Betreiber nicht lohnt, in einer solchen Sprache große Datenmengen zu sammeln. Wir arbeiten in verschiedenen Projekten daran, solche Daten verfügbar zu machen und in ein nutzbares Format zu bringen.

Das ist zunächst mal allgemein auf Sprachdaten bezogen, kann aber auch auf unterschiedliche Typen oder Domänen angewandt werden. Beispielsweise mit juristischen oder medizinischen Texten. Bei Letzteren herrscht oft eine gewisse Datenknappheit, da medizinische Daten typischerweise auch persönliche Informationen umfassen, die nicht einfach freigegeben werden können. Wie kann man solche Daten trotzdem verfügbar machen und auch Tools, wie man mit solchen Daten arbeiten kann?

Wenn Sie von Sprachdaten sprechen, was meinen Sie genau?

Es handelt sich nicht um das Vokabular der Sprachen, sondern um Textdaten, die zeigen, wie die Sprache benutzt wird. Sie zeigen, welches Vokabular für welche Aufgaben genutzt wird, wie sich Nutzer oder eben Personen, die die Sprache benutzen, ausdrücken. Und aus diesen Texten, diesen Daten, können wir dann versuchen, Informationen zu extrahieren. Beispielsweise ist eine klassische Aufgabe, “Named Entities”, also Ortsnamen oder Firmennamen zu identifizieren. Anschließend stellt man Relationen zwischen Textbausteinen her, z.B. eine Firma wurde von der anderen gekauft. Das sind Relationen von verschiedenen Entitäten, von Textteilen sozusagen.

So lassen sich auch Argumentationen nachvollziehen, also etwas wird als Beweis oder Gegenbeweis für etwas angeführt, um den Wahrheitsgehalt eines Textes überprüfen zu können. Wie in einem Text argumentiert wird, wird durch bestimmte Wörter suggeriert. “Weil” oder “im Gegensatz zu” oder “wie schon der und der sagte“ sind Textmarker, die aus großen Textmengen extrahiert werden können. Das macht man typischerweise alles datengetrieben, weil es zu komplex wäre, dies in Regeln zu fassen und dafür eine Grammatik zu schreiben. Das Vokabular solcher Inhalte ändert sich häufig. Wenn wir vor einem Jahr eine Grammatik geschrieben für medizinische Begriffe hätten, dann wäre COVID-19 darin nicht vorgekommen und auch viele der Zusammenhänge sind dort in den Texten gar nicht vorgekommen, sodass wir dazu auch gar keine vernünftige Grammatik hätten schreiben können. Im Nachhinein kann man das immer tun- Dafür müssen aber erstmal die Daten da sein und um das nicht jedes Mal von Hand in eine Regel zu übersetzen, macht man das eben direkt datengetrieben.

Sie haben in den Beispielen schon die Anwendungspotenziale angerissen. Gibt es konkrete Anwendungsszenarien, die Sie näher beschreiben könnten?

Der medizinische Bereich ist für uns besonders interessant, weil er wissenschaftlich herausfordernd ist. Das liegt sehr häufig an den kleinen Datenmengen, die man dort vorfindet. Mit vielen Daten etwas zu trainieren, das ist keine Kunst, sage ich mal. Aber auch mit kleinen Datenmengen klarkommen zu können ist wichtig. Denn in der Anwendung gibt es typischerweise zu wenige oder nur veraltete Daten. Oft und vor allem im medizinischen Bereich kommt hinzu, dass Daten häufig mit persönlichen Daten zusammenhängen und deshalb besonders geschützt werden müssen.

Daher versuchen wir zunehmend, Informationen auch aus einfach zugänglichen Quellen zu extrahieren, z.B. aus Online-Foren und Chats. In diesen Texten finden wir ebenfalls Indikatoren für medizinische Sachverhalte. In einem Projekt mit der Charité in Berlin geht es darum, wie man z.B. Risikofaktoren für Nierentransplantationen aus strukturierten Daten und Texten ablesen kann. Es sind komplexe Faktoren, die letztendlich dazu führen, ob eine Nierentransplantation erfolgreich ist oder nicht, also ob die Niere abgestoßen wird oder nicht. Aber es ist durchaus möglich, in Texten Indikatoren zu finden, typischerweise Schilderungen von Patienten, die darauf hindeuten, dass da etwas schief gehen könnte. Dafür müssen wir uns der Sprache bedienen, die dort verwendet wird, denn die medizinische Sprache ist ja nicht gleich der Laiensprache. Wir müssen auch in der Lage sein, zwischen einem medizinischen Befund und dem, was ein Patient darüber sagen würde, zu übersetzen.

Um mit geringen Datenmengen umzugehen, benötigt man besondere Techniken. Wir versuchen, allgemeines Wissen über große Datenmengen in ein neuronales Netz, z.B. ein statistischen Klassifikator hineinzutrainieren, und dann dieses Wissen zu adaptieren. Es auf eine bestimmte Domäne zu transformieren, in der die wir nur ganz wenig Daten haben, also z.B. ein medizinisches Problem und dazu noch ein Nierenproblem, um es ganz genau einzugrenzen. Wir fragen: wie kann man sowas machen und wie kann man es so machen, dass es robust funktioniert? Unser Ziel ist dabei nicht, einem Mediziner die Entscheidung abzunehmen, ob eine bestimmte Therapie verwendet werden soll oder nicht. Aber wir wollen Entscheidungshilfen anbieten oder einem Mediziner auf Risikofaktoren hinweisen.

Wir haben uns in der Vergangenheit bereits mit ähnlichen Projekten befasst und arbeiten aktuell im europäischen Kontext weiter an diesen Fragestellungen. Mit den Kolleginnen und Kollegen des BIFOLD, dem Berlin Institute for the Foundations of Learning and Data, und Forschenden aus Frankreich arbeiten wir an cross-lingualen Methoden.

Welche Rolle spielt das Berliner Projektbüro des DFKI im Berliner KI-Ökosystem?

In Berlin gibt es eine sehr heterogene Landschaft unterschiedlichster Akteure, die sich mit KI und Anwendungen von KI beschäftigen. Einerseits gibt es viele exzellente Grundlagenforscher, wie zum Beispiel Prof. Klaus -Robert Müller, dem CO-Chef des BIFOLD, der einen sehr großen Beitrag dazu leistet, die Grundlagen des Maschinellen Lernens zu entwickeln, oder Professor Markl, der sich mit der Verarbeitung großer Datenmengen (Big Data) beschäftigt.

Andererseits gibt es in Berlin aber, glaube ich, einen großen Bedarf an anwendungsnahen KI-Lösungen, für die verschiedensten Anwendungen und zwar sowohl von sehr kleinen Unternehmen, z.B. Start-Ups, die sich um das KI-Thema herumbilden, hin zu sehr großen Playern wie SAP und Google. Ein großer Player ist übrigens die Deutsche Bahn, die ihre KI-Themen hier betreibt und mit denen wir Mobilitätsprojekte durchführen.

Das DFKI hat sich der anwendungsnahen Forschung verschrieben, d.h. es arbeitet weniger an grundlegenden Methoden, sondern daran, wie man diese Methoden auf praktische Probleme anwenden kann. Das verlangt durchaus Forschungsarbeit, ist also keine rein Implementier-Tätigkeit.

Ich glaube, dass das DFKI in Berlin dadurch eine Brücke zwischen exzellenter Grundlagenforschung und den Anwendern schlagen kann. Es ist typischerweise ja eben nicht so, wenn ein anwendungsnahes System entstehen soll, dass sich der Anwender direkt eine Universität sucht und sagt “Da habe ich den großen Experten, der macht das alles”, sondern das geschieht üblicherweise über Forschungsinstitute wie das DFKI und ich glaube, genau diese Rolle muss das DFKI auch in Berlin einnehmen.

In der Medizin zum Beispiel. Berlin hat mit der Charité eine der besten medizinischen Institutionen in Europa, möglicherweise sogar darüber hinaus. Das DFKI hat große Kompetenz in der Digitalisierung der Medizin und da kann hier eine große Rolle spielen. Außerdem ist das DFKI ein Bildungsleister in Berlin, wir haben uns gerade als Berlin University Alliance zusammengeschlossen, und deshalb kann das DFKI hier im Bildungsbereich besonders stark sein.

Was sind Ihre Pläne für das DFKI Berlin in der Zukunft?

Strukturell wird das DFKI Berlin gut daran tun, noch enger mit anderen Berliner Akteuren zu kooperieren. Damit meine ich nicht nur, dass wir zusammenarbeiten, sondern dass wir uns auch räumlich zusammen aufstellen. Zum Beispiel innerhalb eines Berliner KI-Zentrums, das weithin sichtbar ist und als Kontakt- und Anlaufstelle fungiert für Akteure, die eben nicht direkt in diesem Zentrum arbeiten. Aktuell führen wir intensive Gespräche, ob sich an einem Standort einer Universität mit entsprechenden universitären Akteuren, also dem BIFOLD, ein solches Zentrum realisieren ließe.

Was die inhaltliche Ausrichtung betrifft: Wir sind in Berlin, der Bundeshauptstadt. Ein sehr großer Teil der öffentlichen Verwaltung hat hier ihren Sitz. KI wird hier zwar keine Wunder vollbringen, sie kann aber stark unterstützend wirken. Hier wollen wir uns verstärkt einbringen.

Wo ich für die Zukunft großes Potenzial sehe, ist der Umwelt- und Klimabereich. In der Brandenburger Nachbarschaft gibt es sehr viele Institutionen, die sich schon lange mit Umweltfragestellungen beschäftigen Auch hier kann KI einen sehr positiven Einfluss haben. Ich wünsche mir eine bessere Vernetzung mit dem Berliner Umland – bis in die Lausitz und Braunkohlregion hinein.

Der Berliner Senat und Berlin an sich haben ja schon viel in diesem Bereich getan, so soll z.B. ein Zentrum für Klimawandelforschung entstehen. Auch dort könnte sich das DFKI einbringen und den Methodenpool, den es zur Verfügung hat, auch für die Probleme des Klimawandels bereitstellen.

Prof. Möller, vielen Dank für das Gespräch!

Zur Person:

Prof. Dr.-Ing. Sebastian Möller ist Professor für „Quality and Usability“ der Fakultät für Elektrotechnik und Informatik der TU Berlin und leitet seit 2017 den Forschungsbereich „Speech and Language Technology“ am Deutschen Forschungszentrum für künstliche Intelligenz und ist Sprecher des DFKI-Projektbüros Berlin.

Kontakt:

Prof. Dr.-Ing. Sebastian Möller

Sebastian.Moeller@dfki.de

Pressekontakt:

Andreas Schepers, M.A.

Leiter Unternehmenskommunikation , DFKI Berlin

Andreas.Schepers@dfki.de