Projekt

DeFuseNN

Deep Fusion für Neuronale Netze

Deep Fusion für Neuronale Netze

Motivation

Die fokussierte Forschung und Entwicklung im Bereich des Deep Learnings, insb. in den letzten Jahren, haben eine Vielzahl verschiedener Netzwerktypen, Architekturen, Module, Trainingsmethoden und Datensätzen hervorgebracht. Dennoch ist es immernoch eine herausfordernde Aufgabe, für bestimmte visuelle Erkennungsaufgaben ein state-of-the-art Deep Learning System zu bauen und zu konfigurieren. Typischerweise, beginnt eine solche Aufgabe damit, eine geeignete Netzwerkarchitektur und Netzwerkparameter zu wählen und setzt sich mit der herausfordernden Ausnutzung der multi-modalen Natur von Eingabedaten fort, die in den meisten Fällen nicht nur visuelle Informationen, sondern auch Ton und Bewegung oder Text enthalten. Obwohl Deep Learning Ansätze deutliche Verbesserungen bei der Verarbeitung einzelner Modalitäten bieten, ist es wünschenswert alle verfügbaren Modalitäten in praxistauglichen Systemen zu verwenden. Durch den Ende-zu-Ende Ansatz des Deep Learnings werden Merkmalsextraktion und deren Klassifikation zu einem einzigen Schritt zusammengefasst, weshalb die traditionellen Fusions-Konzepte (Early Fusion, Late Fusion) neu aufgegriffen werden müssen. Gegenwärtig ist hierbei eine der sich stellenden Fragen: Wie und wann werden mehrere Modalitäten eines Eingangssignals (z.B. enthalten Videodaten, visuelle, Bewegungs- und akustische Informationen, Text oder Wissen) zusammengeführt? Darüber hinaus ist es aktuell völlig offen, wie statische oder dynamische externe Kontextinformation (z.B. spezielles Domänenwissen oder Eye-Tracking Information) Deep Learning Systemen zugeführt werden können.

Projektinhalt

DeFuseNN konzentriert sich auf drei Herausforderungen für Deep Learning und definiert die folgenden Aufgabengebiete, um diese zu bewältigen:

  1. "Aufbau einer Wissensbasis", um das Verständnis der Deep Learning Landschaft zu verbessern
  2. Untersuchung und Entwicklung neuer "Multi-modaler Fusionskonzepte" für Deep Learning
  3. Verwendung zusätzlicher "externer Signale" zur Verbesserung der Klassifikation

Aufbau einer Wissensbasis

Ziel dieses Aufgabengebietes ist es, einen Überblick darüber zu erstellen, welche Aufgaben durch welche Arten von tiefen neuronalen Netzwerken gelöst werden können, und welche Architekturen und deren Konfiguration (z.B. Schichten, Training Parameter, Blöcke) geeignet sind.

Multi-modale Fusion

Ziel dieses Aufgabengebietes ist es, Fusionsansätze zu entwickeln, die zu den zugrundeliegenden tiefen neuronalen Netzwerkarchitekturen passen. Early Fusion kann beispielsweise schon als in CNNs eingebaut betrachtet werden, da sie die R, G, B Kanäle als unabhängige Eingangssignale verarbeiten. Im Gegensatz zu Early Fusion kann Late Fusion als eine Kombination aus zwei Netzwerken desselben Netzwerktyps (z.B. CNN) betrachtet werden. Hier können die vollständig verbundenen Schichten als die späte Fusionsschicht dienen. Daneben gilt es im Projektverlauf neue Fusionsschichten zu entwickeln und untersuchen, die innerhalb der Netzwerke platziert werden können. Diese Schichten können während des Feed-Forward Modus Signale von Teilnetzen fusionieren (In-Fusion). Kombinationen können jedoch auch parallel verlaufen, z.B. die gleichzeitige Verarbeitung von Ton und Bildinhalt. Solche Konstellationen erfordern oftmals synchronisierte oder verwobene Verbindungen.

Externe Signale

Neuronale Netze prozessieren eine Eingabe durch die Verarbeitung des Signals durch eine Reihe von Schichten. Für solche Zusammensetzungen wird der Gebrauch von Kontext als externes Signal in Erwägung gezogen, um formales Wissen mit statistischen Lernen zusammenzubringen.

Nutzen und Verwertung

Das Projekt DeFuseNN liefert Ergebnisse zu mehreren aktuellen wissenschaftlichen Fragestellungen im Bereich Deep Learning. Die geschaffene Wissensbasis wird erstmals eine Übersicht über das sich rapide entwickelnde Forschungsgebiet ermöglichen, um von vorliegenden Problemstellungen auf Deep Learning Lösungsansätze ableiten zu können. Darüber hinaus werden neuartige Fusionskonzepte entwickelt und untersucht, welche dem Deep Learning neue Problemstellungen erst erschließbar machen. Zusätzlich werden die Arbeiten in DeFuseNN die Basis für weitere Forschung hinsichtlich des Verständnisses von Deep Learning bilden. Die Resultate von DeFuseNN werden wissenschaftlich durch Publikationen auf namhaften Konferenzen und Kollaborationen mit anderen wissenschaftlichen Instituten verwertet. Wirtschaftlich ergeben sich durch die Arbeiten in DeFuseNN Verwertungsmöglichkeiten mit etablierten nationalen und internationalen Kooperationspartnern durch den Transfer der Grundlagenkonzepte in marktfähige Lösungen.

Fördergeber

Bundesministerium für Bildung und Forschung

01IW17002

Bundesministerium für Bildung und Forschung

Projekt teilen auf:

Ansprechpartner
Dr. Jörn Hees

Keyfacts

Projektbilder

DeFuseNN definiert drei Aufgabengebiete: Wissensbasis, Fusion, und die Nutzung von externem Wissen als Signal

Publikationen zum Projekt

Stanislav Frolov, Shailza Jolly, Jörn Hees, Andreas Dengel

In: Proceedings of the Second Workshop on Beyond Vision and LANguage: inTEgrating Real-world kNowledge (LANTERN). International Conference on Computational Linguistics (COLING-2020) 28th COLING December 13 Online-Conference Association for Computational Linguistics Barcelona, Spain 12/2020.

Zur Publikation
Adriano Lucieri, Muhammad Naseer Bajwa, Andreas Dengel, Sheraz Ahmed

In: Proceedings of the 27th International Conference on Neural Information Processing (ICONIP2020). International Conference on Neural Information Processing (ICONIP-2020) November 18-22 Bangkok Thailand LNCS Springer 11/2020.

Zur Publikation

Deutsches Forschungszentrum für Künstliche Intelligenz
German Research Center for Artificial Intelligence