Projekt

E2Data

European Extreme Performing Big Data Stacks

European Extreme Performing Big Data Stacks

  • Laufzeit:

In der heutigen Welt werden die Daten vom lokalen Netzwerk oder von Edge-Geräten an einen Cloud-Anbieter gestreamt, der von einem Kunden gemietet wird, um die Datenausführung durchzuführen. Der Software-Stack von Big Data teilt den Ausführungsstrom anwendungs- und hardwareunabhängig in mehrere Aufgaben auf und sendet sie zur Verarbeitung auf den vom Kunden bezahlten Knoten. Wenn das Ergebnis nicht der strengen Drei-Sekunden-Geschäftsanforderung entspricht, hat der Kunde zwei Möglichkeiten: 1) Scale-Up (durch Aufrüstung der Prozessoren auf Knotenebene) 2) Scale-Out (durch Hinzufügen von Knoten zu ihren Clustern) oder 3) manuelle Implementierung von Code-Optimierungen, die für die zugrunde liegende Hardware spezifisch sind. Der Kunde hat jedoch nicht die finanziellen Möglichkeiten, dies zu erreichen. Im Idealfall möchte er seine Geschäftsanforderungen erfüllen, ohne sein Hardware-Budget zu strapazieren. Um den alarmierenden Bedenken hinsichtlich der Skalierbarkeit zu begegnen, investieren sowohl Endbenutzer als auch Anbieter von Cloud-Infrastrukturen (wie Google, Microsoft, Amazon und Alibaba) in heterogene Hardwareressourcen, die in der Lage sind, eine vielfältige Auswahl an Architekturen wie CPUs, GPUs, FPGAs und MICs zu nutzen, um die Leistung weiter zu steigern und gleichzeitig die steigenden Betriebskosten zu minimieren. Darüber hinaus entwickeln große Unternehmen wie Google trotz der derzeitigen Investitionen in heterogene Ressourcen eigene ASICs, wobei TensorFlow das Paradebeispiel ist.

E2Data bietet eine End-to-End-Lösung für die Bereitstellung großer Datenmengen an, die den Stand der Technik bei Infrastrukturdiensten voll ausnutzt und vorantreibt, indem sie eine bis zu zehnfache Leistungssteigerung bei bis zu 50% weniger Cloud-Ressourcen ermöglicht. E2Data wird ein neues Software-Paradigma für Big Data anbieten, das die maximale Ressourcennutzung für heterogene Cloud-Bereitstellungen erreicht, ohne die aktuellen Big Data-Programmierungsnormen zu beeinträchtigen (d.h. keine Code-Änderungen in der ursprünglichen Quelle). Die vorgeschlagene Lösung verfolgt einen schichtenübergreifenden Ansatz, indem sie eine vertikale Kommunikation zwischen den vier Hauptschichten von Big Data-Bereitstellungen (Anwendung, Big Data-Software, Scheduler/Cloud-Provider und Ausführungslaufzeit) ermöglicht.

Partner

The University of Manchester, Institute of Communications and Computer Systems, Neurocom Luxembourg, KALEAO Limited, Computer Technology Institute and Press "Diophantus" (CTI), Spark Works Limited, iProov Limited

Fördergeber

Europäische Union

Europäische Union

Projekt teilen auf:

Ansprechpartner

Keyfacts

Publikationen zum Projekt

Clemens Lutz, Steffen Zeuch, Volker Markl

In: David Maier , Rachel Pottinger (Hrsg.). Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data. ACM SIGMOD International Conference on Management of Data (SIGMOD-2020) June 14-19 Portland OR United States Seiten 1633-1649 ISBN 978-1-4503-6735-6 The Association for Computing Machinery 2020.

Zur Publikation
Clemens Lutz, Bonaventura Del Monte, Steffen Zeuch, Volker Markl

In: Proceedings of the VLDB Endowment (PVLDB) 12 5 Seiten 516-530 VLDB Endowment 2019.

Zur Publikation

Deutsches Forschungszentrum für Künstliche Intelligenz
German Research Center for Artificial Intelligence