Dispositive Datenverarbeitung

Andreas Mühlbauer,

Data Lake als Basis für Industrie 4.0

Lange Zeit galt das Data Warehouse als zentrale Quelle für sämtliche Datenanalysen. Im Zuge der zunehmenden Digitalisierung hat der Data Lake dem klassischen Data Warehouse aber den Rang abgelaufen. Vor allem in der Industrie 4.0 sind viele Use Cases ohne ihn nicht mehr denkbar. Worauf müssen Unternehmen bei der Implementierung der Technologie achten?

Vergleich zwischen Data Warehouse und Data Lake. © Alexander Thamm

Die richtige Architektur für die dispositive Datenverarbeitung war seit den 90er Jahren klar definiert. Ein Data Warehouse sammelt in einem Hub-&-Spoke-Ansatz aus den unterschiedlichen operativen Quellsystemen die relevanten Daten. In einem mehrschichtigen Datenintegrations- und Datenveredelungsprozess werden die Daten dann harmonisiert, integriert und persistiert. So kann aus den Daten ein Single Point-of-Truth entstehen: ein allgemeingültiger, korrekter Datenbestand, auf den Verlass ist. Der Anwender kann über Berichts- und Analysewerkzeuge auf diesen Datenschatz zugreifen.

Wesentliches Charakteristikum des Data Warehouse ist es, eine einheitliche Sicht auf die Unternehmensdaten zur Verfügung zu stellen – und zwar in einem strikten und vorab definierten Datenmodell, das für die Auswertung der Daten optimiert ist. Vergangenheitsoptimierte Analysen von Kennzahlen entlang von konsolidierten Auswertungsstrukturen sind damit optimal umzusetzen. Der hohe Anspruch an Korrektheit und Harmonisierungsgrad führen aber in der Regel auch dazu, dass es recht lange dauert, bis Daten aus einer neuen Datenquelle korrekt integriert sind – denn im Vorfeld ist ein großer Konzeptions- und Abstimmungsaufwand nötig.

Anzeige

Neue Datenquellen benötigen neue Lösungen

Diese Problematik zeigt sich insbesondere seit dem Aufkommen neuer Datenquellen wie Social Media oder IoT-Daten. Diese Daten liegen oft in semistrukturierter oder unstrukturierter Form vor, sollen aber dennoch in die Datenform eingebunden werden. Mit der steigenden Relevanz dieser Datenquellen wurde die Idee des Data Lake geboren. Der Data Lake kann alle Quelldaten – interne und externe, strukturierte und polystrukturierte – auch in ihrer nicht aufbereiteten Form als Rohdaten zur Verfügung stellen, um sie möglichst schnell verfügbar zu haben.

Aufbau einer Data-Lake-Struktur. © Alexander Thamm

Während der Fokus des Data Warehouse also klar auf der vergangenheitsorientierten Analyse von Kennzahlen entlang von konsolidierten Auswertungsstrukturen liegt, bietet der Data Lake eine höhere Agilität und Flexibilität. Er kann vielfältige Datenquellen und große Datenmengen schnell integrieren und zu Datenströmen verarbeiten. Das ermöglicht komplexe Analysen – auch solche, die in der Regel zum Zeitpunkt der Datenspeicherung noch gar nicht festgelegt sind.

Betrachtet man diese unterschiedlichen Zielsetzungen und Charakteristika von Data Lake und Data Warehouse, wird klar, dass ein Data Lake ein Data Warehouse nicht ersetzt, sondern ergänzt. Beide Architekturkonzepte haben ihre Relevanz und bedienen zueinander unterschiedliche Use Cases.

Der Data Lake erlaubt die Optimierung von Produkten in der Industrie

In der Industrie treiben zwei fachliche Anforderungen den Einsatz von Data Lakes besonders voran. Die Optimierung der Produktion und das Angebot besserer oder neuer Produkte, teilweise auch ganz neuer Geschäftsmodelle. Die Basis Use Cases bilden hier der „Digitale Zwilling“, also das digitale Abbild der eigenen oder produzierten Maschinen und die Anbindung dieser an den Data Lake mit fast Echtzeit-Datenaktualität.

Während die Data Lakes der ersten Generation technisch sehr komplex und die Anbindung in der benötigten zeitlichen Aktualität herausfordernd waren, sind die Barrieren zum Einsatz von Data Lakes heute gesunken. Durch die Veränderung der Marktsituation der kommerziellen Distributionsanbieter und die allgemeine Strategie der verstärkten Cloud-Nutzung verlagert sich diese bei Data Lakes der zweiten Generation: Bei Nutzung von nativen Cloud-Services oder dedizierten Managed-Hadoop-Umgebungen vereinfacht sich die Komplexität des Managements der Basisplattform massiv. Das ermöglicht heute den Einsatz von Data Lakes für nahezu jede Unternehmensgröße.

Die richtige Strategie für Unternehmen

Möchte ein Unternehmen einen Data Lake nutzen, sind bereits im Vorfeld einige Überlegungen zu treffen. Hierzu empfiehlt es sich, im Rahmen einer Roadmap die Use Cases klar zu identifizieren und zu priorisieren. Anschließend müssen diejenigen Komponenten, die initial eingesetzt werden sollen, ausgewählt werden. Eine kontinuierliche Suche und Bewertung von Alternativen aus kommerziellen, Open Source und Cloud Services Optionen ermöglichen es, einen optimalen Mehrwert für das Unternehmen zu schaffen.

Im industriellen Einsatz müssen neben den funktionalen Anforderungen noch weitere Punkte berücksichtigt werden. Dazu zählen insbesondere der Schutz von Geschäftsgeheimnissen gegenüber Mitbewerbern und rechtliche Aspekte. Maschinenhersteller stehen zusätzlich vor der Herausforderung, an die Daten der eigenen Maschinen im Kundenkontext zu gelangen, da häufig Maschinen unterschiedlicher Hersteller kombiniert eingesetzt werden und Kunden wiederum nicht alle Daten zum Schutz ihres Unternehmens preisgeben.

Auch beim Aufbau einer Data Lake Initiative zeigen sich in der Praxis gewisse Schlüsselbedingungen als Grundlage für eine erfolgreiche Durchführung. Diese ähneln denen der Implementierung eines zentralen Data Warehouse: Eine starke Managemententscheidung für den Aufbau und die Nutzung einer zentralen Plattforminitiative und die daraus resultierende, vielfach bisher nicht gelebte, enge Zusammenarbeit zwischen Fach- und Produktions-IT, ggfs. auch Produktentwicklung, sind elementar.

Darüber hinaus sollte der Betrieb eines Data Lakes entsprechend flexibel und ganzheitlich aufgestellt werden. Als Best Practice hat sich ein DevOps Team bewährt, das die Plattform kontinuierlich weiterentwickelt und stabil im Betrieb hält.

Zusammenfassend lässt sich feststellen, dass Data Warehouse und Data Lake unterschiedliche Anforderungen erfüllen. Grundsätzlich wird für jede Industrie 4.0 Initiative eine Data Lake Plattform benötigt. Die technologische Eintrittsbarriere für Data Lakes ist gesunken, bedingt aber weiterhin eine fundierte Planung der Architektur. Die Basis sollte eine Roadmap zum Einsatz für Use Cases bilden. Um die Wertschöpfung langfristig zu maximieren müssen flankierend zur Technologie die notwendigen organisatorischen Voraussetzungen für den erfolgreichen Einsatz einer Data Lake Plattform geschaffen werden.

Dr. Carsten Dittmar und Peter Schulz, Alexander Thamm GmbH

Anzeige

Das könnte Sie auch interessieren

Anzeige

Data Warehouse

Modernisieren oder neu aufsetzen?

Müssen Fachabteilungen in Ihrem Unternehmen lange auf BI-Auswertungen warten? Möchten Sie IoT- Projekte durchführen oder neue Geschäftsmodelle entwickeln? Dann wird es höchste Zeit, einmal zu prüfen, ob Ihr Data Warehouse noch den aktuellen...

mehr...
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige