Smart Data Lake Builder
Der effiziente Weg, die Grundlagen für einen intelligenteren Data Lake zu legen.
Der Aufbau, Betrieb und die Wartung einer mehrschichtigen Datenarchitektur sind in der Regel komplex und teuer. Der von ELCA entwickelte Smart Data Lake Builder hilft Ihnen bis zu 50% der üblichen Implementierungs- und Wartungskosten einzusparen.
Der Aufbau eines Smart Data Lakes entfesselt die wahren Möglichkeiten moderner Analytics-Plattformen. Er ermöglicht die Gewinnung aussagekräftiger Informationen zur Unterstützung wichtiger Entscheidungsprozesse durch Datenkonsumenten, Data Scientists und Analysten, und unterstützt weitere zentrale Anwendungen innerhalb der Organisation.
Klassische Data Lakes sind normalerweise reduziert auf die einfache aber günstige Rohdatenspeicherung, wobei wichtige Aspekte wie Transformation, Datenqualität und -sicherheit vernachlässigt werden. Diese Aufgaben werden den Data Scientists überlassen, die schliesslich bis zu 80% ihrer Zeit damit verbringen, Daten zu erfassen, zu verstehen und zu bereinigen, bevor sie ihre Kernkompetenzen einsetzen können.
Darüber hinaus werden klassische Data Lakes oft von separaten Abteilungen mit unterschiedlichen Standards und Werkzeugen implementiert, was die Umsetzung umfassender analytischer Anwendungsfälle erschwert.
Smart Data Lake löst diese verschiedenen Probleme, indem er architektonische und methodische Richtlinien sowie ein effizientes Werkzeug zum Aufbau einer starken und qualitativ hochwertigen Datengrundlage bereitstellt.
Der Smart Data Lake Builder nutzt Metadaten und Automatisierung um die Komplexität zu reduzieren und erhebliche Einsparungen bei Implementierung und Wartung zu erzielen:
- Signifikante Einsparungen (30 bis 50%) bei Implementierung, Betrieb und Wartung des Data Lake
- Schnellere und kostengünstigere Implementierung neuer analytischer Anwendungen
- Erhöhte Produktivität von Data Scientists und verbesserter self-service für Datenkonsumenten
- Mehr Transparenz über Datenstrukturen
Intelligente Data Lakes sind das Kern einer modernen Analytics-Plattform. Der Ansatz integriert problemlos gängige Data Science Werkzeuge und Open-Source-Technologien sowie KI und ML. Mit kostengünstigem und skalierbarem Speicher unterstützt er sowohl unstrukturierte Daten als auch komplexe Datenstrukturen.
Die zugrunde liegenden Technologien skalieren horizontal. Die Performance kann somit dynamisch dem aktuellen Bedarf angepasst werden und mit den Anforderungen Ihres Unternehmens mitwachsen.
Schlüsselkomponenten eines Smart Data Lakes
Um das volle Potenzial einer Analtics-Plattform auszuschöpfen, ist ein Kern mit einer starken, qualitativ hochwertigen Datengrundlage erforderlich, in der Daten standardisiert, angereichert, transformiert und abgesichert werden. Diese «Smart Data» sind semantisch strukturiert und erfüllen die Datenschutzanforderungen.
Der Smart Data Lake besteht aus einer mehrschichtigen Datenarchitektur, bei der Rohdaten in einer Staging-Schicht gesammelt werden, wie dies auch in klassischen Data Lakes gemacht wird. Diese Daten werden dann über mehrere Schichten in eine gesicherte, qualitativ hochwertige Geschäftssicht der Daten transformiert und bereinigt. Generische und benutzerdefinierte Transformationen helfen bei der Vorbereitung von Daten für die effiziente Verwendung in verschiedenen analytischen Aufgaben und Anwendungen. Die zugrunde liegenden Technologien ermöglichen die Verarbeitung von Daten im Stream- oder Batch-Modus.
Die mehrschichtige Datenarchitektur eines Smart Data Lakes
Metadaten basiert
Der Smart Data Lake Builder baut auf einfach zu pflegenden Metadaten auf. Damit hat er einen ganzheitlichen Überblick über alle Datenobjekte und Transformationen und kann grafische Visualisierungen zur Datenherkunft und einen Datenkatalog erstellen.
Automatisiert
Die Metadaten erlauben das automatische, dynamische Erstellen und Ausführen von Datenpipelines. Diese lassen sich bei Quellen mit einer hohen Anzahl an Datenobjekten auch einfach generieren.
Vernetzt
Der Smart Data Lake bietet Out-of-the-Box-Konnektivität für die gängigsten Technologien, wie HadoopFS, Hive, Kafka, JDBC, Splunk, Webservice, SFTP, JMS, aber auch Excel und Access.
Individuell anpassbar
Massgeschneiderte Transformationen lassen sich über SQL, Java/Scala oder Python definieren. Das Produkt ist zudem einfach in Java/Scala erweiterbar.
Wiederverwendbar
Generische Transformationen wie Historisierung und Deduplizierung erfolgen Out-of-the-Box.
Bereit für die Cloud und skalierbar
Der Smart Data Lake wurde für die Cloud konzipiert. Natürlich läuft er auch in sehr kleinen, lokalen Umgebungen, aber der Smart Data Lake Builder ist bereit für den Out-of-the-Box-Einsatz in den gängigsten privaten oder öffentlichen Cloud-Infrastrukturen. Das heisst, Sie können ihn horizontal skalieren.
Open Source
Die Lösung basiert auf zahlreichen Open-Source-Technologien wie Apache Spark®. Im Gegenzug stellt ELCA den Smart Data Lake Builder als Open-Source-Tool unter GPL-Lizenz bei GitHub zur Verfügung, siehe https://www.smartdatalake.io.
Anbieter unabhängig
Das gesamte Ökosystem des Smart Data Lake Builder ist anbieterneutral.
Eine komplette Aufzählung der Merkmale finden Sie hier.
Als Maintainer und wichtiger Entwickler des Smart Data Lake Builder, ist ELCA und unser Geschäftsbereich «AI, Data & Analytics» vertraut mit den Details des Tools und dessen Konzepten.
ELCA kann :
- Sie unterstützen, mithilfe des Smart Data Lake Builder eine stabile, moderne Datenbasis aufzubauen (Projekt und Mandate)
- Ihnen helfen, anspruchsvolle Analytics-Apps basierend auf Ihrem Data Lake zu implementieren (Projekt und Mandate)
- Den Smart Data Lake Builder auf Ihre Bedürfnisse zuschneiden und in Ihre Datenumgebung integrieren
Subscriptions zum Support Ihrer Installation des Smart Data Lake Builder in der Produktion anbieten.