xing icon +49 6751 - 85378-0welcome@medialine.ag
  • de
  • en
Newsletter

Unstrukturierte Daten optimal erschließen

Das schnelle Wachstum unstrukturierter Datenbestände ist für Unternehmen Herausforderung und Chance zugleich. Wie können Fach- und IT-Abteilungen die Anforderungen bei der Analyse und Aufbereitung unstrukturierter Datenbestände erfolgreich meistern?

Herzstück einer Big Data-tauglichen IT-Infrastruktur kann beispielsweise ein Data Lake sein. Data Lake ist ein Speicherort, der eine nahezu beliebige Menge an Rohdaten in ihrem ursprünglichen Format aufnimmt und für eine Nutzung zu jeder Zeit bereithält. Damit ist er der ideale Ausgangspunkt für leistungsstarke Big Data-Analysen unstrukturierter Datenbestände. Der Data Lake wird fortlaufend aus unterschiedlichen Quellen mit aktuellen Daten gespeist und steht stets für die vielfältigsten Anwendungsszenarien bereit.

 

Ein Data Lake sollte vier Funktionen bieten, um zentrale Anforderungen zu erfüllen:

 

  • Konsolidierung: Durch die Zusammenfassung aller unstrukturierten Daten an einem Ort lassen sich verteilte Datensilos beseitigen und die Verwaltung wird einfacher. Vorteile bietet dabei ein einheitliches Dateisystem mit einem einzigen Speicher-Volume.
  • Datensicherheit und Datenschutz: Hohe Governance- und Compliance-Anforderungen müssen durch Funktionen wie eine rollenbasierte Zugriffskontrolle, Dateisystem-Auditing, Verschlüsselung und Snapshots zur schnellen Sicherung und Wiederherstellung erfüllt werden.
  • Gemeinsame Nutzung: Um eine hohe Flexibilität und Interoperabilität zu erzielen, wird die Unterstützung von traditionellen Standardprotokollen wie FTP, NFS und SMB, aber auch von neueren Protokollen wir HTTP, Hadoop Distributed File System (HDFS), Amazon S3 und OpenStack Swift benötigt. Zudem muss die Speicherarchitektur in der Lage sein, unterschiedliche Arbeitslasten in verschiedenen Phasen ihres Lebenszyklus, beispielsweise bezüglich Performance und Kapazität, effizient zu verwalten.
  • Direkte Big-Data-Analysen: Einer der wichtigsten Vorteile eines Data Lakes besteht darin, dass Unternehmen damit alle unstrukturierten Daten zentral analysieren können. Lassen sich Hadoop-Daten gleichzeitig mit anderen Geschäftsanwendungen verwenden, müssen Unternehmen keine Daten mehr aus Analysegründen manuell transferieren oder in andere Applikationen oder Infrastrukturen importieren. Sehr nützlich ist in diesem Zusammenhang die Unterstützung von mehreren Hadoop-Distributionen wie HortonWorks, Cloudera und Apache Hadoop.

 

Data Lake im eigenen Rechenzentrum mit der Cloud verbinden
Nahezu alle Unternehmen haben Erfahrungen mit sogenannter Schatten-IT, bei der Speicherkapazitäten verwendet werden, die von der IT-Abteilung aus Kosten- oder Ressourcengründen nicht aufgebaut und unterstützt werden. Fachabteilungen bedienen sich in der Praxis oft bei den Angeboten aus der Public Cloud – hier kommt vor allem Hadoop Analytics zum Einsatz.
An dieser Stelle kann ein nativ mit Hadoop integrierter Data Lake seine Stärken ausspielen. Werden zusätzlich zum HDFS auch Objekt- und File-Formate unterstützt, ist eine zentrale Speicherung und Nutzung von Hadoop-Daten möglich. Dadurch lassen sich Hadoop-Daten direkt auswerten, ohne dass Unternehmen zusätzliche Hardware benötigen oder Kopien der zu analysierenden Daten anfertigen müssen. Darüber hinaus kann die IT-Abteilung damit auch als interner Service Provider tätig werden, der diese Dienste in einer sicheren Umgebung bedarfsorientiert anbietet und abrechnet.
Bei Arbeitslasten, die rigide Governance- und Compliance-Anforderungen erfüllen müssen und die eine hohe Geschwindigkeit sowie kurze Latenzzeiten erfordern, sind Data Lakes im eigenen Rechenzentrum gefordert. Ein cloudbasierter Data Lake eignet sich für Anwendungsszenarien, bei denen von mehreren geografischen Orten aus Analysen und deren Ergebnisse angefordert werden oder auch für die Speicherung von Sensordaten im Umfeld von IoT-Anwendungen.
Oft ergänzt sich ein Data Lake im eigenen Rechenzentrum mit dem in der Cloud. So lassen sich beispielsweise inaktive Daten aus dem Rechenzentrum nahtlos in die Cloud verschieben, etwa in die Medialine CompanyCloud, zu Microsoft Azure, Amazon AWS S3, Dell EMC Elastic Cloud Storage (ESC), Dell EMC Virtustream oder die Open Telekom Cloud (OTC).

 

Anwendungsszenarien


Big-Data in der Automobilindustrie

In der Automobilindustrie – egal, ob bei Automobilherstellern oder Zulieferern – kommen Data Lakes für vielfältige Anwendungsszenarien zum Einsatz. Eher traditionelle Use Cases sind Big Data-Analysen in der Wertschöpfungskette, um Prozesse wie das Flottenmanagement und die Logistik zu beschleunigen oder den Wartungsaufwand und die -kosten mit Predictive Maintenance zu reduzieren.
Eines der am schnellsten wachsenden Big-Data-Segmente in der Automobilbranche sind Fahrerassistenzsysteme (Advanced Driver Assistance Systems oder ADAS), bei denen es um die Steigerung des Fahrkomforts, aber auch um eine erhöhte Sicherheit geht. Fast alle Automobilhersteller und alle bedeutenden Zulieferer arbeiten an ADAS-Systemen. Ihr Ziel ist es, ein Auto zu bauen, das völlig autonom fahren kann. Die Entwicklung dieser Systeme erfordert Millionen von simulierten Fahrkilometern in unterschiedlichen Verkehrssituationen, Wetter- und Lichtverhältnissen sowie Geschwindigkeiten. Dabei entstehen riesige Datenmengen, die nur mit Big Data-Werkzeugen und -Analysen sinnvoll auszuwerten sind.

 

Große Datenmengen in der Medien- und Unterhaltungsbranche
Auch in der Medien- und Unterhaltungsbranche gibt es einen beachtlichen Bedarf an Big Data-Analysen, nicht zuletzt bedingt durch die Geschwindigkeit, das Volumen und die Komplexität des Datenwachstums. Ein Data Lake unterstützt das Speichern, Verwalten und Ausliefern der Medieninhalte und -formate on demand und in Echtzeit, etwa bei großen Sportereignissen oder Konzerten.
So hat beispielsweise die zuverlässige Bereitstellung qualitativ hochwertiger Videostreams eine direkte Auswirkung auf die Kundenzufriedenheit. Parallele Streams in höchster 4k-Auflösung und Qualität liefern dabei einen wichtigen Beitrag. Weitere Anwendungsszenarien in der Medien- und Unterhaltungsbranche sind Videobearbeitung, Schnitt, die Erstellung von Special-Effects sowie Grafik und Design.
Eine wichtige Rolle spielt in diesem Umfeld eine leistungsstarke Scale-Out-NAS-Architektur auf Basis einer 10-Gigabit-Ethernet-Infrastruktur, die nativ ein breites Spektrum von Betriebssystemen, Anwendungsszenarien und Protokollen unterstützt. Dazu zählen beispielsweise NFS, CIFS, HTTP, FTP, HDFS für Hadoop und Data Analytics sowie REST, um die Anforderungen der Medien- und Unterhaltungsbranche in den Bereichen Objektspeicherung und Cloud-Computing abzudecken. Der Vorteil für Anwender: Sie gewinnen damit eine höhere Interoperabilität für ihre geschäftskritischen Applikationen und ihre Data-Analytics-Aktivitäten. Ein durchgängiges Dateisystem wie beispielsweise Isilon OneFS ermöglicht eine einfache Verwaltung und zwar unabhängig von der Anzahl der Knoten in einem Storage-Cluster. Damit sind Unternehmen aus der Medien- und Unterhaltungsbranche in der Lage, eine hohe Skalierbarkeit und Leistung bei ihren Data Lakes in den unterschiedlichsten Anwendungsszenarien zu erzielen.

 

Daten als Kapital erkennen
Daten haben sich in den letzten Jahren zu einem überaus wertvollen Unternehmenskapital entwickelt und gelten als Indikator für zukünftigen Geschäftserfolg. Mit fortschreitender Digitalisierung steigt auch der Wert von Daten immer weiter. Experten prognostizieren, dass in den nächsten drei Jahren die Hälfte der globalen Wertschöpfung digital entsteht. Daten werden dabei zum wichtigsten Kapital eines Unternehmens. Der Umgang mit Daten, Ihr Einsatz als Unternehmenskapital und die Fähigkeit, Daten gezielt für das eigene Geschäft zu nutzen, werden Erfolgsentscheidend für Erfolg und Misserfolg im digitalen Wandel sein.
Medialine berät Kunden mit technischem und prozessualem Know-how zu Digitalisierungsthemen. Kommen Sie jetzt auf uns zu und vereinbaren Sie einen unverbindlichen Termin, um mit uns die Herausforderungen Ihres Daten Managements zu beleuchten und eine zukunftsfähige IT-Infrastruktur zu planen.

Dieser Artikel wurde in Zusammenarbeit mit Dell EMC erstellt. Wir bedanken uns bei Benjamin Krebs (Area Manager Germany – Unstructered Data and Analytics bei Dell EMC) für seine Unterstützung und die Erlaubnis diesen Artikel zu veröffentlichen.

Alle Artikel
Newsletter
nach oben button
↑ Back To Top ↑