Liebe Blogleser/innen,
wie in Teil 1 angekündigt, möchte ich euch von meiner Tätigkeit als Praktikant bei der Volkswagen AG berichten.
Daten sind längst als wichtige Ressource weltweit in jedem Bereich der Wirtschaft angekommen. Unternehmen sammeln Daten über Kunden, Lieferanten, Transaktionen und vieles mehr. Aber auch die in einem Fahrzeug integrierten Sensoren generieren Vielzahl von Daten und lassen somit ein Teil des Ganzen sein. Die dabei anfallenden Datenmengen sind enorm groß, sehr vielfältig und besitzen gleichzeitig ein hohes Analysepotential. Der Sammelbegriff hierfür lautet „Big Data“.
Um diese Analysepotential zu nutzen und damit aus unternehmerische Situationen Anwendungsfälle abzuleiten, wurde zusammen mit dem Fraunhofer Institut eine Anwendung implementiert. Diese Anwendung basierte auf verteilte Speicherung und ermöglichte verteilte und skalierbare Auswertung der Daten. Hiernach habe ich das Projekt übernommen und bekam die Aufgabe selbst einen Anwendungsfall zu definieren und diesen durch Erweiterung der bestehenden Anwendung zu realisieren. Bei meinem Anwendungsfall ging es grob um die Erkennung von Spurwechselereignissen auf den Autobahnen.
Wenn man sich mit Big Data beschäftigt und mögliche Lösungsansätze zum Umgang dieser immensen Datenmengen sucht, stößt man automatisch auf Hadoop. Hadoop ist ein Java-basiertes Framework, welches die Datenspeicherung und Berechnungen auf viele Rechner verteilt und damit es ein geringes Ausfallrisiko, einfache und schnelle Lösung verspricht. Daher sollte ich in erster Linie Hadoop auf eine bestimmte Anzahl von Rechnern installieren und ein Clustersystem bauen. Zunächst musste ich Testdaten generieren. Hierfür musste ich Testfahrten durchführen und Daten aufzunehmen sowie ggfs. Markierungen in den Daten vorzunehmen. Nachdem ich die notwendigen Testdaten generiert habe, musste ich die vorliegenden Rohdaten nun in ein Format, welches von der Anwendung vorausgesetzt war, transformieren. Dabei musste ich eine andere bestehende Anwendung erweitern und das gewünschte Format generieren. Nun lagen die benötigten Daten in das richtige Format vor und ich konnte mich auf die Anwendung, welche die Erkennung der Spurwechselereignisse ermöglichen soll, konzentrieren. Dabei habe ich ein bestimmtes Data-Mining-Verfahren implementiert und in die bestehende Anwendung integriert. Um sowohl die Testdaten als auch die verarbeiteten Daten zu visualisieren, installierte ich das RStudio und Quantum QIS. Zum Schluss fasste ich die Ergebnisse in einer Wahrheitsmatrix zusammen.
Außerdem bekam ich gelegentlich weitere Aufgaben, die unabhängig von dem Projekt waren. Dazu gehörte beispielsweise eine Liste über die vorhandenen CAN-Busse zu führen, Festplatten zu formatieren oder auch Testfahrzeuge für einen Reifenwechsel zur Werkstatt zu fahren. Zudem unterstütze ich einige Kollegen/Kolleginnen bei Ihrer Forschung, indem ich für sie Testfahrten durchführte oder mich auch als Proband bei Ihren Forschungsfahrten zur Verfügung gestellt habe.
Über meine persönliche Erfahrungen und Eindrücke während des Praktikums berichte ich euch im Teil 3.