Während meines Praktikums habe ich an einem Use-Case im Krafthaftpflicht Bereich mitgearbeitet mit dem Ziel ein Machine Learning Modell zu entwickeln, welches die Sachbearbeiter bei der früheren Erkennung von Personenschäden in Krafthaft-Schadenfällen unterstützen soll.
Um erst einmal mit der Datenlandschaft und den Datensätzen vertraut zu werden, war ich in den ersten Wochen des Praktikums hauptsächlich mit explorativen Datenanalysen beschäftigt. Nach dieser Einarbeitungsphase konnte ich bereits direkt am Modell mitarbeiten. Die Hauptaufgabe bestand darin das Modell durch die Erstellung neuer Feature kontinuierlich zu verbessern. Neue Ideen dafür entstanden aus Brainstormings in Zusammenarbeit mit den für das Schadenmanagement verantwortlichen Fachbereichen. Die dort vorgeschlagenen Feature wurden anschließend auf ihre Umsetzbarkeit aus den vorhandenen Daten geprüft und ihr Nutzen am Modell getestet. Nachdem durch einige neue Feature die Modellperformance verbessert werden konnte, wurde ein A/B-Test auf neuen Schadenfällen durchgeführt, um herauszufinden ob ein statistisch signifikanter Einfluss des Modells auf die Erkennung von Personenschäden gemessen werden kann.
Gearbeitet wurde übrigens hauptsächlich mit Python in Jupyter Notebooks. Für die Erstellung unserer Datensätze, die wir für die Analysen und für das Modelltraining benötigten, haben wir die relevanten Daten aus dem Data Warehouse des Unternehmens mittels SQL-Skripten abgefragt.
Die Arbeitsweise im Team war teilweise agil. Das heißt es gab Regeltermine wie Dailys, Weeklys und Retrospektiven, jedoch keine Sprints (zumindest nicht in allen Use-Cases). Der Grund dafür ist, dass sich der Workflow im Bereich Data Science nicht so einfach in zwei-/dreiwöchige Sprints einteilen lässt, da sich beispielsweise bei explorativen Datenanalysen nicht so einfach sagen lässt, bis wann Erkenntnisse aus den Daten gewonnen werden können.
Aufgrund der Corona-Pandemie haben wir im Team fast durchgehend im Homeoffice gearbeitet.