Auf Erkenntnissuche

Data Scientists finden in Datensätzen neues Wissen oder Verbesserungsmöglichkeiten. Ein Blick in den Alltag zwischen Rolltreppen, Fußball und Datadrift

8 Minuten Lesezeit

Wer in einen Zug steigen will, ist vorher meist auf andere Transportmittel der Deutschen Bahn angewiesen: Rolltreppen oder Fahrstühle helfen den Passagieren beim Wechsel zwischen Ebenen und Zügen. Allerdings kommt es vor, dass die Technik aufgrund einer Störung einfach stillsteht. Weshalb? Welcher Defekt steckt dahinter? Wann kommt es zu solchen Ausfällen? Um eine Antwort auf diese Fragen zu finden, beschäftigt sich die Datenexpertin Anne Traulsen mit den Informationen, die die Deutsche Bahn von der Fahrstuhl- und Rolltreppentechnik sammelt. »Am Anfang habe ich eine Menge roher Daten, die noch ziemlich dreckig sind«, erklärt Traulsen. »Diese Daten nehme ich mir Satz für Satz vor, entferne ›Verkrustungen‹, bearbeite und veredele sie. Erst dann kann ich sie analysieren.«

»Mein System kann nur so gut sein wie die Hypothese, die ich habe«

Julien Siebert, Fraunhofer IESE

Dafür muss Traulsen aber verstehen, wo das Problem seinen Ausgang genommen haben könnte. »Das klappt am besten, indem ich Hypothesen aufstelle. Zum Beispiel könnte es sein, dass die Technik besonders häufig am Tag eines Bundesligaspiels ausfällt, wenn viele emotional aufgeladene Menschen am Bahnhof unterwegs sind. Diese Vermutung versuche ich dann, anhand der Daten zu belegen oder zu widerlegen.«

Infos zu Wetter, Tageszeit und Auslastung verbinden

Als Data Scientist arbeitet Anne Traulsen für DB Systel, die IT-Tochter der Deutschen Bahn. Im Gesamtkonzern liegt die Anzahl der Data Scientists inzwischen etwa im dreistelligen Bereich. Die Spezialistinnen und Spezialisten verbinden zum Beispiel Daten zum Wetter, zur Tageszeit oder zur Fahrzeugauslastung, um Fahrgästen genauere Prognosen zu Umsteigezeiten geben zu können. Anne Traulsen kümmerte sich aber auch schon um Fragen der Optimierung bei der Auslastung des Schienennetzes oder um die Vorhersage von Fehlern an Zügen, der Einsatzbereich ist groß. Und gerade wegen der Größe des Arbeitsfeldes »Big Data«, so Traulsen, ist eine Definition von Data Science so schwierig. Der Schwerpunkt allerdings liege im Aufbereiten und Auswerten von Daten, etwa im Rahmen des Machine Learning, einem Bereich der künstlichen Intelligenz. Zugleich gebe es fließende Übergänge zum vorgelagerten Data Engineering: Dabei werden Datenquellen an einen zentralen Speicher angebunden, auf den sich für die Auswertung zugreifen lässt. Anne Traulsen bringt ihre Arbeit so auf den Punkt: »Es geht um Erkenntnisgewinn anhand von Daten, die ich zu diesem Zweck modelliere und visualisiere.«

»Wir haben als Data Scientists den Luxus, dort arbeiten zu können, wo wir wollen«, sagt Julien Siebert, der am Fraunhofer IESE zum Thema forscht und auch immer wieder mit Unternehmen kooperiert.

Am Fraunhofer-Institut für Experimentelles Software Engineering IESE beschäftigt sich Julien Siebert unter anderem mit der Frage, was ein Data Scientist eigentlich können sollte. Siebert definiert einen Data Scientist als jemanden, der datengetriebene Software baut, die mithilfe von Datenanalysen Aufgaben erfüllt und sich ein Stück weit selbst programmiert. »Ein Data Scientist kann die entsprechende Software bauen, er kann sie aber auch pflegen, warten, testen und weiterentwickeln.« Für seine Forschung zu Methoden der Data Science spricht Siebert häufig mit anderen Data Scientists über deren Herausforderungen und Vorgehensweisen. »Oft starten wir die Arbeit mit einem Problem, das undefiniert ist, wenn wir zum Beispiel etwas ›einfach optimieren‹ sollen.« Elementar wichtig sei es an diesem Punkt, ähnlich wie Anne Traulsen eine Annahme zu treffen, eine Hypothese aufzustellen. Julien Siebert sagt: »Mein System kann nur so gut sein wie die Hypothese, die ich habe.« Siebert betreut auch Studierende des Faches Software Engineering an der TU Kaiserslautern. Ihnen versucht er auch das

»Ich kann für andere einen echten Mehrwert leisten«

Anne Traulsen, DB Systel

richtige Bauchgefühl beim Problemlösen anzutrainieren: Sie sollen inhaltliche Zusammenhänge erkennen und lernen, Modelle nicht nur technisch zu verstehen. Soll ein Modell zum Beispiel die Emissionen einer Industrieanlage vorhersagen, müssen weitere Fragen im Blick bleiben: Wie speicherintensiv ist das Modell? Wie viel Zeit benötigt es zum Rechnen? Ist der Code so sauber geschrieben, dass ihn andere weiterentwickeln können? Was geschieht bei »Datadrift«, wenn sich also Messdaten plötzlich ändern?

Julien Siebert forscht nicht nur zum Fachgebiet, er unterrichtet auch im Zertifizierungsprogramm »Data Scientist«, das die Fraunhofer-Allianz Big Data AI anbietet. In einem sechstägigen Crashkurs lernen die Teilnehmenden mehr über Big-Data-Systeme, Datenmanagement und -analyse, über Visualisierung und die Absicherung von Anwendungen. Zur Zielgruppe gehören zum Beispiel Führungskräfte, Projektverantwortliche und Fachkräfte mit Grundkenntnissen in Statistik und Datenanalyse.

Anne Traulsen von der DB Systel studierte zunächst Psychologie, ehe sie ein Studium der Informatik aufnahm. »Viele erstaunt dieser Wechsel, dabei passen Psychologie und Informatik sehr gut zusammen.«

Spaß an der Detailarbeit

Das Feld der Ausbildungen für Data Scientists ist derzeit noch überschaubar, einen klassischen Weg ins relativ junge Berufsbild gibt es noch nicht. Viele Arbeitgeber setzen ein abgeschlossenes Hochschulstudium voraus, weil Data Scientists wissenschaftlich denken sollen. Auch ein gutes Verständnis von Mathematik und Informatik ist gefragt. Wenn es in den Job geht, sind außerdem Programmierkenntnisse ein Muss, zum Beispiel in den Programmiersprachen »Python« oder »R«. Julien Siebert studierte Ingenieurswissenschaften, absolvierte einen Masterstudiengang in Künstlicher Intelligenz und promovierte zur Modellierung von komplexen Systemen. Nach einigen Jahren als Postdoc an der Schnittstelle zwischen Informatik und theoretischer Physik wechselte er als Data Scientist zum Versandhändler Zalando, wo er unter anderem an der intelligenten Schuhgrößen-Empfehlung arbeitete.

Die Wege in den Beruf können aber auch wesentlich kurvenreicher verlaufen. Anne Traulsen von der DB Systel zählt auch einen Atomphysiker oder einen Theologen zu ihren Kollegen. Sie selbst studierte ursprünglich Psychologie und arbeitete auch im Beruf, ehe sie 2015 ein duales Studium in Informatik aufnahm. »Viele erstaunt dieser Wechsel, dabei passen Psychologie und Informatik sehr gut zusammen«, findet Traulsen. Auch die Psychologie sei mathematisch geprägt und erstelle Studien, indem sie passende mathematische Methoden auf Daten anwende. Der einzige Unterschied sei der starke Menschenbezug in der Psychologie, während sich die Informatik vorrangig technischen Fragen widme.

»Für mich stand die Informatik vor allem für Programmierung, die für mich einen entscheidenden Vorteil hat«, betont Anne Traulsen: »Ich komme mit ihr meist zu eindeutigen Ergebnissen: Entweder funktioniert etwas, wie es soll, oder nicht.« Im Umfeld der Data Science müsse sie hingegen mit Unsicherheiten leben, da sie sich nie ganz sicher sein könne, ob sie bei der Auswertung die richtige Methode gewählt und an alle wichtigen Faktoren gedacht habe. Die Datenexpertin der DB Systel sagt, es sei unerlässlich, kritisch gegenüber der eigenen Arbeit zu sein und aktiv Qualitätssicherung zu betreiben. Hartnäckigkeit und eine gewisse Frustrationstoleranz sind laut Anne Traulsen deshalb hilfreiche außerfachliche Kompetenzen: »Manchmal kommt am Ende einer Arbeit auch einfach nichts heraus.«

In seiner Arbeit beim Fraunhofer IESE forscht Julien Siebert selbst, er arbeitet aber auch immer wieder mit Kunden aus der Industrie zusammen, die datengestützte Lösungen für bestimmte Probleme suchen. Freude am Austausch und an der Kommunikation sind in solchen Prozessen hilfreich. »Wir beginnen unsere Zusammenarbeit immer mit einem Workshop, um zu verstehen, was der Kunde wirklich will, welche Daten zur Verfügung stehen und was überhaupt möglich ist. Wir sind dazu von Beginn an in einem ständigen Austausch.« Julien Siebert schätzt die Abwechslung, die seine Arbeit bereithält. Mal befasst er sich mit Wasseraufbereitung, mal mit Sprachen, Fußball oder mit Kraftwerken. Daten fallen in fast allen Gebieten der Wirtschaft an, entsprechend weit ist das Aufgabenfeld. Seit Unternehmen immer größere Datenmengen sammeln, brauchen sie auch immer mehr Experten, die sie auswerten können. Das Jobportal Glassdoor listet aktuell gut 1000 offene Stellen in Deutschland. Julien Siebert kennt die Wahlmöglichkeiten seiner ausgebildeten Kolleginnen und Kollegen: »Wir haben als Data Scientists den Luxus, dort arbeiten zu können, wo wir wollen.«

Anne Traulsen sagt, dass ihr Jobwechsel auch deswegen die richtige Entscheidung gewesen sei, weil sie gerne Probleme knackt und Prozesse optimiert. Als Data Scientist kann sie dieser Berufung hauptberuflich nachgehen. »Und was mich am meisten begeistert: Ich kann für andere einen echten Mehrwert leisten.«

Viele Wege führen ins Berufsbild Datenwissenschaftler:in

Mit der Digitalisierung entstehen neue und vielversprechende Jobperspektiven. Das Berufsbild des Data Scientist gab es bis vor Kurzem noch nicht, inzwischen aber wird diese Kompetenz in vielen Branchen nachgefragt. Quereinsteiger:innen finden in der Welt der Daten genauso ihre Heimat wie Hochschulabsolvent:innen. Eine Übersicht der Aus- und Weiterbildungsmöglichkeiten.

Einige deutsche Universitäten und Fachhochschulen bieten inzwischen spezielle Studiengänge in Data Science an, zum Beispiel die FH Kiel (Master), die TU Dortmund (Bachelor und Master) und die Universität Leipzig (Master).

Wer sich zum Data Scientist qualifizieren möchte, muss nicht zwingend an der Hochschule studieren. Die Fraunhofer-Allianz Big Data AI bietet ein Zertifizierungsprogramm für angehende Data Scientists. Neben dem Basislevel gibt es auch Spezialisierungsprogramme in »Big Data Analytics«, »Deep Learning« und »Trustworthy AI«. Mehr auf bigdata.fraunhofer.de

Verhältnismäßig geringe Grundkenntnisse setzt der Berliner Anbieter CareerFoundry für sein Programm in Data Analytics voraus. Potenzielle Studentinnen und Studenten brauchen nur einen Computer, mit dem sie sich zu den Kursen und Coachings einloggen können, sowie den Willen, acht Monate lang 15 Stunden die Woche in diese Form der Weiterbildung zu investieren. Mehr auf der Website careerfoundry.com

Über die Online-Weiterbildungsplattform Coursera bietet auch Google in Kürze eine Weiterbildung zum Data Analyst. Innerhalb von sechs Monaten kommen Teilnehmer:innen auch ohne Vorkenntnisse zum Abschluss und erlangen ein »Google Career Certificate«. Die Studierenden lernen, sich mithilfe von Tools und Plattformen durch verschiedene Datensätze zu navigieren, die Informationen zu verarbeiten, zu analysieren, zu visualisieren und vor allem Erkenntnisse daraus zu ziehen. Mehr auf grow.google

Kleinteiliger sind die kostenfreien Angebote der Google Zukunftswerkstatt, mit der Google Menschen fit für das Leben und Arbeiten in der digitalen Welt machen will. In der »Analytics Academy« werden die Analyse-Tools von Google vorgestellt, die sich für eine intelligente Datenerfassung und -analyse eignen. Aktuelle Kurse sind: »Google Analytics für Anfänger«, »Google Analytics für Fortgeschrittene«, »Einführungskurs zu Google Analytics 360« und »Google Tag Manager Grundlagen«. Mehr auf analytics.google.com

Fotos: SchreiberPötter, Jan Zühlke, Illustrationen: Anton Hallmann