Was ist Data Science?

Die Wissenschaft der Datenanalyse

Kurz gesagt: Data Science versucht Wissen und nützliche Schlussfolgerungen aus verschiedenen – oft sehr großen – Datenmengen zu generieren. Der Artikel beschäftigt sich mit dem Begriff Data Science, was sich dahinter verbirgt und welche Methoden und Techniken zum Einsatz kommen.

Data Science ist eine recht neue Bezeichnung und entstammt – wie nicht anders zu erwarten – aus dem angelsächsischen Sprachraum, genau wie die Begriffe Business Intelligence und Big Data Analytics. Der Begriff Data Science existiert schon fast ein halbes Jahrhundert, aber so richtig in Verwendung ist er eigentlich erst seit einem halben Jahrzehnt. Das Wort „Science“ in Data Science unterstreicht ganz klar den wissenschaftlichen Aspekt. Die genutzten Methoden kommen aus der Informatik und Mathematik (Wahrscheinlichkeitstheorie und Statistik) und werden meist im Rahmen universitärer Forschungsprojekte weiterentwickelt.

Sowohl im industriellen Umfeld beim Einsatz von immer mehr Sensoren (Industrie 4.0 und Internet der Dinge) als auch im klassischen IT-Umfeld durch das Speichern von Logdaten werden im Zuge der Digitalisierung immens viele Daten erzeugt und gesammelt. Genau hier setzt Data Science an.

Das Verständnis der Daten

Ein gutes Verständnis für die zugrundeliegenden Daten sowie das Anwendungsgebiet ist wichtig, um in den nachfolgenden Schritten gute Ergebnisse liefern zu können. Deshalb werden in der Regel mehr als 50% der Zeit in den Schritt der Datenanalyse investiert. 

Mit dem ersten Schritt, der Datenanalyse, sollten die folgenden Fragen beantwortet werden können: (1) Welche Daten stehen zur Verfügung?, (2) Welche Art von Daten liegen vor (strukturierte/unstrukturierte Daten)?, (3) Ist die Aufgabenstellung mit den vorhandenen Daten zu lösen?, (4) Welche Informationen können aus den Daten extrahiert werden? Auf Basis dieses Verständnisses kann die Problemstellung des Kunden analysiert werden und ein weiterführendes Konzept entwickelt werden.

Die Aufbereitung der Daten

Der Datenanalyse schließt sich der Bereich der Vorverarbeitung und Transformation nahtlos an. Das Zusammenführen von Datenquellen, die Selektion von Attributen (z. B. Drehzahl und Temperatur eines Motors) und die Bereinigung der Daten (z. B. das Beseitigen von Inkonsistenzen und Entfernen oder Ergänzen von unvollständigen Datensätzen) spielt bei der Qualität der resultieren Modelle eine entscheidende Rolle. Nur mit einer soliden und aussagekräftigen Datenbasis sind die nachfolgenden Verfahren in der Lage präzise Antworten zur Fragestellung zu liefern.

Auf Basis dieser Kenntnisse ist es möglich, mit Hilfe von Data Mining und Machine Learning einen Mehrwert aus den Daten zu generieren.

Wissensgenerierung

Der Bereich des Data Mining beschäftigt sich mit der Generierung von neuem Wissen aus bestehenden Daten und nicht, wie der Begriff Data Mining vielleicht vermuten lässt, mit der Gewinnung von Daten selbst. Hier wird versucht durch die Anwendung statistischer Methoden Muster, Querverbindungen und Trends in den Daten zu erkennen. Typische Anwendungen sind hier die Erkennung von Ausreißern (Fehlern oder kurzzeitige Änderungen), das Gruppieren von Objekten aufgrund von Ähnlichkeiten mittels Clusteranalyse [1] oder die Identifizierung von Beziehungen zwischen (mehreren) abhängigen und unabhängigen Variablen mit Hilfe der Regressionsanalyse [2].

Lernen aus Daten

Beim Maschinellen Lernen wird versucht ein System an bekannten Daten lernen zu lassen. Wichtig ist hier zu verstehen, dass die Daten nicht auswendig gelernt, sondern Muster und Gesetzmäßigkeiten „erkannt“ werden, um später das „Wissen“ auf unbekannte Daten anwenden zu können. Das Feld der Anwendungsgebiete ist groß, hier die bekanntesten: automatische Diagnoseverfahren, Aktienmarktanalyse und -vorhersage sowie Sprach- und Texterkennung.

Der Bereich des Maschinellen Lernens ist eng verbunden mit dem Bereich des Data Mining. Viele Algorithmen können für beide Zwecke verwendet werden. Oft werden Methoden des Data Mining genutzt, um Trainingsdaten für die Algorithmen des Maschinellen Lernens zu produzieren oder vorzuverarbeiten.

Bewertung der Ergebnisse

Am Schluss steht die Aus- und Bewertung der erstellten Modelle. Auch dieser Bereich wird oft unterschätzt, obwohl er ebenfalls einen Großteil der Zeit in Anspruch nimmt. In der Evaluation wird versucht, das erstellte Modell auf Grundlage der Problemstellung zu bewerten. Wichtig ist hier, dass die Interpretation der Ergebnisse sehr stark von der Problemstellung abhängt.

Ein klassisches Beispiel ist der HIV-Test. Bei der Problemstellung handelt es sich um ein binäres Klassifikationsproblem: entweder der Patient hat HIV oder nicht. Dabei werden zwei Arten von Fehlern unterschieden. (1) Falsch negativ: Der Patient ist krank, aber der Test hat ihn fälschlicherweise als gesund eingestuft und (2) Falsch positiv: Der Patient ist gesund, aber der Test hat ihn fälschlicherweise als krank eingestuft. In diesem Fall ist der erste Fehler (falsch negativ) als gravierenderer Fehler zu betrachten, da in diesem Fall eine Gefährdung anderer ausgeht. So muss je nach Problemstellung die Betrachtung der Ergebnisse angepasst werden. Auf Grundlage der Resultate muss entschieden werden, ob das Modell die gewünschten Anforderungen erfüllt. Gegebenenfalls müssen z. B. die Auswahl der Datenquellen, die verwendeten Attribute der Daten oder das Modell selbst angepasst und verändert werden.

Ausblick

Die Methoden und Techniken, die im Bereich Data Science eingesetzt werden, bieten die Möglichkeit, schnell und effizient Wissen aus großen Datenmengen zu generieren (Data Mining) und dieses Wissen maschinell anzuwenden (Maschinelles Lernen). Durch die schier endlose Datenflut und die schnelle Weiterentwicklung von Hardware (speziell im Bereich GPUs) entstehen immer mehr Möglichkeiten. Neben den klassischen Verfahren des Maschinellen Lernens erregt derzeit das Deep Learning [4] immer mehr Aufmerksamkeit. Deep Learning ist eine Weiterentwicklung der neuronalen Netze [3] und in der Lage hoch komplexe Klassifikationsprobleme zu lösen. Beim Deep Learning beinhaltet eine große Anzahl von Matrixmultiplikationen und andere Operationen, die massiv parallelisiert und damit auf GPUs beschleunigt werden können.

Referenzen

[1] DataOnFocus Clustering in Data Mining, http://www.dataonfocus.com/clustering-in-data-mining/, 2015

[2] Brownlee, Jason Linear Regression for Machine Learning, http://machinelearningmastery.com/linear-regression-for-machine-learning/, 2016

[3] Neuronale Netze – Eine Einführung, http://www.neuronalesnetz.de

[4] Marr, Bernard What Is The Difference Between Deep Learning, Machine Learning and AI? https://www.forbes.com/sites/bernardmarr/2016/12/08/what-is-thedifference-between-deep-learning-machine-learning-and-ai/, 2016


Fabian Witt verfasste diesen Beitrag, der in der Mai-Ausgabe 2017 des KaffeeKlatsch erschien.