Data Preprocessing erklärt wie sich Big Data optimal nutzen lässt

26. August 2021 von Simon Krannig

Unternehmen produzieren Unmengen an Daten: Maschinendaten, Messdaten, Prozessdaten und viele mehr. Um alle diese Informationen sinnvoll nutzen zu können, müssen sie vorab gefiltert und aufbereitet werden. Die Datenvorverarbeitung – eine Data-Mining-Technik, mit der Rohdaten in ein nützliches und effizientes Format umgewandelt werden – ist aber nicht mal eben so gemacht. Sie braucht Zeit. Daher fließen in die meisten Big-Data-Projekte rund 80 Prozent der Arbeitszeit in das Data Preprocessing. Über die Qualität der Daten entscheidet also ihre Vorverarbeitung. Aber wie gelingt dieser Prozess erfolgreich in der Unternehmenspraxis?

Die Menge an maschinell generierten Daten wächst

Die Digitalisierung von Informations- und Kommunikationsprozessen sowie Unternehmenstransaktionen sorgen dafür, dass sich die weltweit elektronisch verfügbaren Datenmengen jedes Jahr verdoppeln. Mitarbeitende, Industrieanlagen, Vorgänge in Behörden oder die elektronische Erfassung von Gesundheitsparametern in der Medizin produzieren immer mehr Daten.

Dabei handelt es sich nicht nur um Messungen und Erfassungen, die durch Menschen erzeugt und in Datenbanken eingespeist werden. Es geht vielmehr um maschinell generierte Daten aus den unterschiedlichsten Bereichen: Das sind zum Beispiel Daten automatischer Messgeräte in Industrieanlagen, Sensordaten mobiler Geräte, Videofeeds von Kameras aus dem Bereich des autonomen Fahrens oder Metadaten aus Social-Media-Anwendungen.

Intelligente Systeme dank künstlicher Intelligenz

Sorgfältige Vorverarbeitung der Daten ist Gold wert

In solchen Daten schlummern hohe Potenziale. Was dem Laien als unzusammenhängender Datenwust erscheinen mag, birgt für Experten nützliche Informationen. Zunehmend werden Data Scientists eingesetzt, um Regelmäßig- oder Gesetzmäßigkeiten offenzulegen und verborgene Zusammenhänge zutage zu fördern. Dafür ist es notwendig aus der großen, scheinbar unstrukturierten Datenmenge, die in einem Geschäftsprozess anfällt, aussagekräftige Informationen zu extrahieren. Eine sorgfältige Vorbereitung ist das A und O für den Erfolg des Vorgangs des Data Preprocessing. Das Ziel ist es, die gesammelten Rohdaten für eine weitere Verarbeitung nutzbar zu machen. Dafür werden die Rohdaten so aufbereitet, dass sie für Menschen verständliche Zusammenhänge erkennen lassen. Die menschenlesbaren Daten werden wiederum in maschinenlesbare Daten umgewandelt. Auf diese Weise kann ein mögliches Kundenverhalten vorausgesagt oder die Stabilität von Serverleistungen erhöht werden. Das wiederum wirkt sich positiv auf die Verfügbarkeit von Webservices aus, die für Unternehmen und Kunden gleichermaßen von großer Wichtigkeit ist. Zusätzlich wird personalisierten Angeboten oder individualisierten Dienstleistungen der Weg geebnet. Durch Data Preprocessing generieren Unternehmen somit aussagekräftige Informationen, die den Weg in die Industrie 4.0 ermöglichen.

Data Scientists und Fachabteilungen arbeiten Hand in Hand

Adacor baut aktuell seine Abteilung für Data Analytics aus. Für die effektive Datenanalyse setzen wir auf ein enges Zusammenspiel von Experten aus den Fachabteilungen mit unseren Data Scientists. Die Teams der Fachabteilungen beschäftigen sich mit konkreten Fragestellungen: Das Marketing benötigt zum Beispiel eine Analyse der Websitedaten oder der Social Media Feeds. Projektmanager wollen anhand von Prozessdaten Verbesserungen des Workflows erreichen. Das Controlling sucht Einsparpotenziale. Unsere Systemadministratoren möchten die Serverauslastung und Stabilität kontinuierlich verbessern. In vielen Industrieunternehmen spielt zudem die Laufleistung von Anlagen und Maschinen eine wichtige Rolle. Dort ist die Kooperation mit den Maschinenführern wichtig. Sie versorgen ihre Data Scientists mit Messdaten, die – analysiert und neu aufbereitet – nützlich für eine ökonomischere Produktion sein können.

Die Schritte der Datenvorverarbeitung

Während der Vorverarbeitung durchlaufen die Daten eine Reihe von Schritten. Dabei geht es darum, den in der Regel gigantischen, verworrenen, mehrfach miteinander verknüpften Bestand „aufzuräumen“ und auf das Wesentliche zu reduzieren. Die Datenanalysten gehen dafür rein systematisch vor und bedienen sich statistischen Methoden. Es geht darum Daten ergebnisoffen zu bearbeiten, um so „verdeckte“ Regelmäßigkeiten herauszufinden – nicht diese nach einem definierten Ordnungssystem anzuordnen.

Die Schritte sind im Einzelnen:

1. Die Datenbereinigung: Allein beim Sichten fällt eine große Datenmenge weg: leere Datenbankfelder oder Spalten, Redundanzen. Eindeutig fehlende Werte werden ergänzt, „verrauschte“ Daten werden geglättet, Inkonsistenzen aufgelöst.

2. Das Verstehen der Daten: Datensätze, die zusammengehörende Objekte oder Vorgänge betreffen, werden einander zugeordnet und zusammengefasst. Zum Beispiel finden sich am Ende eines solchen Prozesses alle Informationen zu einer Person, zu einem Fahrzeug, zu einer Krankheit oder zu einem Server in einem Datensatz wieder. Die Reduktion ist einen Schritt weiter.

3. Die Datentransformation oder das Herunterbrechen der Daten: Die Daten werden weiter verdichtet, Datenflüsse auf Regelmäßigkeiten untersucht, aus denen Gesetzmäßigkeiten abgeleitet werden können. Erst dann können sie als Futter für einen Algorithmus dienen.

Am Ende steht eine konsequente Datenreduzierung. Sie erzeugt „handliche Datenpakete“ als Repräsentanz einzelner kleinerer Subprobleme. Diese Pakete folgen eindeutigen Regeln, sind maschinenlesbar und können in Zukunft durch Algorithmen „selbstlernend“ weiterverarbeitet werden.

Dieser Prozess zeigt, dass es nicht verwunderlich ist, wenn in Big-Data-Projekten rund 80 Prozent der Arbeitszeit für die Datenvorverarbeitung verwendet wird. Das Augenmerk liegt darauf, zu erkennen, wie bestimmte Werte zustande kommen. Ferner sollte klar werden, wie das Ergebnis, welches nach der Sichtung strukturell erkennbar ist, automatisch gefiltert werden kann. In dem Prozess werden die verfügbaren Daten gesäubert und explorativ analysiert. Anschließend werden die Analyseergebnisse visualisiert. Abschließend wird „eine Story“ daraus abgeleitet.

Jedes Unternehmen kann von Data Preprocessing profitieren

Nicht nur Adacor selbst, auch unsere Kunden profitieren von unserem intensiven Data Preprocessing. Wir nutzen die Methode, um unsere Geschäftsprozesse – Planung, Aufbau und Betrieb von Serverlösungen oder die Bereitstellung von Sicherheit und Verfügbarkeit unserer Serverkapazitäten – kontinuierlich zu verbessern. Die Ergebnisse unserer Datenvorverarbeitung dienen zum Beispiel als Basis für vorausschauende Analysen (Stichwort: Predictive Analytics). Damit können wir die Leistungsfähigkeit unserer Systeme sowie die Stabilität unserer Server immer weiter steigern. Das führt dazu, dass wir unseren Kunden besonders attraktive Datenbank- und Serverarchitekturen zur Verfügung stellen können.

In jedem Unternehmen fallen Daten an. Daten dokumentieren Sachverhalte oder Vorgänge, Zustände oder Ergebnisse. Ob die Maschinenlaufzeiten in einem mittelständischen Produktionsbetrieb oder die Big-Data-Blase eines Onlineversandhandels – zu verstehen, was die Daten zeigen beziehungsweise welche Gegebenheiten sie repräsentieren, kann für jedes Unternehmen sinnvoll sein. Dafür ist ein Verständnis für die Daten notwendig. Damit Datenanalysen überhaupt eingeleitet werden können, ist zunächst die Datenvorverarbeitung notwendig. Es gibt darüber hinaus Unternehmen, die mit extrem großen Datenmengen konfrontiert sind. Sie werden der Komplexität mit herkömmlichen Datenbanken schon lange nicht mehr Herr. Deshalb setzen sie auf erweiterte Analytics-Techniken wie Data Mining, Text Mining, Process Mining oder Machine Learning. Mithilfe solch statistischer Methoden können sie Vorhersagen über die Wahrscheinlichkeit von zukünftigen Ereignissen treffen. Das ermöglicht zum Beispiel vorausschauende Wartungssysteme, die auf Künstlicher Intelligenz (KI) basieren.

Wir bei Adacor nutzen unter anderem unsere Monitoring-Daten, um die Serverskalierbarkeit zu optimieren und maßgeschneiderte Services anzubieten. Auf Basis der gewonnenen Erkenntnisse lassen sich Server einfach hochskalieren. So können wir vorausschauend zu bestimmten Zeitpunkten eine hohe Nutzeraktivität befriedigen und bei Bedarf die Kapazitäten wieder herunterfahren. Das ermöglicht es, einen zuverlässigen und konsistenten Service zu gewährleisten.

Quantität und Qualität sind zwei entscheidende Faktoren

Es gibt zwei große Herausforderungen beim Data Preprocessing: Das sind zum einen die Mengen der anfallenden Daten und zum anderen die zur Verfügung stehende Datenqualität. In der Regel stammen die Daten aus unterschiedlichen Quellen: Das können automatisch gespeicherte Messergebnisse sein, im schlechtesten Fall handelt es sich um per Hand eingetragene Angaben aus einer Excel-Tabelle. Alle relevanten Daten in ein einheitliches, maschinenlesbares Format zu überführen, ist wesentliche Voraussetzung für sinnvolle Datenanalysen. Dabei ist es Aufgabe unserer Data Scientists wirtschaftlich zu arbeiten. Klare zeitlich (kurz-/mittel-/langfristig) gegliederte Systematiken sind in diesem Zusammenhang von grundlegender Bedeutung.

Der Zufall setzt dem Data Preprocessing Grenzen

Die Erfolgskontrolle bei der Datenvorverarbeitung gestaltet sich recht schwierig. Dass der Prozess grundsätzlich finanzielle Vorteile für ein Unternehmen birgt, kann im Vorhinein nicht eindeutig bemessen werden. Das Preprocessing ist weitgehend ergebnisoffen. Das Management eines Unternehmens muss akzeptieren, dass Data Scientists möglicherweise „zufällig“ wichtige Zusammenhänge aufdecken oder über Umwege an interessante Ergebnisse kommen.

So ist es natürlich ein Wunsch vieler KI-Experten, Algorithmen zu entwickeln, die den drohenden Ausfall komplexer Maschinen prognostizieren können. Solange die erhobenen Daten jedoch keine Regelmäßigkeit erkennen lassen, warum ein System im Einzelfall nicht funktioniert, kann wochenlange Arbeit versanden. Der „Zufall“ ist bei IT-Projekten immer mit an Bord.

Dennoch: Durch Datenbereinigungen und -analysen erhalten Unternehmen interessante Erkenntnisse über ihre internen Prozesse. Häufig ergeben sich auch für andere Teilbereiche zahlreiche Verbesserungsoptionen. Bei Adacor hat die Anwendung von Data Preprocessing den Weg in die Industrie 4.0 geebnet. Die Technik ist ein wichtiger Schritt für diese Entwicklung, der häufig übersehen wird.

Sie möchten mehr Informationen zu KI- und Big Data-Themen?

Dann haben wir weitere spannende Artikel im Blog für Sie zum Lesen! Unsere Data Scientists Simon Krannig und Charaf Ouladali erklären, wie sich Maschinelles Lernen realisieren lässt, was genau hinter dem Begriff Supervised Learning steckt und wie Unternehmen von Predictive Analytics profitieren. Von unserem Product Manager Valentin Rothenberg erfahren Sie, wie Adacor im Rahmen eines innovativen KI-Projekts Predictive Monitoring einsetzt. Zudem berichten unsere Data Scientists, wie Prozesse der Datenwissenschaft mithilfe von Scrum optimiert werden können.

Data Preprocessing erklärt wie sich Big Data optimal nutzen lässt

Die Menge an maschinell generierten Daten wächst

Sorgfältige Vorverarbeitung der Daten ist Gold wert

Data Scientists und Fachabteilungen arbeiten Hand in Hand

Die Schritte der Datenvorverarbeitung

Die Schritte sind im Einzelnen:

Jedes Unternehmen kann von Data Preprocessing profitieren

Quantität und Qualität sind zwei entscheidende Faktoren

Der Zufall setzt dem Data Preprocessing Grenzen

Sie möchten mehr Informationen zu KI- und Big Data-Themen?

Verwandte Artikel

Wie Sie durch Predicitive Analytics Muster erkennen können

Wie Sie Anliegen im Job mit Erfolg formulieren

Bei uns erhalten Bewerber schnelles Feedback

Die Menge an maschinell generierten Daten wächst

Sorgfältige Vorverarbeitung der Daten ist Gold wert

Data Scientists und Fachabteilungen arbeiten Hand in Hand

Die Schritte der Datenvorverarbeitung

Die Schritte sind im Einzelnen:

Jedes Unternehmen kann von Data Preprocessing profitieren

Adacor Cloud Adoption Framework

Quantität und Qualität sind zwei entscheidende Faktoren

Der Zufall setzt dem Data Preprocessing Grenzen

Sie möchten mehr Informationen zu KI- und Big Data-Themen?

Verwandte Artikel

Wie Sie durch Predicitive Analytics Muster erkennen können

Wie Sie Anliegen im Job mit Erfolg formulieren

Bei uns erhalten Bewerber schnelles Feedback