Datenvorverarbeitung

Definition - Was bedeutet Datenvorverarbeitung?

Die Datenvorverarbeitung ist eine Data Mining-Technik, bei der Rohdaten in ein verständliches Format umgewandelt werden. Daten aus der realen Welt sind oft unvollständig, inkonsistent, weisen bestimmte Verhaltensweisen oder Trends auf und enthalten wahrscheinlich viele Fehler.

Die Datenvorverarbeitung ist eine bewährte Methode zur Lösung solcher Probleme. Die Datenvorverarbeitung bereitet Rohdaten für die weitere Verarbeitung vor.

Die Datenvorverarbeitung wird in datenbankgesteuerten Anwendungen wie Kundenbeziehungsmanagement und regelbasierten Anwendungen (wie neuronalen Netzen) verwendet.

In ML-Prozessen (Machine Learning) ist die Datenvorverarbeitung entscheidend, um den Datensatz in einer Form zu codieren, die vom Algorithmus interpretiert und analysiert werden kann.

Technische.me erklärt die Datenvorverarbeitung

Die Daten durchlaufen während der Vorverarbeitung eine Reihe von Schritten:

Datenreinigung: Daten werden durch Prozesse wie das Ausfüllen fehlender Werte oder das Löschen von Zeilen mit fehlenden Daten, das Glätten der verrauschten Daten oder das Beheben von Inkonsistenzen in den Daten bereinigt.

Das Glätten von verrauschten Daten ist besonders wichtig für ML-Datensätze, da Maschinen keine Daten verwenden können, die sie nicht interpretieren können. Daten können bereinigt werden, indem sie in gleich große Segmente unterteilt werden, die auf diese Weise geglättet werden (Binning), indem sie an eine lineare oder multiple Regressionsfunktion angepasst werden (Regression) oder indem sie in Cluster ähnlicher Daten gruppiert werden (Clustering).

Dateninkonsistenzen können aufgrund menschlicher Fehler auftreten (die Informationen wurden in einem falschen Feld gespeichert). Doppelte Werte sollten durch Deduplizierung entfernt werden, um zu vermeiden, dass dieses Datenobjekt einen Vorteil (Bias) erhält.

Datenintegration: Daten mit unterschiedlichen Darstellungen werden zusammengestellt und Konflikte innerhalb der Daten werden gelöst.

Datentransformation: Die Daten werden normalisiert und verallgemeinert. Die Normalisierung ist ein Prozess, der sicherstellt, dass keine Daten redundant sind, alle an einem einzigen Ort gespeichert sind und alle Abhängigkeiten logisch sind.

Datenreduzierung: Wenn das Datenvolumen sehr groß ist, können Datenbanken langsamer, kostenintensiver und schwierig zu speichern sein. Der Datenreduktionsschritt zielt darauf ab, eine reduzierte Darstellung der Daten in einem Data Warehouse darzustellen.

Es gibt verschiedene Methoden, um Daten zu reduzieren. Wenn beispielsweise eine Teilmenge relevanter Attribute aufgrund ihrer Bedeutung ausgewählt wurde, wird alles, was unter einer bestimmten Ebene liegt, verworfen. Codierungsmechanismen können ebenfalls verwendet werden, um die Datengröße zu reduzieren. Wenn alle Originaldaten nach der Komprimierung wiederhergestellt werden können, wird der Vorgang als verlustfrei gekennzeichnet.

Wenn einige Daten verloren gehen, spricht man von einer verlustbehafteten Reduzierung. Die Aggregation kann beispielsweise auch verwendet werden, um unzählige Transaktionen zu einem einzigen wöchentlichen oder monatlichen Wert zusammenzufassen und so die Anzahl der Datenobjekte erheblich zu reduzieren.

Datendiskretisierung: Daten könnten auch diskretisiert werden, um Rohwerte durch Intervallebenen zu ersetzen. Dieser Schritt beinhaltet die Reduzierung einer Anzahl von Werten eines kontinuierlichen Attributs durch Teilen des Bereichs von Attributintervallen.

Datenabtastung: Manchmal ist ein Datensatz aufgrund von Zeit-, Speicher- oder Speicherbeschränkungen zu groß oder zu komplex, um bearbeitet zu werden. Stichprobenverfahren können verwendet werden, um nur eine Teilmenge des Datensatzes auszuwählen und damit zu arbeiten, vorausgesetzt, er hat ungefähr die gleichen Eigenschaften wie der ursprüngliche.