Wissensentdeckung in Datenbanken (kdd)

Definition - Was bedeutet Knowledge Discovery in Datenbanken (KDD)?

Die Wissensermittlung in Datenbanken (KDD) ist der Prozess der Ermittlung nützlichen Wissens aus einer Datensammlung. Diese weit verbreitete Data-Mining-Technik umfasst die Datenaufbereitung und -auswahl, die Datenbereinigung, die Einbeziehung von Vorkenntnissen zu Datensätzen und die Interpretation genauer Lösungen aus den beobachteten Ergebnissen.

Wichtige KDD-Anwendungsbereiche sind Marketing, Betrugserkennung, Telekommunikation und Fertigung.

Technische.me erklärt Knowledge Discovery in Datenbanken (KDD)

Traditionell wurden Data Mining und Knowledge Discovery manuell durchgeführt. Mit der Zeit wuchs die Datenmenge in vielen Systemen auf mehr als Terabyte und konnte nicht mehr manuell verwaltet werden. Darüber hinaus wird es für die erfolgreiche Existenz eines Unternehmens als wesentlich angesehen, zugrunde liegende Muster in Daten zu ermitteln. Infolgedessen wurden mehrere Softwaretools entwickelt, um verborgene Daten zu entdecken und Annahmen zu treffen, die Teil der künstlichen Intelligenz waren.

Der KDD-Prozess hat in den letzten 10 Jahren seinen Höhepunkt erreicht. Es enthält jetzt viele verschiedene Entdeckungsansätze, darunter induktives Lernen, Bayes'sche Statistik, Optimierung semantischer Abfragen, Wissenserwerb für Expertensysteme und Informationstheorie. Das ultimative Ziel ist es, Wissen auf hoher Ebene aus Daten auf niedriger Ebene zu extrahieren.

KDD umfasst multidisziplinäre Aktivitäten. Dies umfasst das Speichern und Zugreifen von Daten, das Skalieren von Algorithmen auf große Datenmengen und das Interpretieren von Ergebnissen. Der im Data Warehousing enthaltene Datenbereinigungs- und Datenzugriffsprozess erleichtert den KDD-Prozess. Künstliche Intelligenz unterstützt KDD auch, indem sie empirische Gesetze aus Experimenten und Beobachtungen entdeckt. Die in den Daten erkannten Muster müssen für neue Daten gültig sein und ein gewisses Maß an Sicherheit besitzen. Diese Muster gelten als neues Wissen. Schritte, die am gesamten KDD-Prozess beteiligt sind, sind:

  1. Identifizieren Sie das Ziel des KDD-Prozesses aus Kundensicht.
  2. Verstehen Sie die beteiligten Anwendungsbereiche und die erforderlichen Kenntnisse
  3. Wählen Sie einen Zieldatensatz oder eine Teilmenge von Datenproben aus, für die eine Ermittlung durchgeführt werden soll.
  4. Bereinigen und verarbeiten Sie Daten vorab, indem Sie Strategien für den Umgang mit fehlenden Feldern festlegen und die Daten gemäß den Anforderungen ändern.
  5. Vereinfachen Sie die Datensätze, indem Sie unerwünschte Variablen entfernen. Analysieren Sie anschließend nützliche Funktionen, mit denen die Daten je nach Ziel oder Aufgabe dargestellt werden können.
  6. Ordnen Sie KDD-Ziele den Data Mining-Methoden zu, um versteckte Muster vorzuschlagen.
  7. Wählen Sie Data Mining-Algorithmen, um versteckte Muster zu entdecken. Dieser Prozess beinhaltet die Entscheidung, welche Modelle und Parameter für den gesamten KDD-Prozess geeignet sein könnten.
  8. Suchen Sie nach interessierenden Mustern in einer bestimmten Darstellungsform, einschließlich Klassifizierungsregeln oder -bäumen, Regression und Clustering.
  9. Interpretieren Sie das wesentliche Wissen aus den abgebauten Mustern.
  10. Nutzen Sie das Wissen und integrieren Sie es in ein anderes System, um weitere Maßnahmen zu ergreifen.
  11. Dokumentieren Sie es und erstellen Sie Berichte für Interessenten.