Wie bereits angesprochen, kommt der Datengrundlage für das
Trainieren der KI-Algorithmen eine besondere Bedeutung zu. Hier ist es
unverzichtbar, dass Unternehmen auf Big Data – das heißt auf
einen großen, qualifizierten Datenschatz – zugreifen können. Big Data
kann durch folgende Merkmale gekennzeichnet werden (vgl. Abb. 1;
Fasel/Meier, 2016, S. 6; Kreutzer/Land, 2016, S. 125f.):
-
Volume (i.S. von Datenvolumen bzw. Datenmenge)
Mit „Volume“ wird der Umfang der verfügbaren Datenmenge beschrieben.
Auf diesen Umfang wirken sich die Breite sowie die Tiefe der
verfügbaren Daten aus. Durch den zunehmenden Einsatz von Sensoren und
durch die Vernetzung von immer mehr Objekten werden immer
umfangreichere Datenströme erzeugt.
-
Velocity (i.S. der Geschwindigkeit der Datengenerierung)
„Velocity“ beschreibt die Geschwindigkeit, mit der Datensätze
entweder neu erstellt oder bestehende aktualisiert, analysiert
und/oder gelöscht werden. Heute können – bspw. durch den zunehmenden
Einsatz von Sensoren – viele Veränderungen in Echtzeit erfasst,
dokumentiert und ggf. auch ausgewertet werden.
-
Variety (i.S. der Vielzahl der Datenquellen und Datenformate)
Unter „Variety“ ist zum einen die Vielzahl der internen und externen
Datenquellen zu verstehen, die bspw. im Zuge von KI-Anwendungen – oft
zeitgleich – verarbeitet werden müssen. Zum anderen bezeichnet
„Variety“ auch die Vielzahl der unterschiedlichen Datenformate (etwa
strukturierte, teil- und nicht-strukturierte Daten sowie Fotos und
Videos), die es auszuwerten gilt.
-
Veracity (i.S. der Qualität der Daten und Datenquellen)
Mit „Veracity“ ist die Qualität der verfügbaren Daten und
Datenquellen angesprochen. Im Vergleich zum nachgelagerten Kriterium
„Value“ geht es bei „Veracity“ nicht um die Bedeutsamkeit der Daten
i.S. der Semantik, sondern allein um den formalen Informationsgehalt.
Die Qualität der Daten hebt bei „Veracity“ auf die folgenden
Dimensionen ab:
-
Korrektheit (i.S. der Freiheit von Fehlern)
-
Vollständigkeit (i.S. der Abdeckung aller relevanten Felder)
-
Konsistenz (i.S. der Freiheit von Widersprüchen)
-
Aktualität (i.S. der Gültigkeit der Daten)
Damit verbunden ist auch die Frage der Vertrauenswürdigkeit der
Daten, i.S. der Freiheit von systematischen Verzerrungen. Hier ist vor
allem darauf zu achten, die Aussagen von Pro-Domo-Quellen
kritisch zu bewerten. „Pro-Domo“ bedeutet wörtlich „für das Haus“ und
im übertragenen Sinne „in eigener Sache“ oder „zum eigenen Nutzen“.
Wenn bspw. der Verband der Automobilindustrie Statements oder
Analyseergebnisse präsentiert bzw. interpretiert, kann davon
ausgegangen werden, dass diese eher „für“ die Aktivitäten der
vertretenen Unternehmen stehen – und damit eine (partielle)
„Verzerrung“ enthalten sein kann.
-
Value (i.S. des Wertes der Daten)
Mit „Value“ ist der Wert und damit die Relevanz der Daten im Hinblick
auf eine spezifische Anwendung gemeint.
Abbildung:
Die fünf Vs von Big Data
Abb. 1: Die fünf Vs von Big Data,
Die Bewältigung der fünf Vs von Big Data stellt die ultimative
Herausforderung für die Künstliche Intelligenz dar. Mit der Qualität
des Data-Handling steht und fällt die Qualität aller darauf
basierenden Anwendungen. Denn auch wenn es bereits vielfach
ausgesprochen wurde, ist es doch nicht falsch:
Who owns the data, owns the business, owns the industry!Quelle:
Kreutzer/Sirrenberg, 2019, S. 79
Prof.
Dr. Ralf T. Kreutzer ist Autor mehrere Studienbriefe der DAM
Literaturverzeichnis
Fasel, D./Meier, A. (2016): Big Data – Grundlagen, Systeme und
Nutzungspotenziale, Wiesbaden
Kreutzer, R./Land, K.-H. (2016): Digitaler Darwinismus – Der stille
Angriff auf Ihr Geschäftsmodell und Ihre Marke, 2. Aufl., Wiesbaden
Kreutzer, R./Sirrenberg, M. (2019): Künstliche Intelligenz,
Grundlagen – Use-Cases – KI-Journey, Wiesbaden