Logo ManagementJournal
24. Oktober 2019

Grundlagen und Treiber der Künstlichen Intelligenz (4/4)

Wie bereits angesprochen, kommt der Datengrundlage für das Trainieren der KI-Algorithmen eine besondere Bedeutung zu. Hier ist es unverzichtbar, dass Unternehmen auf Big Data – das heißt auf einen großen, qualifizierten Datenschatz – zugreifen können. Big Data kann durch folgende Merkmale gekennzeichnet werden (vgl. Abb. 1; Fasel/Meier, 2016, S. 6; Kreutzer/Land, 2016, S. 125f.):

  • Volume (i.S. von Datenvolumen bzw. Datenmenge)

Mit „Volume“ wird der Umfang der verfügbaren Datenmenge beschrieben. Auf diesen Umfang wirken sich die Breite sowie die Tiefe der verfügbaren Daten aus. Durch den zunehmenden Einsatz von Sensoren und durch die Vernetzung von immer mehr Objekten werden immer umfangreichere Datenströme erzeugt.

  • Velocity (i.S. der Geschwindigkeit der Datengenerierung)

„Velocity“ beschreibt die Geschwindigkeit, mit der Datensätze entweder neu erstellt oder bestehende aktualisiert, analysiert und/oder gelöscht werden. Heute können – bspw. durch den zunehmenden Einsatz von Sensoren – viele Veränderungen in Echtzeit erfasst, dokumentiert und ggf. auch ausgewertet werden.

  • Variety (i.S. der Vielzahl der Datenquellen und Datenformate)

Unter „Variety“ ist zum einen die Vielzahl der internen und externen Datenquellen zu verstehen, die bspw. im Zuge von KI-Anwendungen – oft zeitgleich – verarbeitet werden müssen. Zum anderen bezeichnet „Variety“ auch die Vielzahl der unterschiedlichen Datenformate (etwa strukturierte, teil- und nicht-strukturierte Daten sowie Fotos und Videos), die es auszuwerten gilt.

  • Veracity (i.S. der Qualität der Daten und Datenquellen)

Mit „Veracity“ ist die Qualität der verfügbaren Daten und Datenquellen angesprochen. Im Vergleich zum nachgelagerten Kriterium „Value“ geht es bei „Veracity“ nicht um die Bedeutsamkeit der Daten i.S. der Semantik, sondern allein um den formalen Informationsgehalt. Die Qualität der Daten hebt bei „Veracity“ auf die folgenden Dimensionen ab:

  • Korrektheit (i.S. der Freiheit von Fehlern)
  • Vollständigkeit (i.S. der Abdeckung aller relevanten Felder)
  • Konsistenz (i.S. der Freiheit von Widersprüchen)
  • Aktualität (i.S. der Gültigkeit der Daten)

Damit verbunden ist auch die Frage der Vertrauenswürdigkeit der Daten, i.S. der Freiheit von systematischen Verzerrungen. Hier ist vor allem darauf zu achten, die Aussagen von Pro-Domo-Quellen kritisch zu bewerten. „Pro-Domo“ bedeutet wörtlich „für das Haus“ und im übertragenen Sinne „in eigener Sache“ oder „zum eigenen Nutzen“. Wenn bspw. der Verband der Automobilindustrie Statements oder Analyseergebnisse präsentiert bzw. interpretiert, kann davon ausgegangen werden, dass diese eher „für“ die Aktivitäten der vertretenen Unternehmen stehen – und damit eine (partielle) „Verzerrung“ enthalten sein kann.

  • Value (i.S. des Wertes der Daten)

Mit „Value“ ist der Wert und damit die Relevanz der Daten im Hinblick auf eine spezifische Anwendung gemeint.

Abbildung: Die fünf Vs von Big Data

Abb. 1: Die fünf Vs von Big Data,

Die Bewältigung der fünf Vs von Big Data stellt die ultimative Herausforderung für die Künstliche Intelligenz dar. Mit der Qualität des Data-Handling steht und fällt die Qualität aller darauf basierenden Anwendungen. Denn auch wenn es bereits vielfach ausgesprochen wurde, ist es doch nicht falsch:  

  • Daten sind das neue Öl!

Who owns the data, owns the business, owns the industry!Quelle: Kreutzer/Sirrenberg, 2019, S. 79

Prof. Dr. Ralf T. Kreutzer ist Autor mehrere Studienbriefe der DAM

Literaturverzeichnis

Fasel, D./Meier, A. (2016): Big Data – Grundlagen, Systeme und Nutzungspotenziale, Wiesbaden

Kreutzer, R./Land, K.-H. (2016): Digitaler Darwinismus – Der stille Angriff auf Ihr Geschäftsmodell und Ihre Marke, 2. Aufl., Wiesbaden

Kreutzer, R./Sirrenberg, M. (2019): Künstliche Intelligenz, Grundlagen – Use-Cases – KI-Journey, Wiesbaden

 

Consent Management Platform von Real Cookie Banner