reading

Für den Inhalt abgedruckter oder verlinkter Websites ist ausschließlich der jeweilige Betreiber verantwortlich. Die W. Kohlhammer GmbH hat keinen Einfluss auf die verknüpften Seiten und übernimmt hierfür keinerlei Haftung.

Vorwort

Momentan erleben wir eine Verschmelzung der physischen mit der virtuellen Welt. Technologien und Ansätze wie Internet of Things, Big Data oder Generative Fertigung verbinden beide Welten und tragen dazu bei, dass immer mehr Daten verfügbar sind und zur zentralen Ressource mutieren. Der Schlüssel zum Erfolg liegt in der strategiegeleiteten Anwendung und Verwertung neuer Technologien wie Business Analytics, Cyber Physische Systeme, Smart Products, Smart Factories und Verwendung neuer Werkstoffe. Die Märkte entwickeln sich rasant in Richtung personalisierte Produkte und situative Dienstleistungen. Individualität der Produkte, kurze geforderte Lieferzeiten, hoher Servicegrad und weltweite Anbietertransparenz charakterisieren zukünftige Märkte. Durchgängige Datennutzung sowie autonom interagierende hochautomatisierte Wertschöpfungsprozesse – jeweils basierend auf den neuen Technologien – sollen wirtschaftlich personalisierte Produkte und Dienste in kürzester Lieferzeit ermöglichen. Erfolgreiche Wertschöpfungsnetzwerke der Zukunft müssen hochdynamisch sein. Je nach Anforderungen sind ohne Rekonfigurationsaufwand einzelne autonom handelnde Einheiten im Wertschöpfungsnetzwerk zu aktivieren bzw. zu deaktivieren.

Das vorliegende Buch adressiert obige Themen aus Sicht der wirtschaftlichen Nutzung, der erfolgreichen Unternehmensführung und der notwendigen Geschäftsmodellinnovationen. Die angesprochenen Leser sind sowohl Praktiker, insbesondere Verantwortungsträger zur Absicherung des langfristigen Unternehmenserfolges, als auch Studierende, die durch die digitale Transformation der Wertschöpfung Mehrwert für Kunden und Unternehmen schaffen wollen.

Viele Kolleginnen und Kollegen haben einen wertvollen Beitrag zum Entstehen des Buches geleistet. Für die anregenden Diskussionen, geübten konstruktiven Kritiken und den geführten Diskurs möchte ich mich in alphabetischer Reihenfolge bei Klaus Altendorfer, Walter Andreaus, Manuel Brunner, Matthias Dehmer, Peter Hofer, Albert Mayr, Franz Obermair, Ulrich Seiler, Sonja Straßer und Josef Wolfartsberger bedanken. Für die Finalisierungsarbeiten möchte ich mich bei Irene Kronsteiner-Urban und Daniela Hüttner herzlich bedanken.

So bleibt mir nur noch übrig, Ihnen als Leser Neugierde, Entdeckungsdrang, intensiven Fachdiskurs und zukunftsweisende sowie umsetzungsorientierte Ideen zu wünschen.

Inhaltsverzeichnis

I Daten

1 Datenexplosion

Erst mit der Erfassung, Verarbeitung und Verwendung von Unmengen von Daten können das Internet der Dinge und Dienste, Cyber Physische Systeme (CPS) und Soziale Medien ihre Stärken entfalten.

Unter Internet der Dinge (Internet of Things, IoT) versteht man die Verbindung von IT-Systemen mit weltweiten Subsystemen, Prozessen, Objekten, Lieferanten sowie Kunden. All diese verbundenen Einheiten kommunizieren über das Internet miteinander und mit dem Menschen (Ashton (2009) oder Rheingold (2000)). Internet der Dinge und Dienste (Internet of Things and Services, IoTaS) erweitert den Begriff IoT um die angebotenen Dienstleistungen zur Unterstützung der Teilnehmer.

Nach Baheti und Gill (2011) oder Broy (2010) ist ein Cyber Physisches System(Cyber Physical System, CPS), ein Verbund informatischer, softwaretechnischer Komponenten mit mechanischen und elektronischen Teilen insbesondere Sensoren und Aktoren, die über eine Dateninfrastruktur wie das Internet, kommunizieren, Maßnahmen einleiten und sich und andere steuern können. Insbesondere werden im CPS eingebettete Systeme mit IP-Adressen ausgestattet und über das Internet in der Regel drahtlos miteinander verbunden. CPS gilt als technologischer Enabler von Industrie 4.0 (

Kap. 8). Das neue Internetprotokoll IPv6 stellt über 340 Sextillionen (2¹²⁸ ≈ 3,4 × 10³⁸) unterschiedliche Adressen für Computer, Smartphones, Maschinen, Transportbehälter und weitere intelligente Dinge zur Verfügung und schafft damit die kommunikationstechnischen Voraussetzungen für CPS.

Eingebettete Systeme (Embedded Systems) sind in Dingen eingebaute Minicomputer, die in der Lage sind, über Sensoren Daten wie z. B. die Temperatur zu erheben. Mit Hilfe von Programmen werden diese Daten verarbeitet, um daraus Maßnahmen einzuleiten. Eingebettete Systeme sind durch das Zusammenwirken zwischen Mechanik, Elektronik, Software und Hardware geprägt. Embedded Systems sind zentrale Bausteine von Cyber Physischen Sytemen sowie intelligent vernetzten Dingen (Smart Connected Things) (

Kap. 4). Eingebettete Systeme sind in den letzten Jahren billiger und in ihrer Bauteilgröße kleiner geworden. Oftmals gewinnen sie die für den Betrieb erforderliche Energie direkt aus der Umgebung, indem sie z. B. Licht oder Vibrationen in Energie umwandeln. Eine gute Einführung in eingebettete Systeme gibt Bens et al. (2010). Unter Ubiquitäres Computing oder Pervasive Computing versteht man etwas Ähnliches wie Embedded Systems allerdings mit dem Schwerpunkt auf Alltagsgegenstände, in die drahtlos vernetzte Minicomputer und Sensoren eingebaut sind, die autonome computerbasierte Dienste bereitstellen.

Machine-to-Machine Comunication (M2M) bezeichnet den Datenaustausch zwischen Endgeräten. Dieser Datenaustausch muss nicht wie bei Internet of Things über das Internet erfolgen. Eigentlich existiert M2M seit Bestehen der Automatisierungstechnik, auch wenn sich der Name erst später etabliert hat. Bis jetzt hat sich kein Standard für M2M durchgesetzt. Eine gute Einführung in das Thema M2M wird in Glanz und Büsgen (2013) gegeben.

Cyber Physical Systems (CPS) tragen insbesondere durch die rasant ansteigende Anzahl intelligenter vernetzter Dinge, aber auch die unterschiedlichsten digitalen Plattformen dazu bei, dass die weltweit verfügbaren Datenbestände weiterhin explosionsartig wachsen. Nach Velten und Janata (2012) sind Cloud Systeme, Software as a Service, Sensoren, Social Media, Mobile Devices und Location based Services die Haupttreiber für die Datenexplosion.

Eine Cloud ist eine virtualisierte IT-Ressource für Speicherung, Analyse und Verwaltung von Daten oder für die Bereitstellung von Diensten, Rechenleistung oder IT-Anwendungen. Die Cloud wird durch einen Serviceanbieter verwaltet und in der Regel werden die Cloud-Dienste über einen Internetzugang bereitgestellt. Cloud-Computing ermöglicht eine bedarfsgerechte Bereitstellung von Daten und Services über das Internet. Cloud-Lösungen gewähren häufig höhere IT-Sicherheit als firmengewachsene IT-Strukturen. Eine hohe Qualität der Cloud ist gegeben, wenn eine hohe stabile Verfügbarkeit, eine hohe IT-Sicherheit und entsprechende Schnittstellen gegeben sind. Cloud-Techniken befähigen zur orts- und zeitunabhängigen Informationsbereitstellung. Neue Methoden wie Big Data oder Advanced Analytics bedienen sich häufig vorteilhafter Cloud-Architekturen (Schmidt und Möhring (2013)).

Soziale Medien (Social Media) sind digitale Medien – meist Internetplattformen, die es Nutzern ermöglichen, sich untereinander auszutauschen, sich anderen mitzuteilen und Inhalte zu erstellen sowie diese zu teilen. Typische Vertreter sozialer Medien sind Facebook, Twitter, Instagram, Wikipedia, Youtube, Second Life, Snapchat aber auch berufliche Netzwerke wie LinkedIn oder XING.

Soziale Medien, Internetplattformen und Suchmaschinen führen über ihre User genaue Profile, die User teilweise sehr detailliert in Bezug auf Vorlieben, Kaufverhalten, Interessenbereiche, Einstellungen, Werte, Tagesablauf, Freunde, Termine, Aufenthaltsorte u. a. beschreiben. Dieses Wissen wird für ortsabhängige, situative und personalisierte Werbung sowie Erstellung von personalisierten Produkt- oder Serviceangeboten verwendet. Darüber hinaus werden Suchergebnisse, Postings oder Bewertungen zu politischen, religiösen oder gesellschaftlichen Themen so gefiltert, dass dem User das präsentiert wird, was seinem Profil, seiner Meinung und seiner Einstellung entspricht, genannt Filter Bubble (Pariser (2011)).

Die Beherrschung von Datenmanagement, Big Data sowie Advanced Analytics (

Kap. 2 und 3) sind Grundvoraussetzungen, um die verfügbaren rasant wachsenden Datenbestände auch sinnvoll nutzen zu können. Die Services und Anwendungen von Cyber Physischen Systemen oder des Internets der Dinge und Dienstleistungen profitieren wiederum genau von diesen rasant wachsenden Datenbeständen.

Es ist anzunehmen, dass wir gerade am Beginn einer sich noch verstärkenden Datenbestandswachstumsspirale, basierend auf dem Kreislauf

• Datengenerierung durch IoTaS sowie CPS inkl. Plattformen, Social Media, Apps, Smart Everything, Industrie 4.0, Smart Connected Things, Embedded Systems, Machine-to-Machine Communication (M2M),

• Transformation der Daten durch Big Data und Business Analytics,

• Nutzung der Daten für Services, Anwendungen und Entscheidungen in den Bereichen IoTaS sowie CPS inkl. Plattformen, Social Media, Apps, Smart Everything, Industrie 4.0, Smart Connected Things, Embedded Systems, M2M, …

stehen. Im vorliegenden Buch werden dieser Kreislauf und seine Elemente, bezogen auf die Wertschöpfung und hier insbesondere die Produktion von Wirtschaftsgütern, diskutiert.

Seit der Jahrtausendwende ist die explosionsartige Entwicklung des Datenbestandes festzustellen (Jodlbauer (2016a)). Im Jahr 1997 schätzte der angesehene Informatiker Mike Lesk (1997), dass die Menschheit etwa 12.000 Petabyte (1 Petabyte = 10¹⁵ Byte) an Daten geschaffen und in Bibliotheken, Museen, digitalen Speichermedien, Archiven bis hin zu privaten Datenablagen gespeichert hat. Im Jahr 2015 (in diesem Zeitraum hat sich das Smartphone weltweit verbreitet und viele Services im Bereich IoTaS sowie CPS am Markt etabliert) sind über 8.500 Exabyte (1 Exabyte = 10¹⁸ Byte) neue digitale Daten pro Jahr vor allem im Internet zu verzeichnen. In anderen Worten: Im Jahr 2015 wurden in nur zwölf Stunden gleich viele digitale Daten neu geschaffen wie die gesamte Menschheit von der Urzeit bis zum Jahr 1997 in Summe unter Berücksichtigung aller Medien (Buch, Bilder, digitale Datenträger etc.) an Daten generiert hat. Heute produzieren wir in nur zwei Stunden digitale Daten, deren Umfang höher ist als der Datenumfang aller jemals gedruckten Bücher. Wir leben heute in einer Welt, in der sich die verfügbaren Daten etwa alle zwei Jahre verdoppeln. Der Vergleich des Datenwachstums mit dem Bevölkerungswachstum sowie der Entwicklung des Buchbestandes untermauert die rasante Entwicklung der Datenbestände.

Abb. 1.2: Entwicklung der Weltbevölkerung, des Buchbestandes und der digitalen Datenmenge

Die Weltbevölkerung ist in gut 100 Jahren von unter zwei Milliarden auf knapp 8 Milliarden angewachsen – dies entspricht einem durchschnittlichen jährlichen Zuwachs von knapp 1,5%. Die Anzahl der weltweiten Bücher hat sich von geschätzten 20 Millionen auf fast eine halbe Milliarde in einem Jahrhundert entwickelt – damit durchschnittlich etwa 10% jährlicher Zuwachs. Die neu generierten digitalen Daten sind dahingegen explodiert: Von 130 Exabyte im Jahr 2005 auf 8.500 Exabyte, also 8,5 Zetabyte (1 Zetabyte = 10²¹ Byte), im Jahr 2015, das entspricht einer jährlichen durchschnittlichen Zuwachsrate von 50%. Laut Jodlbauer (2016a) schätzen Experten, dass bereits ab 2020 das Datenvolumen 100 Zetabyte überschreiten wird. Bemerkenswert ist übrigens die Nutzung der Daten. Experten schätzen, dass maximal 3% der weltweit vorhandenen Daten konkret analysiert, genutzt oder verwertet werden. Es existiert damit ein enormes ungenutztes Potenzial in den Daten.

Die Welt der Daten ist durch vier Megatrends (Wrobel et al. (2014)) charakterisiert:

• Digitale Konvergenz

• Ubiquitäre intelligente Systeme

• Nutzererzeugte Inhalte

• Verknüpfte Daten

Digitale Konvergenz beschreibt das Zusammenwachsen unterschiedlichster Bereiche, Ebenen und Systeme. Das gleichzeitige Handhaben von Text, Bild, Musik und Video im Medienbereich ist ebenfalls ein Aspekt der digitalen Konvergenz wie die allgegenwärtige Nutzung des gleichen Computers oder des gleichen Smartphones im Beruf, in der Freizeit, beim Einkaufen, beim Spielen usw. Manche Autoren sprechen auch von Entgrenzung (Jodlbauer (2016a)).

Gleichzeitig kann in Ergänzung zu Wrobel et al. (2014) eine Digitale Divergenz festgestellt werden. Filter Bubble bezeichnet eine Technologie mit der einem Internetnutzer vorzugsweise jene Inhalte gezeigt werden, die er bzw. sie gerne sehen möchte. Studien belegen das mit modernen Psychometrieverfahren kombiniert mit Big Data und Advanced Analytics wenige Postings, Suchabfragen und Likes genügen, um mit hoher Wahrscheinlichkeit Hautfarbe, sexuelle Orientierung, politische Einstellung, Religionszugehörigkeit, Intelligenz, Alkoholkonsumverhalten, Familienstand u. v. a. korrekt bestimmen zu können (Bachrach et al. (2012)). Bei einer solchen personalisierten Suche werden persönliche Einstellungen, Werte, Überzeugungen usw. gestärkt und Argumente gegen die eigene Meinung und Sichtweise unterdrückt. Gesellschaftlich kann dies zur Polarisierung und Entzweiung führen.

Ubiquitäre intelligente Systeme, Smart Connected Things und Cyber Physical Systems sind intelligent vernetzte Dinge, die mit vielfältiger Sensorik und Aktorik ausgestattet sind und Teil unseres täglichen Lebens geworden sind. Die Sensorik ermöglicht den intelligenten Dingen die Wahrnehmung der Umwelt und die Aktorik das aktive Beeinflussen der Umwelt. Verkehrstechnikanlagen, Autos, Smartphones, bereits viele Haustechnikgeräte oder Haushaltsgeräte und natürlich Maschinen, Werkzeuge und Anlagen der Industrie sind Beispiele dieser intelligenten vernetzten Dinge.

In der Frühphase des Internets stellten wenige Anbieter Inhalte für viele User ins Internet. Heute erstellt de facto jeder User Inhalte für viele User. Dies bewirkt neben der Explosion der Daten auch nutzererzeugte Daten. Diese nutzererzeugten Daten beschreiben teilweise sehr detaillierte Aspekte des Lebens (privat als auch beruflich), das Freizeitverhalten, das Konsumverhalten, die Erfahrung mit einem Produkt, die Zufriedenheit mit einer Dienstleistung, den Aufenthaltsort oder andere häufig für Dritte relevante und verwertbare Gegebenheiten.

Erst verknüpfte Daten führen in vielen Anwendungen zum erhofften Mehrwert. Felddaten aus dem Produkteinsatz richtig kombiniert mit Wetter-, Standort- oder Daten aus Sozialen Medien können zu einem besseren Verständnis der Vergangenheit, zu treffsichereren Prognosen und zu besseren Entscheidungen führen, als wenn isoliert nur die Felddaten herangezogen werden. Dabei ist die sinnvolle Verknüpfung und damit der semantische Zusammenhang unterschiedlicher Daten zentraler Punkt (Bizer et al. (2009)).

Die vier Megatrends der Daten nach Wrobel et al. (2014) ermöglichen die digitale Transformation oder Digitalisierung der Wertschöpfung. Im Gegensatz zum Deutschen unterscheidet das Englische die zwei Bedeutungen von Digitalisierung:

• digitization

• digitalization

Digitization meint die Konvertierung eines anlogen Signals (mit kontinuierlichen Werten) in ein digitales Signal (mit diskreten Werten). Digitization entstammt technischen Disziplinen wie der Signalverarbeitung oder Elektrotechnik. Der Begriff Digitalization ist den Sozialwissenschaften zuzuordnen und bezieht sich auf die Auswirkungen der IT und Software insbesondere der digitalen Kommunikation und digitaler Medien auf Gesellschaft, Wirtschaft, Politik und weitere Lebensbereiche. Digitalization umfasst insbesondere die sich aus den digitalen Kommunikationsmitteln neu ergebenden Gestaltungsmöglichkeiten des Lebens. In diesem Buch wird der deutsche Begriff Digitalisierung im Sinne von Digitalization verwendet.

2 Big Data

Bereits 1998 ist der Begriff Big Data in der Literatur zu finden (Weiss und Indurkhya (1998)). Big Data ist ein Ansatz, mit dessen Hilfe Daten mit

• hohem Volumen (Volume),

• hoher Geschwindigkeit (Velocity),

• hoher Mannigfaltigkeit (Variety) und

• hoher Unsicherheit (Veracity)

gesammelt, gespeichert, verarbeitet, kommuniziert, ausgewertet, bereitgestellt und zielgerichtet genutzt werden können (Beyer und Laney (2012)). Im Englischen spricht man von den 4 V‘s (Volume, Velocity, Variety, Veracity). Einige Autoren ergänzen diese durch weitere Merkmale (Fan und Bifet (2012) oder Manyika et al. (2011)):

• Visualisierung (Visualisation)

• Bedeutungswandel (Variability)

• Wert (Value)

Ursprünglich hat man nur von den 3 V’s (Volume, Velocity und Variety) gesprochen (Douglas (2001) oder Russom (2011)). Ein weiterer Ansatz Big Data zu definieren ist das sogenannte HACE Theorem (Wu et al. (2014)). Nach dem HACE-Theorem liegt Big Data vor, wenn es sich um

• Huge heterogeneous data (große Datenmengen in unterschiedlichen Strukturen, siehe Volume und Variety)

• Autonomous sources (verteilte Datenquellen, siehe Variety)

• Complex (Beschreibung komplexer Sachverhalte, siehe Veracity)

• Evolving (sich ändernde Aspekte, siehe Variability)

Die zentralen Ziele von Big Data sind, die Realität auf Basis umfangreicher Daten besser zu verstehen, datengestützte Aussagen zu formulieren und damit fundierte Entscheidungen zu treffen. Wesentliche Themen von Big Data sind die Beschaffung, Bereitstellung, Bereinigung, Vervollständigung, Zusammenführung, Analyse, Interpretation, Visualisierung und Nutzung von umfangreichen Daten aus unterschiedlichen Quellen.

Die unterschiedlichen Versuche, den Begriff Big Data zu definieren, können in folgender Struktur zusammengefasst werden:

• Technische Dimensionen

– Volume

– Velocity

– Variety

• Qualitative Dimensionen

– Veracity

– Variability

• Zieldimension

– Visualisation

– Value

Die technischen Dimensionen beschreiben den Umfang, die Bereitstellungs- und Verarbeitungsgeschwindigkeit und die Mannigfaltigkeit der Daten. Technische Entwicklungen bei Hardwarekomponenten (Speicherplatz, Rechenleistung, Übertragungsgeschwindigkeit, u. a.) und verbesserte Methoden im Bereich Advanced Analytics ermöglichen es, den höheren Anforderungen in den technischen Dimensionen gerecht zu werden.

Die qualitativen Dimensionen adressieren die Richtigkeit, Vertrauenswürdigkeit sowie die Gültigkeit der Daten. Nur durch Beziehungswissen (Semantik) sowie Wissen über das Anwendungsfeld (auch kontextbezogenes Wissen oder Domainwissen genannt) können die Anforderungen im Bereich Veracity sowie Variability erfüllt werden. In Kapitel 2.3.1 zur Visualisation wird gezeigt, dass die Transformation von Daten zu Informationen nur gelingen kann, wenn die qualitative Dimension von Big Data beherrscht wird.

Die Zieldimension umfasst die Themen Darstellung der Ergebnisse und Schaffung von Werten durch zielgerichtete Datennutzung. Beide Zieldimensionen unterstützen die Transformation der Informationen zu sinnvollem Wissen, das zu konkreten Entscheidungen oder Handlungen führt.

Einige Autoren (Dinter et al. (2015)) sehen Analytics als zusätzliche Dimension von Big Data. In diesem Buch wird Analytics als zentraler Teil von Business Analytics gesehen und im Kapitel 3.1 eingehend behandelt.

Nach Wrobel et al. (2014) bezeichnet Big Data den Trend zur Verfügbarkeit immer detaillierterer, komplexerer und zeitnäherer Daten, den Wechsel von einer modellgetriebenen zu einer daten- und modellgetriebenen Herangehensweise und die wirtschaftlichen, gesellschaftlichen und persönlichen Potenziale, die sich aus der Nutzung großer Datenbestände ergeben.

Es gibt zahlreiche Werkzeuge wie Hadoop, Rapid Miner, R oder Python, die das Bearbeiten von Daten im Sinne von Big Data in den sieben Dimensionen und Advandced Analytics unterstützen. Der Trend geht hier ganz klar Richtung Open source und Open data.

Einige Autoren sehen Big Data und den Versuch, immer komplexere Sachverhalte datenmäßig zu beschreiben bzw. zu verarbeiten durchaus kritisch und warnen vor blinder Datengläubigkeit (so etwa Davenport et al. (2012), Davenport (2014) oder Helfrich (2009)). Die Gefahren blinder Datengläubigkeit können durch richtige Anwendung der Business Analytics und durch zielorientiertes Vorgehen (Ross et al. (2013)) beseitigt werden.

Die Integration von Big Data-Ansätzen und die Verwendung von Advanced Analytics in Unternehmen wird durch

• fehlendes Wissen bzw. fehlende Experten in den Bereichen Big Data und Advanced Analytics,

• fehlende Verankerung in der Strategie,

• hohe Kosten,

• unklare Nutzendarstellung,

• Safety-Security Bedenken, Angst vor Cyber Crime,

• rechtliche Unsicherheiten, Datenschutz, Verwertungsrechte,

• Angst vor Know-how-Abfluss

gehemmt. Obige Hemmnisse können vor allem durch Personalentwicklung, Schaffung einer digitalisierungsfreundlichen Umgebung sowie Ressourcen und geeignete Partnerschaften überwunden werden. Das vorliegende Buch versucht, zur Beseitigung dieser Hemmnisse, einen Beitrag zu leisten und dabei insbesondere den Nutzen der Anwendung von Big Data darzustellen.

2.1 Technische Dimensionen von Big Data

2.1.1 Volume

Volume beschreibt die Menge an Daten, die gesammelt, verarbeitet und genutzt wird. Die Datenmenge wird in Byte gemessen. Es existieren unzählige Beispiele zur täglichen Verarbeitung gewaltiger Datenmengen. Facebook berichtet, dass pro Tag über 600 Terabyte (1 Terabyte = 10¹² Byte) an Daten hochgeladen werden. Google verzeichnet über eine Milliarde Suchanfragen pro Tag. Jeden Tag werden über 150.000 Stunden Videos auf Youtube geladen und über vier Milliarden Videos pro Tag angesehen. Unvorstellbare 300 Milliarden E-Mails, viele davon Spams, werden pro Tag verschickt. Walmart verarbeitet über eine Million Kundentransaktionen pro Stunde und die Datenbestände von Walmart werden auf über 10 Petabyte (1 Petabyte = 10¹⁵ Byte) geschätzt. Laut Brynjolfsson und McAfee (2012) verdoppeln sich die weltweiten Businessdatenbestände alle 1,2 Jahre und jede Sekunde werden heute im Internet mehr Daten neu generiert als vor 20 Jahren in der Summe verfügbar waren. Im Alltagsleben werden wir Menschen zu herumspazierenden Datengeneratoren. Viele Gebrauchsgegenstände wie Mobiltelefone, Kartenlesegeräte, Bankomaten, Tablets, Navigationsgeräte, Wearables u. a. sammeln, speichern und geben kontinuierlich Daten, teilweise auch sehr persönliche, weiter. Im Geschäftsleben werden Maschinen, Werkzeuge, Werkstückträger, Transportbehälter, Lieferwägen usw. mit Sensoren und Datenübertragungseinrichtungen ausgestattet und senden sowie empfangen ständig Daten. Auf Plattformen, in Social Media-Umgebungen und den unterschiedlichsten IT-Systemen (Enterprise Ressource Planning: ERP, Supply Chain Management: SCM, Customer Relations Management: CRM, Manufacturing Execution System: MES, Supplier Relation Management: SRM) werden Daten erstellt, übertragen, gespeichert, verarbeitet und ausgewertet. Dies zusammen führt zu einem immer rasanter anwachsenden Datenbestand.

Die Verdoppelung der Datenbestände geht einher mit dem Mooreschen Gesetz, das besagt, dass sich alle ein bis zwei Jahre die Leistungsfähigkeit der Computer verdoppelt. Gleichzeitig verfallen die Preise für Computer, Sensoren sowie Datenübertragungseinrichtungen (Jodlbauer (2016a)). Zudem werden die Größe von Prozessoren, Datenspeichergeräten, Sensoren oder Übertragungseinheiten ständig kleiner. Zusammengefasst werden IT-Komponenten billiger, kleiner und leistungsfähiger – was in Summe zu einer höheren Verbreitung der IT und damit zu mehr Datenbeständen führt.

Hilbert und Lopez (2011) zeigen auf, dass beginnend im Jahr 1990 die analoge Datenspeicherung im Vergleich zur digitalen an Bedeutung verloren hat. Heute dürften bereits über 99% aller gespeicherten Daten in digitaler Form vorliegen. Eine breite Akzeptanz und damit vermehrte Nutzung der Cloud-Technologie wird diesen Trend noch verstärken. Durch diese genannten Entwicklungen kann das Datenbestandswachstum von ca. 40% pro Jahr durch eine relativ geringe Erhöhung der jährlichen IT-Budgets von etwa 5% bewerkstelligt werden. Bei Brynjolfsson und McAfee (2014) werden die exponentiell wachsenden Möglichkeiten zur Verarbeitung und Speicherung von Daten insbesondere der neu entstehenden Möglichkeiten durch die vernetzten intelligenten Dinge aufgezeigt.

Typische Produktionsunternehmen verwalten Tera- (1 Terabyte = 10¹² Byte) bis hin zu Petabyte (1 Petabyte = 10¹⁵ Byte) an unternehmensrelevanten Daten. Wegen der Zunahme an intelligent verbundenen Dingen, insbesondere deren Sensoren, vermehrter Verwendung von Sozialen Medien sowie digitalen Services und der Digitalisierung von Aufgaben und Prozessen ist in wenigen Jahren ein Datenvolumen für ein mittelgroßes Unternehmen zu erwarten, das sich in Richtung Exabyte (1 Exabyte = 10¹⁸ Byte) bewegt.

Bereits heute beherrschen erfolgreiche Spieleanbieter im Internet Unmengen an Daten. Blizzard Entertainment betreibt eines der erfolgreichsten Onlinespiele World of Warcraft mit über 5 Millionen Usern. Pro Tag verarbeitet Blizzard Entertainment dabei mehrere Petabytes an Daten.

2.1.2 Velocity

Velocity bezeichnet die Geschwindigkeit der Daten genauer die Übergangszeit von der Entstehung der Daten bis zur Nutzung der Daten. Im Allgemeinen setzt sich diese Übergangszeit aus

• technischen,

• menschlichen und

• organisatorischen

Blöcken zusammen. Typische technische Blöcke der Übergangszeit werden durch die Übertragungsgeschwindigkeit, Prozessorleistung oder die Abtastrate der Sensoren (Erzeugnisrate) determiniert. Menschliche Anteile sind die erforderlichen Zeiten für nicht automatisierte maschinell durchgeführte Aufgaben entlang des Prozesses Datensammlung bis Datennutzung wie z. B. manuelles Erfassen von Daten oder die menschliche Verarbeitung von Daten. Organisatorische Anteile der Übergangszeit betreffen die Leerzeiten. Während dieser Leerzeiten werden die Daten nicht erfasst, nicht weitergeleitet und nicht verarbeitet bzw. analysiert – lediglich eine Aufbewahrung oder Speicherung (= Liegen) der Daten erfolgt.

• Batch-Verarbeitung (nur zu bestimmten Zeiten findet die Verarbeitung statt, die Übergangszeit beinhaltet hohe Leerzeiten) und

• Stream-Verarbeitung (eine kontinuierliche Verarbeitung sowie Übertragung der Daten findet statt, es gibt keine Leerzeiten, es kann aber eine Zeitverzögerung geben)

unterschieden werden. Der Begriff Real time (Echtzeit) wird im Zusammenhang mit der Datenübertragungsgeschwindigkeit häufig verwendet. Real time beinhaltet keine absolute Aussage über die Geschwindigkeit oder Übergangszeit. Vielmehr bedeutet Real time, dass die Übergangszeit nicht länger ist, als die Anwendung dies verlangt. Zu stellende Anforderungen an real time hängen damit insbesondere vom jeweiligen Kontext ab. Für die Steuerung eines fahrerlosen Autos bedeutet Real time, dass innerhalb eines Augenblickes die Übertragung und Verarbeitung der Sensorsignale erfolgen muss, wohingegen für das Monatsreporting eine monatliche Batch-Verarbeitung ausreicht. Real time liefert ohne Kontext keine Aussage über die Dauer der Übergangszeit. Batch-Verarbeitung kann grundsätzlich real time sein und Stream-Verarbeitung muss nicht notwendigerweise real time sein. Near real time bezeichnet kontextabhängig den Sachverhalt, dass die Übergangszeit knapp länger ist als dies von der Anwendung her gefordert wird.

Real time in Verbindung mit Stream-Verarbeitung heißt, aktuelle sich ständig ändernde Daten zu verarbeiten. Die Steuerung eines autonom fahrenden Autos oder die Live-Übertragung eines Sportevents sind Beispiele für real time Daten mit Stream-Verarbeitung. Am anderen Ende der Geschwindigkeitsskala stehen die statischen Daten. Statische Daten sind Daten, die einmal aufwendig bestimmt, erfasst und verarbeitet wurden und langfristig verwendet werden. Typische Beispiele für statische Daten sind Stammdaten eines ERP-Systems oder auch die Liste der Mitgliedsländer der europäischen Union.

Die Lebensdauer von Daten sollte nicht mit der Geschwindigkeit bzw. mit dem Begriff statische Daten verwechselt werden. Nach Jodlbauer (2016a) kann bezüglich der Lebensdauer von Daten zwischen dem

• Verlust der Relevanz: Die Daten sind vorhanden und verarbeitbar, aber der Kontext zu den Daten hat sich so stark geändert, dass die Daten keine sinnvolle Aussage mehr erlauben.

• Verlust der Daten: Die Daten sind nicht mehr vorhanden oder können nicht mehr gelesen bzw. verarbeitet werden, z. B. durch Löschen von Daten oder neue nicht abwärtskompatible Technologien.

unterschieden werden. Der Verlust bzw. die Änderung der Relevanz von Daten wird in Kapitel 2.2.2 thematisiert.

Die Forderung nach hoher Geschwindigkeit meint Echtzeitfähigkeit. Das Sammeln, Verarbeiten, Auswerten und Bereitstellen für die Nutzung sollte so schnell vonstattengehen, dass die Anwendung optimal durch die Daten unterstützt wird. Durch leistungsfähigere Speichermedien, höhere Verarbeitungsgeschwindigkeit, leistungsfähigere Netzwerkstrukturen, das neue Internetprotokoll IPv6, Advanced Analytics Methoden zur Verarbeitung der Daten aber auch Ansätze wie Photonics werden die ersten beiden Dimensionen von Big Data hohes Volumen sowie hohe Geschwindigkeit technisch ermöglichen.

Für betriebswirtschaftliche Anwendungen kann man drei grundsätzliche Datenströme und damit verbundene Übergangszeiten unterscheiden:

• Horizontale Datenströme entlang der Wertschöpfungskette und im Allgemeinen unternehmens- bzw. organisationsübergreifend.

• Vertikale Datenströme innerhalb einer Organisationsstruktur von strategischen/langfristigen/führungsbezogenen/ERP-/… Bereichen bis hin zu operativ/kurzfristig/durchführungsbezogenen/SPS-/… Bereichen und umgekehrt.

• Datenströme entlang von Lebenszyklen z. B. Produktlebenszyklus oder Fabriklebenszyklus.

Ideal organisierte Datenströme zeichnen sich durch digitale Datendurchgängigkeit aus. Dabei bedeutet digitale Datendurchgängigkeit, dass die Übergangszeit nicht länger ist, als die Anwendung es fordert (real time) und entlang des gesamten Datenstroms wird die gleiche Sprache im Sinne der Syntax und Semantik verwendet sowie verstanden. Medienbrüche, insbesondere erforderliche menschliche Interaktionen, verlängern in der Regel die Übergangszeit und erhöhen die Gefahr der Datenmanipulation.

Ein gutes Beispiel für digitale Datendurchgängigkeit ist die Plattform form.bar. Sie stellt für Designermöbel eine Umgebung mit digitaler Datendurchgängigkeit dar. Der Endkunde kann mit einfach zu bedienenden CAD-Programmen ein individuelles Regal entwerfen und erhält auf Knopfdruck ein Angebot mit Preis und Liefertermin. Im Zuge der automatischen Angebotserstellung wird aus den verfügbaren Partnerbetrieben jener Tischler gesucht, der freie Kapazitäten hat und in der Nähe des Endkunden liegt. Nach Vertragsabschluss per Knopfdruck werden die erforderlichen Fertigungsunterlagen insbesondere die NC-Programme automatisch generiert und dem in der Angebotsphase bereits fixierten Tischlerbetrieb übermittelt. Ohne direkte menschliche Interaktion werden die Fertigungsprozesse beim ausgewählten Partnerbetrieb, der Transportprozess durch einen der Logistikpartner zum Kunden und die Abrechnung automatisch gesteuert.

2.1.3 Variety

• Struktur der Daten

– Strukturierte Daten (Tabellen, Datenbanken, …)

– Semistrukturierte Daten (Metasprachen wie XML, HTML, durch Trennungszeichen sind Datenelemente separiert, …)

– Unstrukturierte Daten (freie Texte in E-Mails oder Protokollen, Sprachmemos, Bilder, Videos, …)

• Typ

– Nominal (rein qualitativ, z. B. Geschlecht)

– Ordinal (qualitative mit natürlicher Reihenfolge, z. B. qualitative Relationen wie größer-kleiner oder sehr schlecht-schlecht-durchschnittlich-gut-sehr gut)

– Metrisch

– Intervallskaliert (Merkmalsausprägungen haben eine Reihenfolge und einen Abstand z. B. Datum oder Temperatur in Grad Celsius)

– Verhältnisskaliert (Merkmalsausprägungen haben eine Reihenfolge, einen Abstand, ein Verhältnis und einen natürlichen Nullpunkt, z. B. Umsatz, Lebensalter, Länge oder Temperatur in Grad Kelvin)

• Herkunft

– Eigendaten

– Fremddaten (zugekauft, crowd-generierte Daten, von offen zugänglichen Datenressourcen)

Strukturierte Daten sind einfach zu verarbeiten. Zur Verarbeitung unstrukturierter Daten sind Methoden des Data Mining und Algorithmen des maschinellen Lernens bzw. der künstlichen Intelligenz erforderlich (

Kap. 3).

Für metrische Daten machen die gängigen statistischen Methoden und Kennwerte der beschreibenden Statistik z. B. Mittelwert, Streuung, Häufigkeitsverteilung oder Medianwert Sinn. Für ordinale Daten ist eine Häufigkeitsverteilung oder der Medianwert sinnvoll – die Streuung oder der Mittelwert hat wegen der fehlenden Abstandsinformation keine Bedeutung. Für nominale Daten bleibt nur noch die Häufigkeitsverteilung und auf ihr aufbauende Methoden als adäquate statische Beschreibung übrig. Bei der Auswahl der Analysemethoden ist insbesondere auf den Datentyp nominal, ordinal oder metrisch Bedacht zu nehmen (

Kap. 3).

Aus immer mehr Quellen liegen Daten unterschiedlicher Art vor. Die unternehmensinternen Daten werden zunehmend durch externe Daten ergänzt, beispielsweise aus Social Media-Plattformen. Bei den externen Daten (Fremddaten) sind Herkunft oder Wahrheitsgehalt (

Kap. 2.2.1) nicht immer klar, was zu ungenauen Ergebnissen bei der Datenanalyse führen kann (Dinter et al. (2015)). Für Eigendaten besteht in der Regel eine größere Chance, den Kontext der Daten zu kennen und damit die Syntax (Regeln zum Zusammensetzen von Zeichen bzw. Grunddaten zu komplexeren Daten), Semantik (Bedeutung der Daten, Interpretationsregeln) und Ontologie (gemeinsame »Sprache« im Sinne der Darstellung von Begriffen und deren Beziehungen für eine bestimmte Domain) der Daten zu beherrschen. Daten, deren Kontext, Syntax, Semantik und Ontologie nicht ausreichend bekannt sind, können nicht zielgerichtet verwendet werden.

Die Dimension Variety von Big Data thematisiert die Fähigkeit, dass nicht nur gut strukturierte Daten einer Datenbank, sondern auch völlig unstrukturierte Daten wie eine Gesprächsnotiz, ein Internetblog, ein Eintrag in einer Social Media-Umgebung oder der Inhalt eines Telefonats maschinell verarbeitet, ausgewertet, bereitgestellt und genutzt werden können.

Unternehmen haben sich mit einer zunehmenden Vielfalt von Datenquellen und Datenformaten auseinanderzusetzen. In vielen Bereichen und Branchen dominieren unterschiedlichste Daten bereits die Arbeitswelt: Sensordaten während des Betriebes einer Anlage, Kommunikationsdaten zwischen Maschinen und Werkstückträgern in einem Produktionsbetrieb, Videodaten eines Medienunternehmens oder der Polizei, Bilder in der Gesundheitsindustrie oder Audiodaten in der Bildung.

Unternehmen können mit der Fähigkeit, unstrukturierte externe Daten zielorientiert verarbeiten zu können, Wettbewerbsvorteile erzielen. Ein bekanntes Beispiel dazu ist die Firma Beiersdorf, die durch die Auswertung von Social Media Fotos und Videos und den dazugehörigen Postings festgestellt hat, dass ein Deo, das zu keinem weißgrauen Rückstand in der Kleidung unter der Achsel führt hohe Marktchancen hat. Kurze Zeit nach diesem Erkenntnisgewinn brachte Beiersdorf höchst erfolgreich Nivea Invisible for Black and White auf den Markt.

Tata Motors (Agarwal und Weill (2012)) analysiert 4 Millionen Texte (E-Mails, Reklamationen, Terminabklärungen, Servicetermine, Angebote, …) pro Monat und kombiniert dies mit Kundenzufriedenheitsanalysen, um Verbesserungen im Wertschöpfungsprozess zu finden.

2.2 Qualitative Dimensionen von Big Data

2.2.1 Veracity

Die Veracity beschreibt den Wahrheitsgehalt und die »Richtigkeit« der Daten. Sowohl Authentizität im Sinne von Echtheit, Überprüfbarkeit und Vertrauenswürdigkeit, als auch Provenienz, also das Wissen über die Datenherkunft, sind wesentliche Aspekte der Veracity. Je umfangreicher die Daten sind und je komplexer die, durch die Daten zu beschreibenden, Tatbestände sind, desto schwierig ist es, eine hohe Veracity sicherzustellen.

Eine große Herausforderung bezüglich Big Data ist das richtige Interpretieren und Verwenden unsicherer Daten. Unsichere Daten sind qualitativ problematische Daten, weil sie

• unvollständig sind,

• inhaltlich (teilweise) falsch sind,

• zufällig sind,

• nicht aktuell sind,

• nicht widerspruchsfrei sind und

• fehlende, inkonsistente bzw. falsche Referenz, Formatierung, Syntax oder Semantik aufweisen.

Die Unvollständigkeit kann über eine umfassendere Datenerhebung oder unter bestimmten Voraussetzungen durch Methoden der Advanced Analytics wie Regression oder virtuelle Sensoren behoben werden.

Inhaltliche Fehler können sich auf Grund von (teilweise unbekannten) Schwächen in der Datenerhebung, -übertragung oder -verarbeitung ergeben oder sind das Ergebnis einer bewussten Verfälschung, um gewisse Interessen zu verfolgen (

Kap. 3.2). Statistische Methoden wie z. B. Ausreißererkennung können dabei helfen, inhaltliche Defizite in den Daten zu erkennen. Domainwissen und detaillierte Kenntnis über die Syntax und Semantik der Daten unterstützen die Erkennung von unvollständigen und inhaltlich falschen Daten.

Zufällige Daten können entweder wegen Schwankungen oder Ungenauigkeiten in der Messmethode (Datenerhebungsverfahren, Datenübertragungsmethode, …) oder wegen Schwankungen, Unwägbarkeiten bzw. sich ändernden Rahmenbedingungen in der Domain auftreten. Methoden der Statistik und der Advanced Analytics können in vielen Situationen gut mit zufälligen Daten umgehen (

Kap. 3). Wenn die Zufälligkeit (mit hohen Schwankungen) auf sich ändernde Rahmenbedingungen, die unbekannt sind bzw. nicht erfasst werden, zurückgeht, ist die Gefahr hoch, dass irreführende Aussagen aus den Daten destilliert werden. In diesem Fall ist eine Identifikation und datenmäßige Erfassung der fehlenden Rahmenbedingungen von zentraler Bedeutung.

Die Aktualität der Daten hängt vom Termin des letzten Daten-Updates, von der Frequenz der Daten-Updates, von der Velocity und von der Domain selber ab. Die Verwendung nicht aktueller Daten kann zu irreführenden Informationen und damit zu falschen Einsichten bzw. Entscheidungen führen.

Umso mehr Datenquellen verwendet werden, desto höher ist die Gefahr, dass die Daten nicht widerspruchsfrei sind. Widerspruchsfreie Daten (Validity; Bachmann et al. (2014)), erleichtern die Verarbeitung und Interpretation der Daten. Die komplexe Realität kann von unterschiedlichen Betrachtern unter unterschiedlichen Perspektiven betrachtet und unterschiedlich wahrgenommen werden. Dies kann zu (scheinbar) widersprüchlichen Daten führen. Durch das Auflösen der Widersprüche kann ein besseres sowie breiteres Verständnis der Realität entwickelt werden. Im Zuge der Aufbereitung, Bereinigung, Plausibilisierung und Analyse der Daten sollen Widersprüche in den Daten erkannt werden und diese zur Interpretation der Daten genutzt werden.

Eine falsche Referenz (Kundenauftrag wird mit falschem Fertigungsauftrag referenziert, eingelagerter Behälter wird mit falschem Lagerplatz referenziert), fehlerhafte Syntax (Datumsangabe im Format DD.MM.YY wird als MM.DD.YY verarbeitet oder statt Kilogramm werden Tonnen verwendet) oder Semantik (Datum wird statt Kundenwunschliefertermin als IST-Liefertermin oder Gewicht wird als Brutto- anstatt Nettogewicht interpretiert) können zu Missinterpretationen und damit zu Fehlentscheidungen führen. Dies zeigt einmal mehr auf, dass Daten ohne Domainwissen und detaillierte Kenntnisse zur Syntax und Semantik wenig Wert sind und zu falschen Schlussfolgerungen führen.

Datenwissenschaftler (Hazen et al. (2014)) schlagen vor, die Datenqualität ähnlich wie die Produktqualität z. B. über Regelkarten (SPC) kontinuierlich zu messen und bei (drohenden) Abweichungen entsprechend einzugreifen. Untersuchungen zeigen, wenn die Qualität, Richtigkeit oder Glaubwürdigkeit von Daten gering ist, verlieren Entscheidungsträger das Vertrauen in die Daten und setzen dann bei Entscheidungen vermehrt auf die Intuition anstatt auf datenbasierte Aussagen (z. B. Redman (2013)). Schlechte Datenqualität führt zu schlechteren Entscheidungen, zu erheblichen Mehrkosten und zur Nichtnutzung von Umsatzpotenzialen (Dey und Kumar (2010)).

Umso mehr automatische Datenverarbeitung, datenbasierte Assistenzsysteme, Workflows sowie Entscheidungsunterstützungs und -findungssysteme im Einsatz sind, umso wichtiger wird die automatische Erkennung von mangelhaften Daten, deren Ausscheidung bei der Verarbeitung oder Korrektur vor der Datenverwendung und nach Möglichkeit deren grundsätzliche Vermeidung.

In der Pharmalogistik werden Algorithmen zur Vorhersage des Medikamentenverbrauches verwendet, die in der Lage sind, aus den unsicheren und unstrukturierten Daten basierend auf Postings, Tweets und anderen Einträgen in Social Media-Plattformen verlässliche kurzfristige Forecasts zum aktuellen persönlichen Wohlbefinden zu erstellen. Mit diesen Algorithmen ist es gelungen, temporäre Lieferprobleme von Grippemedikamenten in den Apotheken einer von einer Grippewelle erfassten Region zu verhindern.

2.2.2 Variability

Die Variability der Daten beschreibt das Phänomen, dass sich die Bedeutung oder die Relevanz von Daten ändern können (Fan und Bifet (2012)). Der umgangssprachliche Begriff »Schnelllebigkeit« der Daten meint Ähnliches wie Variability. Diese Änderungen basieren nicht auf einer Änderung der Daten, sondern auf einer Änderung

• des Kontextes,

• der Syntax oder

• der Semantik,

• der Daten.

Wenn sich der Kontext wesentlich ändert oder in der realen Welt der Kontext entfällt, können Daten ihre Relevanz verlieren. Ein Beispiel dazu wären Stammdaten wie Arbeitspläne. Bei Investition in eine neue Fertigungsanlage, die auf einer neuen Technologie beruht, sind die alten Arbeitspläne für die Planung und Steuerung der Produktion mit der neuen Anlage nicht mehr hilfreich bzw. nicht mehr relevant. Natürlich können für eine andere Zielsetzung oder Anwendung (neuer Kontext) die alten Arbeitspläne noch sinnvoll bzw. relevant sein (z. B. Musterarbeitsplan für Schulungszwecke).

Werden gleiche Daten bzw. Aussagen auf einen unterschiedlichen Kontext bezogen, resultieren daraus unterschiedliche Bedeutungen bzw. Interpretationen. Bei einem Ausgangspreis von 100 € bedeutet die Aussage »Wir haben 50% herausgeholt« für den Kaufenden eine Preisreduktion von 50% Prozent also 50 € und für den Verkaufenden eine Preiserhöhung von 50% also 150 € für den neuen Verkaufspreis. Daten müssen also immer im Zusammenhang zu ihrem Kontext verarbeitet, analysiert und interpretiert werden.

Bei einer Syntaxänderung müssen die Daten der neuen Syntax angepasst werden, um Datenfehlern vorzubeugen. Ein gutes Beispiel dazu ist die Änderung der Währung von österreichischen Schilling auf Euro im Jahr 2002, die zu vielen erforderlichen Daten- und Softwareanpassungen geführt hat. Eine Syntaxänderung, die nicht in der Verarbeitung der Daten berücksichtigt wird, führt zu Fehlinterpretationen der Daten.

Eine Änderung der Semantik ist häufig schleichend. Vor allem die Veränderung der Sprache, insbesondere die Bedeutungsverschiebung einzelner Wörter, ist ein kontinuierlicher, häufig auch regional unterschiedlicher Prozess. So bedeutet historisch das Wort »toll« ursprünglich verrückt oder wahnsinnig, heute wird es zumeist als Lob im Sinne von super verwendet. Weiteres Beispiel für den historischen Wandel ist das Wort »Gewalt«, das im Mittelhochdeutschen mit dem heutigen Wort Macht gleichzusetzen ist und im Hochmittelalter überhaupt keine Assoziation mit tätlichen Auseinandersetzungen aufweist. Im unternehmerischen Kontext ändern sich auf Grund von neuen Managementansätzen, neuen Technologien, Kulturänderungen und Change-Prozessen die Bedeutung von Begriffen, Stellenbezeichnungen, Aufgaben und Sachverhalten. Beispiele dazu sind Sekretärin (abwertend im Vergleich zur OfficemanagerIn oder AssistentIn), Geschäftsführer (altmodisch im Vergleich zum CEO) oder Qualitätskontrolle (im Vergleich zum umfassenden Qualitätsmanagement). Bei der Interpretation von Daten ist die Erkennung und Berücksichtigung eines allfälligen Bedeutungswandels unabdingbar, um einer Missinterpretation vorzubeugen. So kann ein und die gleiche Aussage eine völlig unterschiedliche Bedeutung haben: »Du bist toll« heißt einmal »Du bist verrückt« und ein andermal »Du bist sehr gut«. Die Beherrschung der Variability ist besonders bei der Sprachverarbeitung wichtig, da die Bedeutung von Wörtern und Sätzen nicht nur zeitlichen, sondern auch regionalen und individuellen Bedeutungsänderungen unterliegt.

IBM entwickelte ein Computerprogramm namens Watson, das auf in natürlicher Sprache gestellte Fragen eine Antwort liefert. Watson versteht dabei die Semantik der natürlichen Sprache und kann in unterschiedlichsten Bereichen sinnvolle Antworten geben. Bereits 2011 schlug das Computerprogramm Watson die beiden erfolgreichsten Teilnehmer der Quizsendung Jeopardy deutlich. Unter anderem wird Watson in der medizinischen Diagnostik erfolgreich eingesetzt und liefert qualitativ bessere Diagnosen als ein Ärzteteam.

2.3 Zieldimensionen von Big Data

2.3.1 Visualisation

Daten sind als Rohstoff zu betrachten. Erst durch Veredelung zum Wissen kann datenbasierter Nutzen generiert werden. Ohne Domainwissen oder Zielorientierung droht die Gefahr, aus den Daten Irreführendes, Nichtssagendes oder einfach Falsches herauszulesen (zu den Grenzen Dehmer und Emmert-Streib (2018)).

Daten sind zunächst nur Zeichen, die erst durch einen Kontext, der Domain oder auch das Anwendungsfeld eine bestimmte Bedeutung erlangen. Die Syntax definiert den gültigen Zeichensatz zur Bildung der Daten und ist ein Regelwerk, in welchem Ordnungszusammenhang die Zeichen, also die Daten, stehen müssen. Die Syntax ermöglicht die Daten zu strukturieren und sie zu verarbeiten. Beispiele für Syntaxregeln sind das Format einer Datumsangabe z. B. DD.MM.YY oder das Erfordernis, den Temperaturwert in der Einheit Grad Celsius anzugeben. Wenn zu den Daten die Syntax nicht bekannt ist, läuft man Gefahr, die Daten falsch zu interpretieren. Die Semantik gibt den (kombinierten) Daten eine von der Domain abhängige Bedeutung. Ordnet man Datenstrukturen eine Bedeutung zu, entsteht InformationWissen

Herbert Jodlbauer

Digitale Transformation der Wertschöpfung

Verlag W. Kohlhammer