image1
Logo

Moderne Produktion

Herausgegeben von Marion Steven

Marion Steven/Timo Klünder (Hrsg.)

Big Data

Anwendung und Nutzungspotenziale in der Produktion

Verlag W. Kohlhammer

Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwendung außerhalb der engen Grenzen des Urheberrechts ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und für die Einspeicherung und Verarbeitung in elektronischen Systemen.

1. Auflage 2020

Alle Rechte vorbehalten

© W. Kohlhammer GmbH, Stuttgart

Gesamtherstellung: W. Kohlhammer GmbH, Stuttgart

Print:

ISBN 978-3-17-036476-9

E-Book-Formate:

pdf: ISBN 978-3-17-036477-6

epub: ISBN 978-3-17-036478-3

mobi: ISBN 978-3-17-036479-0

Für den Inhalt abgedruckter oder verlinkter Websites ist ausschließlich der jeweilige Betreiber verantwortlich. Die W. Kohlhammer GmbH hat keinen Einfluss auf die verknüpften Seiten und übernimmt hierfür keinerlei Haftung.

 

Vorwort

 

 

 

Der industrie- und wirtschaftspolitische Sammelbegriff »Industrie 4.0« bezeichnet die technischen und wirtschaftlichen Gestaltungsdimensionen, die sich aus der umfassenden informationstechnischen Vernetzung von Produktions- und Wertschöpfungsprozessen ergeben. Vielfach wird Industrie 4.0 vor allem als technische Herausforderung der Digitalisierung, Abstimmung und Vernetzung von Objekten und Abläufen betrachtet. Inzwischen zeigt sich in Wissenschaft und Praxis, dass sich die Märkte, die Wettbewerbsstrukturen und die Geschäftsmodelle grundlegend ändern werden – für den Hightech-Produktionsstandort Deutschland bieten sich hier vielfältige Entwicklungschancen.

Die Reihe »Moderne Produktion« stellt in loser Folge aktuelle Themen aus dem Bereich Industrie 4.0 vor. Der vorliegende Sammelband »Big Data« fokussiert die informationstechnischen und betriebswirtschaftlichen Herausforderungen sowie Potentiale, die Big Data für Unternehmen in Industrie 4.0 schafft. Big Data beschreibt das Phänomen rasant wachsender Datenmengen: 90% aller heute zur Verfügung stehenden Daten wurden in den vergangenen beiden Jahren gesammelt und gespeichert. Die vielfach unstrukturierten Daten fließen in Data Lakes, Data Pools oder Data Warehouses und werden durch intelligente Verknüpfung zu Informationen veredelt. Schon heute wird Big Data zur Steuerung von Produktionsprozessen und zur Entwicklung neuer Geschäftsmodelle angewandt. Der Begriff Big Data hat durch die sich abzeichnende vierte Industrielle Revolution eine gesteigerte Wahrnehmung erfahren, sodass er sich zu einem diffusen Containerbegriff entwickelt hat. Vor diesem Hintergrund ordnet der Sammelband aus wissenschaftlicher Perspektive das Phänomen Big Data ein und stellt neben den technischen Voraussetzungen auch die betrieblichen Nutzungspotentiale vor.

Erfreulicherweise ist es uns gelungen, eine Reihe von ausgewiesenen Expertinnen und Experten zu gewinnen, die sich aus verschiedenen Perspektiven mit den vielfältigen Facetten dieser Problematik auseinandersetzen. In den Beiträgen dieses Sammelbandes liegt die Betonung auf Big Data als einem zentralen technologischen Treiber der vierten industriellen Revolution. Diese Technologie wird gepaart mit dem Produktionsparadigma Industrie 4.0 zur Disruption etablierter Strukturen beitragen, aber gleichzeitig neue Wettbewerbsvorteile eröffnen. Das Spektrum der Beiträge reicht vom informationstechnischen Rüstzeug, wie erforderlicher Hardware, geeigneten Software-Lösungen sowie Sicherheitsarchitekturen und Schlüsselkompetenzen, bis hin zu betriebswirtschaftlichen Aspekten, wie ökonomischen Chancen und Risiken, dem Veränderungsbedarf in grundlegenden betrieblichen Funktionen sowie zukünftigen Entwicklungstendenzen des großen Datenmengen innewohnenenden Potentials.

Im Anschluss an eine Einführung in die Thematik sind die insgesamt zwölf Beiträge zwei komplementären Themenfeldern zugeordnet:

•  Themenfeld I »Informationstechnische Aspekte von Big Data« befasst sich in sechs Beiträgen mit der Frage, wie große Datenmengen sicher, strukturiert und effizient in Produktionsprozessen Anwendung finden können.

•  Themenfeld II »Betriebswirtschaftliche Aspekte von Big Data« stellt hierauf aufbauend mögliche Anwendungsszenarien und Nutzungspotentiale dar. Diese Betrachtung reicht von aggregierten Betrachtungen auf ökonomischer, ökologischer und sozialer Ebene bis hin zu sehr konkreten Anwendungsmöglichkeiten im Carsharing oder Unternehmenscontrolling.

Die Zielgruppe dieses Bandes sind Praktiker aus Industrie und Beratung, aber auch Studierende der Betriebswirtschaftslehre, des Wirtschaftsingenieurwesens, der Wirtschaftsinformatik sowie Dozenten und Lehrende dieser Fächer. Wir danken dem Kohlhammer Verlag, insbesondere Herrn Dr. Uwe Fliegauf, für die gute Zusammenarbeit und die Unterstützung bei der Konzeption und Herausgabe dieses Sammelbands.

Bochum, im Dezember 2019

Marion Steven und Timo Klünder

Inhalt

  1. Vorwort
  2. 1 Big Data – Anwendung und Nutzungspotentiale in der Produktion
  3. Marion Steven, Timo Klünder
  4. I Informationstechnische Aspekte
  5. 2 Big Data Analytics – Begriff, Prozess und Ausrichtungen
  6. Roland Düsing
  7. 3 Data Science Canvas: Ein Instrument zur Operationalisierung von Daten
  8. Thomas Neifer, Andreas Schmidt, Paul Bossauer und Andreas Gadatsch
  9. 4 Moderne Technologie- und Architekturkonzepte für Analytische Ecosysteme
  10. Peter Gluchowski, Marcus Hofmann
  11. 5 Datensicherheit für Big Data-Anwendungen
  12. Roland Gabriel
  13. 6 Industrial Big Data: Modernes Informationsmanagement in der Produktion
  14. Tobias Meisen, André Pomp, Max Hoffmann
  15. 7 Big Data und Echtzeitverarbeitung in Handelsunternehmen – Betriebswirtschaftliche Einsatzfelder zur Optimierung von Aufgaben und Entscheidungen
  16. Reinhard Schütte, Felix Weber
  17. II Betriebswirtschaftliche Aspekte
  18. 8 Chancen, Risiken und Entwicklungstendenzen von Big Data in der Produktion
  19. Peter Brödner
  20. 9 Ökonomische Effekte von Big Data – Grundlagen der modernen Datenökonomik
  21. Oliver Budzinski, Nadine Lindstädt-Dreusicke und Philipp Kunz-Kaltenhäuser
  22. 10 Big-Prozess-Analytik für Fertigungsmanagementsysteme (MES)
  23. Peter Fettke, Lea Mayer, Nijat Mehdiyev
  24. 11 Anwendungen und Nutzungspotenziale von Big Data im Unternehmens-Controlling
  25. Ulrike Baumöl
  26. 12 Big Data im Carsharing als Grundlage für den urbanen Mobilitätswandel
  27. Norman Spangenberg, Christoph Augenstein, Marcus Krämer, Ingolf Römer, Nico Bilski, Torsten Bähr, Bogdan Franczyk
  28. 13 Die Nachhaltigkeit von Big Data als »Rohstoff der Zukunft«
  29. Timo Klünder

1          Big Data – Anwendung und Nutzungspotentiale in der Produktion

Marion Steven, Timo Klünder1

1.1     Big Data als Treiber des digitalen Wandels

1.2     Informationstechnische Aspekte von Big Data

1.3     Betriebswirtschaftliche Aspekte von Big Data

1.4     Ausblick

Literatur

1.1       Big Data als Treiber des digitalen Wandels

Die systematische Analyse und Verknüpfung umfangreicher wählerbezogener Daten ermöglichte Wahlkämpfern im US-amerikanischen Präsidentschaftswahlkampf 2016. individuelle auf die Persönlichkeit des Wählers zugeschnittene Botschaften zu übermitteln. Im März 2018 wurde diese Form des Mikrotargetings durch den Whistleblower Christopher Wylie aufgedeckt und die Beteiligung des britischen Datenanalyse-Unternehmens »Cambridge Analytica« am US-amerikanischen Wahlkampf rückte den Begriff »Big Data« prominent in den Fokus öffentlicher Wahrnehmung. Betriebswirtschaftliche Einsatzszenarien bleiben vielfach unbeachtet, obwohl die hier durch den Einsatz von Big Data erreichten Fortschritte nicht minder beeindruckend sind. Der US-amerikanische Einzelhandelskonzern Walmart benötigt durch den Einsatz von Big Data zur Entwicklung eines Lösungsvorschlags für Störungen, wie Lieferverzögerungen oder Fehlmengen, nicht mehr durchschnittlich drei Wochen, sondern lediglich 20 Minuten (Marr 2016: 14 ff.).

Big Data setzt große oder zumindest komplexe Datenmengen voraus. Zwischen dem Beginn der Zivilisation und dem Jahr 2003 wurden 5 Exabyte (1018) Daten geschaffen. Dies ist eine Datenmenge, die heute innerhalb von zwei Tagen erzeugt wird. Diese gigantischen und komplexen Datenmengen besitzen das Potential, die Wertschöpfung der Unternehmen zu revolutionieren, stellen Unternehmen und Verantwortliche jedoch auch vor zahlreiche und neue informationstechnische wie betriebswirtschaftliche Herausforderungen und Fragestellungen:

•  Was ist Big Data?

•  Welche informationstechnische Infrastruktur ist die zwingende Voraussetzung für den erfolgreichen Umgang mit Big Data?

•  Wie können Unternehmen Daten effizient organisieren und klassifizieren?

•  Welche positiven und negativen Effekte resultieren aus der Nutzung von Big Data?

•  Wie müssen betriebliche Funktionen in Reaktion auf Big Data neu gestaltet werden?

Die Lösung dieser und weiterer Herausforderungen und Fragestellungen ist die Zielsetzung der Beiträge dieses Sammelbands, der nicht am Anfang dieser Entwicklung erscheint, sondern mehr als 50 Jahre nach Beginn des sogenannten Datenzeitalters. Der aktuelle Trend-Begriff »Big Data« verfügt bereits über eine kurze Geschichte (u. a. Mülling 2018: 24 ff., King 2014: 22) (image Abb. 1):

Images

Abb. 1: Eine kurze Geschichte von »Big Data«

•   1965 beschloss die Administration der Vereinigten Staaten, das erste Rechenzentrum zu bauen, in dem über 742 Millionen Steuererklärungen und 175 Millionen Fingerabdrücke gespeichert werden sollten, indem alle diese Datensätze auf Magnetband übertragen wurden, das an einem einzigen Ort aufbewahrt werden musste. Das Projekt wurde später aus Angst vor »Big Brother« eingestellt, aber es ist allgemein anerkannt, dass es der Beginn der Ära der elektronischen Datenspeicherung war. Die Bedenken, die »Big Data« heute hervorruft, sind somit nicht neu.

•  Ebenfalls nicht neu ist der Big Data-Begriff selbst. Im Jahr 1970 fand der Begriff »Big Data« in einem Experiment im Inselstaat Barbados zur Untersuchung des Zusammenhangs zwischen physikalischen Eigenschaften des Wetters und des Ozeans erstmals Anwendung. Die nochmalige Verwendung des Begriffs ist erst für das Jahr 1997 dokumentiert.

•  Am 12. März 1989 präsentierte Tim Berners-Lee am europäischen Kernforschungszentrum Cern ein Informationsmanagementsystem mit universellem Übertragungsstandard, das den Physikern den weltweiten freien Austausch von Informationen ermöglichte. Das Internet bildet für den überwiegenden Anteil aktueller Big Data-Anwendungen die Datenquelle, stellt Analysewerkzeuge bereit und ermöglicht die Anwendung der aus den Daten gewonnenen Erkenntnisse.

•  Im Jahr 2001 definierte Laney Big Data als die aus dem Umfang (Volume), der Geschwindigkeit (Velocity) und der Vielfalt (Variety) resultierenden Komplexität der Datenverarbeitung. Jener 3V-Ansatz bildet den Ausgangspunkt aller auf dem V-Konzept basierenden Definitionen, die heute von den ursprünglichen drei V bis hin zu siebzehn V reichen. Verbreitet ist die 4V-Definition, welche Big Data als eine Kombination aus dem Umfang (Volume), der Geschwindigkeit (Velocity), der Vielfalt (Variety) und der Vertrauenswürdigkeit (Veracity) charakterisiert.

•  Die aktuelle Begeisterung von Forschern und Praktikern für diesen Begriff wird jedoch vor allem durch die Industrie 4.0 und neuartige Datenquellen angetrieben.

Was haben fahrerlose Transportsysteme, Virtual und Augmented Reality oder die Blockchain gemeinsam? Es handelt sich um mehr oder weniger fortgeschrittene Technologien, die die technologische Basis der vierten industriellen Revolution, der sogenannten Industrie 4.0, repräsentieren. Der Begriff wurde 2011 auf der Hannover Messe Industrie eingeführt. Kennzeichnend für eine Industrielle Revolution sind Änderungen auf organisationaler Ebene, welche durch den flächendeckenden Einsatz neuartiger Technologien erreicht werden. Industrie 4.0 lässt sich daher ebenfalls über eine organisationale und eine technologische Komponente beschreiben (Steven und Klünder 2018: 203):

•  Auf organisationaler Ebene wird Industrie 4.0 durch eine horizontale und vertikale Integration von Unternehmen charakterisiert, die unternehmensübergreifend in einer dezentral gesteuerten und sich selbstorganisierenden Wertschöpfungskette eine individualisierte, nachhaltige und flexible Produktion ermöglichen, durch die Zeit-, Kosten- und Qualitätsvorteile erzielt werden können.

•  Diese organisationalen Wertschöpfungsveränderungen werden durch den vernetzten Einsatz von Big Data und echtzeitfähiger cyber-physischer Systeme im Internet der Dinge und Dienste technologisch vorangetrieben, sodass digital integrierte, autonome Smart Factories entstehen.

Industrie 4.0 hat zu einer Wiederbelebung des Big Data-Begriffes geführt. Während die Zahl der mit dem Schlagwort »Big Data« indexierten Literatur zwischen 1960 und 2010 zwischen 0 und 31 Beiträgen pro Jahr lag, ist diese Zahl bis 2018 auf 16.505 Beiträge angewachsen (Eigene Berechnungen; Quelle: Datenbank Scopus) (siehe Primärachse image Abb. 1).

Parallel hierzu wuchs die jährlich generierte Datenmenge ab 2011 exponentiell (siehe Sekundärachse image Abb. 1). Bis 2025 sollen, wenn man das aktuelle jährliche Wachstum durch die International Data Corporation fortschreibt, 175 Zettabyte Daten pro Jahr neu generiert werden. Eine beschriebene DIN-A4-Textseite umfasst 4 KB Daten, sodass es mit 175 Zettabyte ausgedruckter Daten auf DIN-A4-Papier möglich wäre, die Fläche der Erde 5.360.468-mal auszulegen. Auf jedem Fleck der Erde würden sich Papierstapel in einer Höhe von 536 Metern türmen. Die großen Industrienationen, USA, China und Europa, sind dabei die größten Datenproduzenten.

Welchen Mehrwert bietet der vorliegende Sammelband vor dem Hintergrund von 16.505 Publikationen zum Thema »Big Data« allein im Jahr 2018 und einer mehr als 50-jährigen Geschichte des Big Data-Begriffes?

•  Ein Großteil der vorliegenden Publikationen ist rein informationstechnischer Ausrichtung ohne betriebs- oder produktionswirtschaftlichen Bezug.

•  Es wird in diesen Publikationen nur sehr selten ein Industrie 4.0-Bezug hergestellt.

•  Dieser Sammelband bewegt sich an der Schnittstelle von Informatik und Betriebswirtschaft, um ein ganzheitliches Bild von Big Data vor dem Hintergrund von Industrie 4.0 zu liefern.

Um das Big Data-Phänomen umfassend zu erschließen, werden in den Beiträgen des vorliegenden Sammelbands die informationstechnischen und betriebswirtschaftlichen Aspekte zum erfolgreichen Einsatz von Big Data thematisiert. Hierauf aufbauend werden Wettbewerbspotentiale des Einsatzes von Big Data illustriert. Abbildung 2 gibt einen Überblick über den inhaltlichen Zusammenhang der Beiträge, die zwei komplementären Themenfeldern zugeordnet sind. Erst die erfolgreiche Lösung informationstechnischer und betriebswirtschaftlicher Herausforderungen ermöglicht die Generierung umfangreicher Wettbewerbsvorteile.

•  In Teil I »Informationstechnische Aspekte« stehen die durch die digitale Transformation auslösten Veränderungen der Märkte und Wertschöpfungsbeziehungen im Vordergrund.

•  Teil II »Betriebswirtschaftliche Aspekte« befasst sich mit den betrieblichen Nutzungspotentialen von Big Data und zeigt umfassend die Chancen, Risiken und Entwicklungstendenzen von Big Data auf.

Angesichts der schnellen Entwicklungen im Bereich von Industrie 4.0 können die Ausführungen zu diesen Themenfeldern nur eine Momentaufnahme darstellen und mögliche Entwicklungsszenarien für die Zukunft skizzieren.

Images

Abb. 2: Aufbau des Sammelbands

1.2       Informationstechnische Aspekte von Big Data

Big Data wird in einer Studie mit 604 deutschen Unternehmen von 57 Prozent aller Unternehmen als wichtigste Technologie für eine zukünftig erfolgreiche unternehmerische Tätigkeit identifiziert (BITKOM 2018). Eine mangelnde Bekanntheit der Einsatzmöglichkeiten, Techniken und Methoden sowie Datenschutz- und Datensicherheitsbedenken hemmen den flächendeckenden Einsatz (Fraunhofer-Institut für intelligente Analyse- und Informationssysteme 2012: 48). In Teil I werden umfassend die informationstechnischen Aspekte erläutert, die in ihrer Gesamtheit einen entscheidenden Beitrag zum Abbau dieser Umsetzungsbarrieren leisten können.

Roland Düsing definiert im Beitrag Big Data Analytics – Begriff, Prozess und Ausrichtungen zunächst umfassend den Big Data-Begriff, um Big Data Analytics anschließend in das Gebiet der Datenanalyse einordnen zu können. Es wird gezeigt, dass ein Zusammenhang zwischen dem Knowledge Discovery in Databases (KDD) und Big Data Analytics besteht, sodass der aus den Phasen Auswahl, Aufbereitung, Festlegung, Analyse und Interpretation bestehende Prozess als Vorgehensmodell für die Untersuchung von Big Data Analytics herangezogen werden kann. Außerdem werden die Ausrichtungen Descriptive Analytics, Predictive Analytics und Prescriptive Analytics vorgestellt, deren erzeugte Modelle in Anwendungen als Beschreibungsmodelle, Erklärungsmodelle oder Entscheidungsmodelle herangezogen werden können.

Thomas Neifer, Andreas Schmidt, Paul Bossauer und Andreas Gadatsch entwickeln anschließend im Beitrag Data Science Canvas: Ein Instrument zur Operationalisierung von Daten eine Methode zur Entwicklung einer Datenstrategie, die sie anschließend exemplarisch auf die Produktionsleistung einer Photovoltaik-Anlage anwenden. Im eingangs von Roland Düsing dargestellten, aus fünf Phasen bestehenden Prozess ist dieses Kapitel der Auswahl und Aufbereitung von Daten zuzuordnen. Der Canvas-Gedanke strebt eine möglichst übersichtliche Zusammenfassung komplexer Problemstellungen an. In Anlehnung an das verbreitete »Businesss Model Canvas« wird der »Data Science Canvas« entwickelt, der für jegliche Fragestellungen der Datenanalyse anwendbar und auch für nicht datenaffine Fach- und Führungskräfte nutzbar ist, um Data Science Projekte planen, steuern und kontrollieren zu können. Dieses Konzept dient als Bindeglied zwischen der Führungskraft und dem Data Scientist. Methodenkarten dienen als Hilfestellung für nicht datenkompetente Fach- und Führungskräften, um sich intensiver mit Data Science und den unternehmenseigenen Potentialen auseinanderzusetzen.

Die erfolgreiche Umsetzung von Big Data-Initiativen steht auch im Zentrum des Beitrags Moderne Technologie- und Architekturkonzepte für Analytische Ecosysteme von Peter Gluchowski und Marcus Hofmann. Den traditionellen Architekturkonzepten stellen sie moderne Architekturkonzepte für eine Echtzeit- und Stapeldatenverarbeitung gegenüber. Das Architekturkonzept determiniert ganz wesentlich die Aufbereitung und Festlegung der zu verwendenden Daten. Big Data-Initiativen bedürfen geeigneter technologischer Plattformen mit einem tragfähigen Gesamtkonzept. Neben der Diskussion moderner Big Data-Technologien und Frameworks werden Lambda-, Kappa- und Streaming-Architekturen für eine kombinierte Echtzeit- und Stapeldatenverarbeitung hinsichtlich ihres Aufbaus und ihrer Grundsätze analysiert.

In der Phase der Analyse und Interpretation von Daten sind, wie bereits die Bedenken bei der Planung des weltweit ersten Datencenters zeigten, Sicherheitsbedenken stets von Bedeutung. Die Sicherheit computergestützter Anwendungs- und Informationssysteme ist eine notwendige Gestaltungsanforderung. Roland Gabriel entwickelt daher in seinem Beitrag Datensicherheit für Big Data-Anwendungen eine Sicherheitsarchitektur für Big Data. Technische, organisatorische und personelle Sicherheitsmaßnahmen tragen zur Sicherheit von Big Data bei. Die Entwicklung eines Prozesses zum Aufbau einer Sicherheitsarchitektur als Phasenmodell, welches von der Sicherheitspolitik der Unternehmen bis zur Implementierung und dem Testen der Sicherheitsarchitektur reicht, ermöglicht ein strategisches wie operatives Sicherheitsmanagement.

Tobias Meisen, André Pomp und Max Hoffmann beschäftigen sich ebenfalls mit Architekturen, fokussieren im Beitrag Industrial Big Data: Modernes Informationsmanagement in der Produktion jedoch auf eine Reduzierung der Time-to-Analytics als strategisches Ziel des modernen unternehmerischen Informationsmanagements. Time-to-Analytics beschreibt die Zeit, die für die Ableitung digitaler Informationen aus Daten benötigt wird. Praktische Beispiele verschiedener Branchen beschreiben die industrielle Realität und bilden die Grundlage einer Ableitung der mit Industrial Big Data verbundenen Herausforderungen. Hierbei wird deutlich, dass etablierte Konzepte des Daten- und Informationsmanagements nicht dazu geeignet sind, diesen Herausforderungen zu begegnen. Die Diskussion neuartiger Ansätze mündet abschließend in einer Implementierung der Industrie 4.0 Referenzarchitektur RAMI 4.0 für Industrial Big Data.

Die aus der Auswahl, Aufbereitung, Festlegung, Analyse und Interpretation von Daten hervorgehenden Wettbewerbsvorteile bilden am Beispiel des Handels den Abschluss des ersten, informationstechnisch orientierten Teils dieses Sammelbands. Reinhard Schütte und Felix Weber stellen im Beitrag Big Data und Echtzeitverarbeitung in Handelsunternehmen – Betriebswirtschaftliche Einsatzfelder zur Optimierung von Aufgaben und Entscheidungen zunächst die Entscheidungsprobleme in Handelsunternehmen dar, um anschließend aus technischer Perspektive, unter besonderer Bezugnahme auf die Echtzeitverarbeitung von Daten, die aus dem Einsatz von Big Data resultierenden Wettbewerbsvorteile für Handelsunternehmen zu strukturieren. Die Aufgabenarten von Handelsunternehmen werden dahingehend analysiert, ob Aufgaben und vor allem Entscheidungsprobleme eine Veränderung durch Big Data erfahren. Die Analyse in exemplarischen Anwendungsfeldern deckt zu generierende Wettbewerbsvorteile auf.

1.3       Betriebswirtschaftliche Aspekte von Big Data

Im Gegensatz zu diesen eher informationstechnisch orientierten Beiträgen wird in Teil II stärker auf betriebswirtschaftliche Handlungsfelder fokussiert. Der Aufbau strategischer Wettbewerbsvorteile ist das zentrale Ziel der Big Data-Anwendung, welches über Umsatzsteigerungen, Kostenreduktionen, Produktivitätssteigerungen, datenbasierte und marktnahe Planungen und allgemeine Effizienzgewinne erreichbar ist (Fraunhofer-Institut für intelligente Analyse- und Informationssysteme 2012, S. 46). Den Pfad zur Erreichung dieser Ziele erschließen die sechs Beiträge des zweiten Themenfeldes:

Peter Brödner eröffnet den betriebswirtschaftlich orientierten Teil mit einer Darstellung der Potentiale von Big Data. Insbesondere wird in seinem Beitrag Chancen, Risiken und Entwicklungstendenzen von Big Data in der Produktion auf die Besonderheiten im Umgang mit »Big Data« in der Produktion eingegangen. Grundlegende theoretische Aspekte der Modellbildung werden als notwendige Voraussetzung für den Computereinsatz beleuchtet. Zur Einschätzung von Chancen und Risiken werden die mit der algorithmischen Analyse großer Datenmengen verbundenen methodischen Schwierigkeiten aufgezeigt. Zu dieser Analyse zählen auch weithin ignorierte Herausforderungen und Besonderheiten im Umgang mit Big Data in der Produktion.

Die Chancen des Einsatzes von Big Data, die sich in Form ökonomischer Effekte zeigen, werden von Oliver Budzinski, Nadine Lindstädt-Dreusicke und Philipp Kunz-Kaltenhäuser im Beitrag Ökonomische Effekte von Big Data – Grundlagen der modernen Datenökonomik betrachtet. Werbefinanzierte Geschäftsmodelle, individualisierte Güter, datenbasierte Preisdiskriminierung und Datenhandel werden ebenso als Chance für Unternehmen angeführt wie die intelligente Produktion und der intelligente Konsum. Bei der Ausnutzung jener Chancen verweisen die Autoren auf die Rolle des Verbraucherschutzes zum Schutz der Verbraucher vor konsumentenwohlfahrtschädigendem Verhalten der Anbieter. Abschließend werden Voraussetzungen für einen effizienten Umgang mit persönlichen Daten angeführt, die von einer Outside-Option des Kunden über die Option eines Anbieters bis hin zur Transparenz des Wertes persönlicher Daten reichen.

Die betriebswirtschaftlichen Risiken der Anwendung von Big Data strukturieren Peter Fettke, Lea Mayer und Nijat Mehdiyev im Beitrag Big-Prozess-Analytik für Fertigungsmanagementsysteme (MES) mit einem Überblick über die Bedeutung, die Rollenverteilung und Anwendungsmöglichkeiten der Prozessanalytik für Industriebetriebe. Prozessanalytik verknüpft die Prozess- und Datenperspektive, um analytische Ansätze zu entwickeln und aus großen Datenmengen einen Mehrwert zu generieren. Das Manufacturing Execution System (MES) stellt ein geeignetes Werkzeug dar, um Prozesse lückenlos zu dokumentieren, heterogene Daten zu erfassen und für die Prozessanalytik zur Verfügung zu stellen. Die vorgestellten Chancen werden anhand eines Fallbeispiels aus dem Werkzeug- und Vorrichtungsbau tiefer diskutiert.

Die betriebswirtschaftlichen Chancen und Risiken von Big Data führen zu einer umfassenden Umgestaltung des Controllings. Controlling basiert eigentlich schon immer auf großen Datenmengen und heterogenen Datenquellen. Die Vielfalt der Datenquellen hat jedoch drastisch zugenommen, sodass Ulrike Baumöl im Beitrag Anwendungen und Nutzungspotenziale von Big Data im Unternehmens-Controlling für den Einsatz von Big Data die fachlichen, strukturellen, methodischen und informationstechnischen Anforderungen in einem Rahmenkonzept für die Nutzung von Big Data im Unternehmenscontrolling, dem sogenannten FSMI-Modell, zusammenfasst. Die Integration und Nutzung von Big Data setzt eine Anpassung der Controlling-Funktion in den vier genannten Bereichen voraus.

Geschäftsmodelle, die auf der Idee des Sharings basieren, wie beispielsweise Uber, AirBnB oder Kleiderkreisel, gewinnen durch Industrie 4.0-Technologien an Bedeutung. Norman Spangenberg, Christoph Augenstein, Marcus Krämer, Ingolf Römer, Nico Bilski, Thorsten Bähr und Bogdan Franczyk untersuchen im Beitrag Big Data im Carsharing als Grundlage für den urbanen Mobilitätswandel, inwiefern Big Data einen Beitrag zu einem erfolgreichen Angebot des Carsharings leistet. Dieses Anwendungsszenario zeigt auf, dass das Geschäftsmodell Sharing erst durch Big Data realisierbar wird. Bisherige Ansätze wirken hauptsächlich auf strategischer sowie taktischer Planungsebene und unterstützen dabei vorwiegend die Flottendimensionierung und Definition des Geschäftsgebiets. Durch Big Data werden Datenquellen zugänglich, die neue Anwendungsszenarien, nun auch auf operativer Ebene, ermöglichen. Hierzu zählen beispielsweise die Anomalieerkennung als Erweiterung des Realtime-Monitorings oder die Vorhersage des Nachfrageverhaltens aufgrund regelmäßiger Nutzer-Gewohnheiten in Verbindung mit Echtzeit-Standortdaten oder Veranstaltungsdaten.

Timo Klünder untersucht im Beitrag Die Nachhaltigkeit von Big Data als »Rohstoff der Zukunft«, inwiefern Big Data zur Erreichung der Ziele nachhaltiger Entwicklung beiträgt. Nachhaltigkeit, insbesondere nachhaltige Produktion, sorgt für Differenzierung im Wettbewerb und kann Wettbewerbsvorteile generieren. Trotz der tragenden Rolle von Big Data im forschungsintensiven Produktionsparadigma Industrie 4.0, der Relevanz des produzierenden Gewerbes für Industrie 4.0 und der Bedeutung nachhaltiger Produktion in der Wertschöpfung liegen bislang keine Forschungsarbeiten vor, die eine Verbindung jener Elemente herstellen. Sechzehn Indikatoren nachhaltiger Produktion werden auf eine Korrelation mit dem Einsatz von Big Data getestet. Das große Versprechen von Big Data, Wettbewerbsvorteile zu generieren, wird bislang lediglich für die ökonomische Dimension des dreiteiligen Zielbündels nachhaltiger Entwicklung (Ökonomie, Ökologie, Soziales) eingelöst.

1.4       Ausblick

Produzierende Unternehmen unterliegen dem permanenten Druck, sich kontinuierlich zu verbessern, um ihre Wettbewerbsfähigkeit zu erhalten. Dieser Druck wird durch die sich anbahnende vierte Industrielle Revolution verstärkt, sodass eine Modernisierung der Produktion zu erfolgen hat. Moderne Produktion fußt auf der Vision von Industrie 4.0, die aus disruptiven Technologien, wie der Schlüsseltechnologie Big Data, und einer Neuorganisation der Wertschöpfung besteht und so zur Entstehung neuer Märkte und Geschäftsmodelle beiträgt. Zur Abbildung einer solch zukunftsfähigen Produktion erfolgt eine Auseinandersetzung mit der Smart Factory und den neuen Märkten:

Im Sammelband »Marktchancen 4.0« der Reihe »Moderne Produktion« werden, ergänzend zur Darstellung der technologischen Basis »Big Data« im vorliegenden Sammelband und der »Smart Factory«, neue Märkte und Geschäftsmodelle durch Anwendung von Industrie 4.0 thematisiert. Um das Konzept Industrie 4.0 erfolgreich zu nutzen, bedarf es des unternehmerischen Muts und einer Neuausrichtung der Geschäftstätigkeit im Sinne einer stärkeren Kundenorientierung. Die Anreicherung von Sachleistungen mit nutzensteigernden Dienstleistungen sowie die Vernetzung von Unternehmen und Produkten führen zu maßgeschneiderten, schwer imitierbaren Lösungen. Es zeigt sich, dass eine erfolgreiche Positionierung auf neuen Märkten die eigene Wettbewerbsfähigkeit nachhaltig sichert. Die Digitalisierung wirkt als Innovationstreiber zur Erschließung neuer Märkte und zur Entwicklung neuartiger Geschäftsmodelle. Die Beiträge stellen Markterschließungs- und Geschäftsmodellvarianten dar, beleuchten Möglichkeiten der Schaffung (über-)betrieblicher Wertschöpfungsnetzwerke und stellen Best-Cases vor.

Im Sammelband »Smart Factory« wird die intelligente Fabrik als zentraler Ort der Wertschöpfung in Industrie 4.0 behandelt. Im Idealbild einer Smart Factory koordinieren Maschinen selbstständig Fertigungsprozesse, kooperieren motorisierte Serviceroboter in der Montage mit Menschen und Maschinen und erledigen fahrerlose Transportsysteme eigenständig Logistikaufträge. Maschinen, Werkzeuge oder Transportmittel sind dazu mit Sensoren, Prozessoren und Aktoren ausgestattet, durch die Informationen aufgenommen, verarbeitet und darauf aufbauende Handlungen ausgelöst werden. Dadurch lassen sich alle Instanzen einer Wertschöpfungskette mit Informationen versorgen, was eine vorteilhafte, netzwerkübergreifende Produktionskooperation ermöglicht. Dies unterstützt die Vision einer wirtschaftlich sinnvollen Herstellung der Losgröße Eins. Die Beitragsautoren diskutieren den aktuellen Stand, die technischen Voraussetzungen und die perspektivischen Möglichkeiten eines konsequenten Übergangs von der klassischen Produktionsweise zur Smart Factory.

Angesichts der Dynamik des Produktionsparadigmas Industrie 4.0 und der Entstehung stets neuer Datenquellen und Analysetechniken unterliegt das Erkenntnisobjekt Big Data einem kontinuierlichen Wandel. Dieser grundlegende und nachhaltige strukturelle Wandel erfolgt, einer Revolution untypisch, nicht abrupt, sondern langsam und kontinuierlich. Die Beiträge dieses Sammelbandes spiegeln eine Momentaufnahme wider und gewähren dem informationstechnisch und betriebswirtschaftlich interessierten Wissenschaftler oder Praktiker einen umfassenden Einblick von den begrifflichen Grundlagen bis hin zur Möglichkeit der Realisierung von Wettbewerbsvorteilen.

Literatur

BITKOM: Big Data steht bei sechs von zehn Unternehmen an erster Stelle, online im Internet, URL: https://www.bitkom.org/Presse/Presseinformation/Big-Data-steht-bei-sechs-von-zehn-Unternehmen-an-erster-Stelle.html, veröffentlicht am 11.06.2018, Abruf am: 15.09.2019

Fraunhofer-Institut für intelligente Analyse- und Informationssysteme (Hrsg.): Big Data - Vorsprung durch Wissen, online im Internet, URL: https://www.iais.fraunhofer.de/content/dam/iais/gf/bda/Downloads/Innovationspotenzialanalyse_Big-Data_FraunhoferIAIS_2012.pdf, veröffentlicht 2012, Abruf am: 01.09.2019

King, S.: Big Data. Potential und Barrieren der Nutzung im Unternehmenskontext, Springer, Berlin Heidelberg New York 2014

Marr, B.: Big Data in Practice. How 45 Successful Companies Used Big Data Analytics to Deliver Extraordinary Results, John Wiley & Sons, New York 2016

Mülling, E.: Big Data und der digitale Ungehorsam, Springer, Berlin Heidelberg New York 2018

Steven, M., Klünder, T.: Nachhaltigkeit schlanker Industrie 4.0-Netzwerke, in: Khare, A., Kessler, D., Wirsam, J. (Hrsg.): Marktorientiertes Produkt- und Produktionsmanagement in digitalen Umwelten: Festgabe für Klaus Bellmann zum 75. Geburtstag, Springer, Berlin Heidelberg New York 2018

Steven, M.: Industrie 4.0. Grundlagen – Teilbereiche – Perspektiven, Kohlhammer, Stuttgart 2019

1     Lehrstuhl für Produktionswirtschaft, Ruhr-Universität Bochum, Kontakt: Marion.Steven@rub.de; Timo.Kluender@rub.de. Homepage: www.prowi.rub.de

 

 

 

I   Informationstechnische Aspekte

2          Big Data Analytics – Begriff, Prozess und Ausrichtungen

Roland Düsing2

2.1    Einleitung

2.2    Begriff

2.3    Prozess

2.3.1   Auswahl

2.3.2   Aufbereitung

2.3.3   Festlegung

2.3.4   Analyse

2.3.5   Interpretation

2.4    Ausrichtungen

2.4.1   Descriptive Analytics

2.4.2   Predictive Analytics

2.4.3   Prescriptive Analytics

2.5    Zusammenfassung

Literatur

2.1       Einleitung

Das Konzept Industrie 4.0 ist durch eine Vernetzung von Maschinen und Abläufen in der Produktion und Logistik mit Hilfe von Informations- und Kommunikationstechnologie gekennzeichnet. Diese digitale Vernetzung ermöglicht eine Verbesserung der betrieblichen Abläufe und Wertschöpfungsprozesse. Zur Erschließung des Verbesserungspotenzials ist eine Auswertung der verfügbaren Daten mit analytischen Methoden erforderlich (Steven 2019, 72). Zu diesem Zweck kann auch Big Data Analytics als ein Ansatz der Datenanalyse herangezogen werden.

Mit diesem Beitrag soll der Ansatz Big Data Analytics in das Gebiet der Datenanalyse eingeordnet werden. Darüber hinaus sollen die Besonderheiten des Prozesses Big Data Analytics herausgestellt und die verschiedenen Ausrichtungen von Big Data Analytics dargestellt werden. Dieses soll zu einem besseren Verständnis der Herausforderungen und Möglichkeiten der Durchführung und Anwendung von Big Data Analytics führen.

Zu diesem Zweck wird zunächst der Begriff (image Kap. 2.2) Big Data Analytics beschrieben. Danach werden der Prozess (image Kap. 2.3) und eine ausgewählte Klassifizierung der Ausrichtungen (image Kap. 2.4) von Big Data Analytics dargestellt. Abschließend werden die Ergebnisse des Beitrags zusammengefasst (image Kap. 2.5).

2.2       Begriff

Die Begriffe Big Data und Big Data Analytics werden in der Literatur häufig nicht klar voneinander abgegrenzt verwendet (Maltby 2011, 1). Demgemäß werden, sprachlich ungenau, oftmals Daten und Tätigkeiten der Datenverarbeitung, wie z. B. die Erfassung, Speicherung und Auswertung von Daten, unter dem Begriff Big Data zusammengefasst. Hiervon abweichend basieren die weiteren Ausführungen auf einer inhaltlichen Unterscheidung der Begriffe Big Data und Big Data Analytics.

Der Ursprung des Begriffs Big Data ist nicht eindeutig geklärt und wird, so auch (Ward und Barker 2013), einem Bericht der META Group inhaltlich zugeschrieben. In diesem Bericht (Laney 2001) werden, ohne den Begriff Big Data zu verwenden, Eigenschaften von Daten herausgestellt, die sich aus einer Zunahme des E-Commerce ergeben und besondere Anforderungen an das Datenmanagement von Unternehmen stellen. Diese Eigenschaften beziehen sich auf die Kriterien volume, variety und velocity und wurden anfänglich auch zur Charakterisierung des Begriffs Big Data herangezogen.

Dabei beschreibt das Kriterium volume die Menge an Daten. Big Data kann eine vergleichsweise große Menge an Daten umfassen. Diese setzt sich aus beispielsweise Transaktionsdaten, die im Rahmen von betrieblichen Abläufen in Unternehmen entstehen, oder Sensordaten, die von Sensoren umweltbezogener, biologischer oder technischer Systeme aufgenommen werden, zusammen.

Das Kriterium variety kennzeichnet die Vielfalt der Datenstrukturen und Datenquellen (Oussous et al. 2018, 433). In Big Data können strukturierte, semi-strukturierte und unstrukturierte Daten enthalten sein. Strukturierte Daten, wie z. B. Daten in einer relationalen Datenbank, weisen ein festgelegtes Format für die Speicherung und Organisation auf. Unstrukturierte Daten, die einer Einschätzung von (Gantz und Reinsel 2011, 2) folgend mehr als 90% der weltweit generierten Datenmenge ausmachen, haben keine festgelegte Struktur und treten in Form von beispielsweise Texten, Bildern oder Grafiken auf. Semi-strukturierte Daten zeichnen sich durch eine implizite, irreguläre oder partielle Struktur aus. Ein Beispiel hierfür sind E-Mails, die durch ihren Aufbau aus Senderadresse, Empfängeradresse, Betreffzeile, Text und Anhang über eine implizite Struktur verfügen. Außerdem kann Big Data aus verschiedenen Datenquellen stammen. Somit können in einem Datenbestand z. B. interne Daten, welche in einem Unternehmen entstehen und die Situation des Unternehmens abbilden, mit externen Daten, welche im Umfeld des Unternehmens gewonnen werden und beispielsweise die gesamtwirtschaftliche Lage beschreiben, zusammengefasst sein.

Das Kriterium velocity bezieht sich, so auch (Klein et al. 2013, 320), auf die Geschwindigkeit, mit der Daten erzeugt und verarbeitet werden. Big Data kann aus Daten bestehen, die in vergleichsweise kurzer Zeit erzeugt werden und zur Nutzung in betrieblichen Abläufen und Entscheidungsvorgängen zeitnah verarbeitet werden müssen. Im E-Commerce kann sich z. B. die lagermäßige Verfügbarkeit eines von Kunden stark nachgefragten Artikels relativ schnell verändern. In diesem Fall lassen sich durch die rechtzeitige Kenntnis und Nachbestellung eines lagermäßig nicht mehr ausreichend verfügbaren Artikels Umsatzverluste und Imageschäden vermeiden.

Im weiteren zeitlichen Verlauf wurde die Charakterisierung des Begriffs Big Data um das Kriterium veracity ergänzt (Schroeck et al. 2012, 4). Dieses Kriterium beschreibt die Zuverlässigkeit der Daten und zielt auf den objektiven Erkenntniswert der Daten ab. In Big Data können Daten mit einer vergleichsweise geringen Zuverlässigkeit enthalten sein. Entsprechend bringen beispielsweise Daten von sozialen Medien die durch subjektive Wahrnehmung geprägten Meinungen und Erfahrungen der Nutzer zum Ausdruck. Darüber hinaus weisen Daten, die auf die Zukunft ausgerichtet sind, naturgemäß Unsicherheiten auf und sind deshalb von vergleichsweise geringer Zuverlässigkeit.

Inzwischen werden zahlreiche weitere Kriterien wie z. B. value oder variability zur Beschreibung des Begriffs Big Data herangezogen (Emani et al. 2015, 72; Arockia et al. 2017, 330 f.). Dabei kennzeichnet das Kriterium value den wirtschaftlichen Wert der Daten für ein Unternehmen. Das Kriterium variability beschreibt die Veränderlichkeit der Daten.

Neben dem Ansatz der Charakterisierung des Begriffs Big Data anhand von Eigenschaften der Daten gibt es den Ansatz, den Begriff anhand von Eigenschaften der Technologien, die der Verarbeitung von Big Data zugrunde liegen, zu beschreiben. Diesem Ansatz folgend ist Big Data ein Datenbestand, dessen Verarbeitung die Fähigkeit konventioneller Technologien zur Erfassung, Speicherung oder Auswertung von Daten übersteigt und daher neue Technologien erforderlich macht (Chen et al. 2014, 173; Oguntimilehin und Ademola 2014, 433).

Beide Ansätze der Charakterisierung des Begriffs Big Data führen zu einer wenig präzisen Definition. So gibt es keine absoluten Maßstäbe für die Eigenschaften der Daten bezüglich der verschiedenen Kriterien (Gandomi und Haider 2015, 139). Ein Beispiel für diesen Sachverhalt ist der Maßstab für eine große Menge an Daten. Dieser wird von der Datenstruktur und dem Entwicklungsstand der zugrunde liegenden Technologien beeinflusst und ist für z. B. strukturierte Daten eines ERP-Systems und unstrukturierte Bilddaten unterschiedlich.

Außerdem sind die Eigenschaften der Daten bezüglich einzelner Kriterien keine notwendige oder hinreichende Bedingung für die Charakterisierung des Begriffs Big Data (Freytag 2014, 98). Dementsprechend kann beispielsweise der Datenbestand eines Forschungsprojekts, der eine vergleichsweise kleine Menge an Daten mit einer Vielzahl unterschiedlicher Datenstrukturen aus zahlreichen verschiedenen Datenquellen umfasst, als Big Data beschrieben werden während der Datenbestand der Kundenstammdaten eines Unternehmens, der aus einer vergleichsweise großen Menge an Daten mit einer einheitlichen Datenstruktur aus einer einzelnen Datenquelle besteht, nicht als Big Data charakterisiert wird.

Schließlich sind die zur Charakterisierung des Begriffs Big Data herangezogenen Kriterien nicht voneinander unabhängig (Gandomi und Haider 2015, 139). Beispielsweise zeichnen sich Daten, die aus zahlreichen verschiedenen Datenquellen stammen, oftmals durch eine Vielzahl unterschiedlicher Datenstrukturen aus. Daten, die mit einer vergleichsweise hohen Geschwindigkeit erzeugt und verarbeitet werden, können häufig nicht rechtzeitig zur Verbesserung der Datenqualität aufbereitet werden und weisen daher eine vergleichsweise geringe Zuverlässigkeit auf.

In Ermangelung einer geeigneten verfügbaren Definition des Begriffs Big Data wird im Folgenden das den weiteren Ausführungen zugrunde liegende Verständnis dieses Begriffs skizziert. Dieses Verständnis basiert auf einer Auslegung des Begriffs Big Data als Complex Data. Big Data ist demzufolge ein Datenbestand, der eine vergleichsweise hohe Komplexität aufweist. Diese Komplexität ergibt sich aus den Anforderungen, die mit der Erfassung, Speicherung oder Verarbeitung der Daten verbunden sind.

Der Begriff Big Data Analytics bezeichnet den Ansatz der Analyse von Big Data. Die verschiedenen Ansätze der Datenanalyse können, so auch (Breiman 2001, 199), hinsichtlich ihrer Vorgehensweise in modellgetriebene Ansätze (»data modeling culture«) und datengetriebene Ansätze (»algorithmic modeling culture«) klassifiziert werden.

Der Ausgangspunkt für eine Datenanalyse in modellgetriebenen Ansätzen ist die Annahme eines Modells. Das Modell bringt eine Hypothese über den durch die zugrunde liegenden Daten abgebildeten Gegenstandsbereich zum Ausdruck. Innerhalb der Datenanalyse werden die Parameter des angenommenen Modells geschätzt und das Modell hierdurch konkretisiert (Freitag et al. 2015, 24). Anhand der Güte des konkretisierten Modells kann die mit dem Modell verbundene Hypothese geprüft werden. Entsprechend geht z. B. die einfache lineare Regressionsanalyse von der Annahme eines Zusammenhangs zwischen einer Zielgröße und einer Linearkombination der Regressionsparameter, wie beispielsweise Einflussgröße oder unbekannte skalare Parameter, aus. Im Verlauf der einfachen linearen Regression werden die Werte der skalaren Parameter so angepasst, dass der lineare Zusammenhang zwischen der Zielgröße und der Einflussgröße möglichst gut beschrieben wird.

Im Rahmen einer Datenanalyse in datengetriebenen Ansätzen werden Beziehungsmuster in den zugrunde liegenden Daten ermittelt und durch ein Modell abgebildet. Das induktiv erzeugte Modell ist eine Hypothese über den durch die zugrunde liegenden Daten abgebildeten Gegenstandsbereich. So kann mithilfe einer Analyse von Prozessdaten in der metallverarbeitenden Produktion beispielsweise die Hypothese »Wenn die Schnittgeschwindigkeit 3 m/s ist und die Durchflussmenge des Prozessgases 500 cm3/s beträgt, dann ist in 85% der Fälle die Schnittfläche glatt.« erzeugt werden.

Als Ansatz der Datenanalyse ist Big Data Analytics den datengetriebenen Ansätzen zuzuordnen. Zum einen kann Big Data eine vergleichsweise große Menge an Daten umfassen. Ein Datenbestand, der aus einer großen Menge an Daten besteht, erfüllt oftmals nicht die Annahmen modellgetriebener Ansätze der Datenanalyse und kann daher besser auf der Grundlage von datengetriebenen Ansätzen analysiert werden (Freitag et al. 2015, 24). Zum anderen besteht Big Data regelmäßig aus Daten, die nicht gezielt und sorgfältig zur Überprüfung einer zuvor formulierten Hypothese erhoben wurden, sondern durch unterschiedliche Prozesse in häufig unsystematischer Weise entstanden sind (Wrobel et al. 2015, 371).

Die datengetriebenen Ansätze der Datenanalyse werden vielfach unter dem Begriff Knowledge Discovery in Databases zusammengefasst. Knowledge Discovery in Databases ist, den Ausführungen von (Fayyad et al. 1996, 6) folgend, darauf ausgerichtet, zunächst in einem nichttrivialen Prozess Beziehungsmuster, wie z. B. Regelmäßigkeiten und Abhängigkeiten, in einem Datenbestand zu ermitteln und abzubilden. Diese Beziehungsmuster müssen für einen möglichst großen Anteil des Datenbestands Geltung haben und bislang unbekannte, potenziell nützliche und leicht verständliche Zusammenhänge in den Daten zum Ausdruck bringen. Aus den ermittelten Beziehungsmustern wird schließlich im Hinblick auf die mit dem Knowledge Discovery in Databases verbundene Aufgabenstellung explizites Wissen abgeleitet.

Big Data Analytics kann somit als Knowledge Discovery in Big Data verstanden werden (Begoli und Horey 2012, 215). Es umfasst dabei entweder die Analyse als eine einzelne Phase des Prozesses der Wissensentdeckung (Gandomi und Haider 2015, 140) oder, wie in den weiteren Ausführungen dargestellt, den gesamten Wissensentdeckungsprozess (Sun et al. 2015, 201; Hu et al. 2014, 656).

Die vorgenommene Einordnung von Big Data Analytics in das Gebiet der Datenanalyse ist in der Abbildung 3 zusammenfassend dargestellt.

Images

Abb. 3: Einordnung von Big Data Analytics in das Gebiet der Datenanalyse

Als Forschungsrichtung ist Big Data Analytics ein Teilgebiet von Data Science. Data Science »… ist eine interdisziplinäre Wissenschaft, die Methoden und Ansätze zur Auswertung unterschiedlichster Arten von Daten mit verschiedensten Mitteln bündelt.« (Stockinger und Stadelmann 2014, 472). Zu ihrer Entstehung und Weiterentwicklung haben insbesondere die Forschungsrichtungen Mathematik, Statistik und Informatik beigetragen (Grillenberger und Romeike 2018, 120). Aus diesen Forschungsrichtungen stammt eine Vielzahl von Theorien und Verfahren, die, ein geeignetes Wissen über den Anwendungsbereich vorausgesetzt, zur Analyse von Daten eines spezifischen Anwendungsgebiets, wie beispielsweise den Naturwissenschaften, Ingenieurwissenschaften oder Wirtschaftswissenschaften, herangezogen werden können (Freitag et al. 2015, 23).

2.3       Prozess

Big Data Analytics ist, wie auch (Gandomi und Haider 2015, 140; Emani et al. 2015, 72) ausführen, ein mehrere Phasen umfassender Prozess. Dieser Prozess ist zudem durch einen iterativen und interaktiven Ablauf gekennzeichnet (Labrinidis und Jagadish 2012, 2032 f.). So bestimmt der Anwender auf der Grundlage des Ergebnisses einzelner Phasen den weiteren Verlauf von Big Data Analytics. In diesem Verlauf können einzelne Phasen oder der gesamte Prozess erneut durchlaufen werden.

Das in der Abbildung 4 dargestellte Vorgehensmodell ist auf (Fayyad et al. 1996, 9 ff.) zurückzuführen und beschreibt den Prozess des Knowledge Discovery in Databases. Dieses Vorgehensmodell kann aufgrund des in den vorherigen Ausführungen aufgezeigten Zusammenhangs zwischen Knowledge Discovery in Databases und Big Data Analytics auch zur Beschreibung des Prozesses Big Data Analytics herangezogen werden.

Images

Abb. 4: Vorgehensmodell des Knowledge Discovery in Databases

Dementsprechend werden in den weiteren Ausführungen die das Vorgehensmodell des Knowledge Discovery in Databases umfassenden Phasen Auswahl (image Kap. 2.3.1), Aufbereitung (image Kap. 2.3.2), Festlegung (image Kap. 2.3.3), Analyse (image Kap. 2.3.4) und Interpretation (image Kap. 2.3.5) skizziert und die durch Big Data Analytics in diesen Phasen auftretenden Besonderheiten herausgestellt.

2.3.1      Auswahl

In der Auswahlphase wird die Ausgangslage des Knowlegde Discovery in Databases bestimmt. Hierzu werden die Aufgabenstellung und der Datenbestand des Knowlegde Discovery in Databases ausgewählt.

Ein Kennzeichen einer für das Knowlegde Discovery in Databases geeigneten Aufgabenstellung ist die Ausrichtung auf die Entdeckung und Explikation potenziell nützlichen Wissens. Diese Form des Wissens setzt voraus, dass das entdeckte und explizit gemachte Wissen anwendbar ist und die Entdeckung und Anwendung dieses Wissens effizient erfolgen.

Im Fall von Big Data Analytics mit einem Datenbestand, der zeitnah (velocity) verarbeitet werden muss, kann für die Anwendbarkeit des entdeckten und explizit gemachten Wissens eine Einbettung in die betrieblichen Abläufe und Entscheidungsvorgänge zusätzlich erforderlich sein (Lanquillon und Mallow 2015, 76).

Bei der Auswahl des Datenbestands ist zu prüfen, ob für die ausgewählte Aufgabenstellung geeignete Daten verfügbar und anwendbar sind.

Die Analyse von Big Data mit einem Datenbestand, der aus einer großen (volume) Menge an Daten oder einer Vielzahl unterschiedlicher (variety) Datenquellen besteht, kann das mögliche Problem verringern, dass die für die ausgewählte Aufgabenstellung geeigneten Daten nicht oder nicht ausreichend verfügbar sind.

Einschränkungen der Anwendbarkeit von Daten können sich aus z. B. rechtlichen Vorgaben ergeben. So unterliegt die Verarbeitung personenbezogener Daten im Rahmen des Knowledge Discovery in Databases den Einschränkungen der Gesetze und Richtlinien zum Datenschutz. Dabei entstehen Probleme im Hinblick auf beispielsweise das im Bundesdatenschutzgesetz festgelegte Prinzip der Zweckbindung. Dieses Prinzip erlaubt die Verarbeitung personenbezogener Daten ausschließlich zu dem Zweck, der bei der Erfassung der Daten vorgesehen oder nach den Umständen ersichtlich ist.