Der Begriff „Big Data“ steht für große, oft aus unterschiedlichen Quellen stammende und zusammengeführte Datenmengen (bspw. Datenbanken mit sich ergänzenden Inhalten, jedoch auch textbasierte Daten wie E-Mail, Webseitentexte, Office-Dokumente etc.). Unter dem Begriff werden zudem Verfahren zur Auswertung der Daten subsumiert (bspw. Data-Mining und Text-Mining). Derartige Anwendungen sind möglich geworden durch die kontinuierlich steigenden Speicher- und Rechenkapazitäten moderner Computersysteme und die dadurch ermöglichte, in immer größerem Umfang erfolgende Sammlung von Daten.

Mit dem kontinuierlich steigenden Umfang auswertbarer Daten steigt auch die Bedeutung der Daten für die Wirtschaftlichkeit und Wettbewerbsfähigkeit von Unternehmen. So werden Daten bereits als vierter Produktionsfaktor neben Arbeitskraft, Kapital und Rohstoffen genannt. Trotz der noch frühen Marktphase von Big Data-Verfahren bieten sich aus unternehmerischer Sicht bereits erste reale Möglichkeiten und Chancen für einen nutzbringenden Einsatz, von der Marktforschung und Verkaufsförderung bis zu Risikomanagement- und Compliance- Maßnahmen. Zu Letztgenannten gehören u.a. Verfahren zur Entdeckung von Unregelmäßigkeiten in Finanztransaktions- und Buchungsprozessen.

Maßgeblich für den Erfolg von Big Data-Auswertungen ist die fachliche und technische Konzeption der Auswertungsverfahren sowie eine damit einhergehende Analyse der verfügbaren Datenstrukturen. Basierend darauf werden die Potentiale der verfügbaren Daten im Hinblick auf die Branche und die individuellen Ziele des Unternehmens bewertet und geeignete Verfahren zu ihrer Nutzung entwickelt.

Big Data und Data-Mining

Ein besonders geeignetes Verfahren für die Auswertung von Big Data ist, neben konventionellen datenbankbasierten Verfahren, das „Data-Mining“. Ziel des Data-Minings ist es, in bestehenden Daten durch den Einsatz von Computer-Algorithmen automatisiert neue, bislang unbekannte Muster und Zusammenhänge zu erkennen. Die Herangehensweise unterscheidet sich von der konventionellen Datenanalyse dadurch, dass bei letzterer die Datenmuster entweder schon bekannt sein oder durch einen Analysten manuell herausgearbeitet bzw. definiert werden müssen. An dieser Stelle wird im Data-Mining ein anderer Arbeitsansatz verfolgt, indem die eingesetzten Programme den Analysten bei der Erkennung der Muster unterstützen und bisweilen Muster aufgezeigt werden, die nach konventioneller Vorgehensweise wahrscheinlich unerkannt geblieben wären. Dies erklärt die Eignung dieser Verfahren zur Unterstützung von IT-Compliance und IT-Risikomanagement. Charakteristisch für diese Bereiche ist gerade die Erkennung von (dolosen) Verhaltensmustern, welche von den handelnden Personen zu verschleiern versucht werden. Data-Mining wird hier bspw. eingesetzt, um eine missbräuchliche Nutzung von Kreditkarten oder E-Mail-Accounts automatisiert zu erkennen.

Von zentraler Bedeutung für das Data-Mining ist die korrekte Parametrisierung der Analysealgorithmen. Die Suche nach Auffälligkeiten in den für Big Data charakteristischen großen Datenmengen ist vergleichbar mit der Suche nach der Nadel im Heuhaufen. Um auch verschleierte Unregelmäßigkeiten aufspüren zu können, müssen die Suchalgorithmen sehr fein granular eingestellt werden. Dies führt schnell zur Anzeige von Auffälligkeiten, die zwar die mathematischen Parameter erfüllen, tatsächlich aber nicht von Relevanz sind (sog. „false positives“). Ziel ist es, durch eine optimale Feinjustierung der Suchparameter alle relevanten Suchergebnisse zu erhalten, gleichwohl aber die Anzahl von „false positives“ zu minimieren.

DATENSCHUTZ

Wenn bei der Anwendung von Data-Mining auf Big Data-Modellen personenbezogene Daten verarbeitet werden, sind die einschlägigen datenschutzrechtlichen Vorschriften, insbesondere des Bundesdatenschutzgesetzes (BDSG), einzuhalten. Dass Verstöße gegen datenschutzrechtliche Vorschriften mit Bußgeldern in teils erheblicher Höhe belegt werden können, tritt für die verantwortlichen Entscheider gegenüber dem zumeist als wesentlich größer erachteten Risikopotential aus Imageschäden oft in den Hintergrund. Das BDSG gilt nur für die Verwendung personenbezogener Daten. Ist ein Ausschluss von Daten mit Personenbezug aus den Big Data-Modellen möglich, lässt sich der Aufwand für deren Analyse deutlich reduzieren, da die Vorschriften des BDSG nicht mehr einschlägig sind. Der aus dem Data-Mining erwachsende Informationsgewinn und die damit verbundenen unternehmerischen Chancen können folglich bei einem Verzicht auf die Nutzung personenbezogener Daten mit deutlich geringerem Aufwand realisiert werden. Als Folge daraus gewinnt eine sorgfältige Vorbereitung der Datenanalyse erheblich an Bedeutung. Im Mittelpunkt dessen steht nicht zuletzt die Frage, ob das mit der geplanten Datenauswertung verbundene Ziel nur unter Verwendung personenbezogener Daten erreicht werden kann oder ob eine Auswertung mit anonymen Daten zielführend möglich ist.

Führt die Vorbereitung und Konzeption der Datenauswertung zu dem Ergebnis, dass aus der Nutzung personenbezogener Daten gegenüber anonymen Daten ein maßgeblicher Informationsgewinn realisierbar ist, so sind dessen wirtschaftlicher Nutzen und der mit der Umsetzung der Auswertungen verbundene Aufwand für Datenschutzmaßnahmen gegeneinander abzuwägen; denn mittels einer sorgfältigen, datenschutzkonformen Gestaltung können auch Auswertungen personenbezogener Daten zulässig sein. Dabei ist jedoch besonderes Augenmerk darauf zu lenken, dass gerade bei der Durchführung von personalisierten Auswertungsverfahren mit Big Data dem Thema Datenschutz eine sensible, in der breiten Öffentlichkeit sehr deutlich wahrgenommene Bedeutung zukommt. Dieser Umstand kann gleichwohl von Unternehmen als Chance begriffen werden, indem offensiv mit der Umsetzung von Datenschutz- und Datensicherheitsmaßnahmen geworben wird.

Gerne stehe ich für weitere Fragen persönlich zur Verfügung: