Hatten Sie schon Fälle, wo Firmen Daten fusioniert haben, obwohl das aus statistischer und marktforscherischer Sicht keinen Sinn ergeben hat?

Ja.

Also müssen Sie manchmal auch korrigieren?

Ja. Manchmal geht es auch schlicht darum, Datenlücken zu füllen. Da gibt es sehr gute methodische Ansätze. Vor allem, wenn man Datensätze zusammenführen möchte. Oft hat man einen Datensatz mit einer bestimmten Art von Variablen und in einem anderen Datensatz habe ich dieselbe Art von Variablen plus weitere. Die Aufgabe ist, über die gemeinsamen Variablen einen Schlüssel zu finden. Da muss man statistisch modellieren. Vereinfacht ausgedrückt: Männer im Alter zwischen 40 und 60 Jahren, mit grauen Haaren, die in einem bestimmten Viertel leben sind wahrscheinlich sehr ähnlich diesem einen statistischen Zwilling – da kann man aber auch sehr viel falsch machen.

Sie sprachen davon, Lücken zu füllen. Meinen Sie damit, Daten aus anderen Beständen zu übertragen, oder Daten zu interpolieren?

Sowohl als auch. Dass eine wäre die Imputation, das andere die Fusion. Imputation heißt, dass es in einem Datensatz Beobachtungen gibt, für die alle Informationen vorliegen und ich Lücken in diesem Datensatz statistisch auffülle. Bei Fusion gibt es keine Beobachtungen, für die wir alle Informationen vorliegen haben, wie bringen also zwei verschiedene Datensätze zusammen. Das sind anspruchsvolle wissenschaftliche Themen. Dazu gibt es ganze Doktorarbeiten. Wir arbeiten dabei mit unseren Experten bei GfK zusammen. Das kann man nicht Amateuren überlassen. Immer öfter hört man: Du hast ein Problem? – Dann mach doch Artificial Intelligence. Das ist aber nicht so einfach. Man braucht dafür Expertise. Es ist besorgniserregend, was hier passiert. Jeder ist plötzlich Experte für Artificial Intelligence und kann alles miteinander fusionieren. Das ist unseriös. Dafür braucht man einen wissenschaftlichen Hintergrund.

Das heißt, Sie dämpfen zu viel Euphorie und verzichten dafür auch auf Neugeschäft?

Bei uns gibt es keine halbgaren Lösungen. Wir sagen dem Kunden ehrlich, wenn etwas nicht funktioniert. Das ist ein Prozess, der mit Design Thinking anfängt. Wenn die Fragestellung klar ist, sagen wir nicht: Gib uns fünf Millionen und wir bauen dir was. Sondern wir fangen immer mit einem Prototyp an. Gib uns ein Daten-Sample, und wir sagen dir in einem überschaubaren Zeitrahmen, ob es überhaupt sinnvoll ist, weiterzumachen. Es kann zum Beispiel sein, dass Daten monatlich erhoben worden sind, der Kunde braucht sie aber wöchentlich. Dann würden wir eine Strategie empfehlen, wie der Kunde seine Datenlücken schließen kann und welche weiteren Variablen er braucht – und uns dann mit ihm ein Jahr später nochmal unterhalten.

Wie sieht ein Prototyp aus?

Unterschiedlich. Wenn wir die Fragestellung des Kunden kennen, können wir nicht sagen: Gib uns zwei Jahre Zeit, wir entwickeln dir das. Denn jedes Analyseprojekt ist ungewiss. Erst muss geprüft werden: Wie sind die Daten? Kann der Algorithmus die Informationen rausholen, die er braucht? Deshalb versuchen wir, ein Kommunikationsmittel zu schaffen, mit dem wir schnell visualisieren können, was passiert, wenn wir Daten und Algorithmus zusammenbringen. Anschließend können wir mit dem Kunden diskutieren, ob das passt. Vielleicht braucht der Kunde andere oder weitere KPIs? Gibt es neue Fragestellungen? Die Prototypen helfen, möglichst schnell beurteilen zu können, ob wir auf dem richtigen Weg sind.

Sie haben gesagt, dass Daten oft zu schlecht sind. Wie ist das bei großen Unternehmen? Sind Datensätze nicht oft einfach zu alt?

Auch. Da gibt es viele Probleme. Daten bringen eigentlich immer eine Herausforderung. Eine Datenbank, die ich direkt verwenden kann, habe ich noch nicht gesehen. Es gibt Doubletten, fehlende Informationen, manches ist auf verschiedene Datenbanken verteilt und es gibt keinen gemeinsamen Schlüssel, die Variablen wurden irgendwann migriert und der Name ist nicht mehr derselbe und ich weiß nicht mehr, was zu was gehört. Das alles ist eher die Regel als die Ausnahme. Deshalb besteht in einem solchen Projekt ein großer Teil der Arbeit aus Data Exploration. Nach einer Phase des Design Thinking folgt die Data Exploration.

Was bedeutet das?

Wir schauen in die Daten. Danach kann zum Beispiel die Erkenntnis stehen: Du hast zwar ein CRM, aber 90 Prozent der Daten müssen wir wegwerfen, weil wir keine ID zuordnen können, weil wir nicht wissen, wer dahintersteht oder weil Variablennamen keinen Sinn ergeben. Oder weil negative Zahlen beim Absatz stehen. Auch das ist eine Erkenntnis. Und es ist unabhängig davon, ob das große oder kleine Unternehmen sind. Wenn man Daten nicht als Produkt managt, dann wird irgendwann ein Data Dump daraus. Man haut alles rein und merkt zum Beispiel in ein paar Jahren, dass alle Variablen immer den gleichen Namen hatten.

Wie Data Scientists Hand in Hand mit Designern, Technikern, Statistikern, Consultants, Softwareingenieuren und Projektmanagern zusammenarbeiten, lesen Sie in der W&V Nr. 49.

Teil 1: Daten-Integration

Teil 2: Social Media

Teil 3: Tools

Teil 4: Künstliche Intelligenz


Autor: Rolf Schröter

Rolf Schröter ist Chefredakteur der W&V und interessiert sich nicht nur deshalb prinzipiell für alles Mögliche. Ganz besonders für alles, was mit Design und Auto zu tun hat. Auch, wenn er selbst gar kein Auto besitzt.