Das Foto zeigt wie Marco von CorrelAid an einem Datensatz arbeitet.

„Es sollte verständlich sein, aber es wird nicht immer vollständig sein.“ 

Die Analyse von Millionen von Daten bietet viele Möglichkeiten für den Journalismus. Wie nutzt man das Potenzial ohne Fehlinterpretation zu provozieren? Im Interview geben Marco und Zoé von CorrelAid Konstanz Einblick in den richtigen Umgang mit Datensätzen.
Wiebke ist Journalistin aus Leidenschaft. Gemeinsam mit Michael leitet…

Marco Lax und Zoé Wolter gehören zum Local Chapter von CorrelAid e. V. in Konstanz. Gemeinsam mit etwa 20 anderen widmen sie sich Datenprojekten in der Region. CorrelAid wurde 2015 als überparteiliches, gemeinnütziges Netzwerk von Data-Science-begeisterten Menschen in Konstanz gegründet.

karla: Was ist der spannendste Datensatz, in dem ihr bisher gearbeitet habt oder noch arbeiten werdet?

Marco: Bei mir sind es die Daten über die Stolpersteine in Konstanz. Bevor ein Stolperstein gesetzt wird, wird immer so viel wie möglich über die Person recherchiert. Wo hat die Person gewohnt, was waren ihre Stationen in der Verfolgung? Wohin ist sie geflüchtet? Was war ihr Beruf? Und das liegt halt bisher auf einem lokalen PC gespeichert. Aus diesen Biografien erstellen wir einen Datensatz, um sie für künftige Generationen aufzubewahren. Am Ende ist es zwar eine große Datenmenge mit 250 Einträgen über die Personen, aber es sind halt Einzelschicksale. Das finde ich schon immer sehr spannend bei Daten, dass hinter jedem Datenpunkt jemand steht. Da merkt man, wie nah einem Daten auch persönlich kommen können.

<!– Paywall –>

Zoé: Bei mir ist es ein ganz kleiner süßer Datensatz aus Konstanz. An der Fahrradbrücke steht doch die Fahrradzählstelle und der Datensatz ist auf dem Open-Data-Portal der Stadt. Das ist ein recht kleiner, übersichtlicher Datensatz, wo drinsteht, wie viele Leute da jeden Tag stündlich vorbeigefahren sind. Das sind Daten, die man selbst sammelt, Daten, die uns allen irgendwie gehören, und dann sieht man, dass sie in einem Datensatz landen.

karla: Was ist eigentlich Data Science?

Marco:  Data Science besteht immer aus mehreren Teilen, ist also interdisziplinär. Für Datenjournalismus zum Beispiel brauche ich Journalismus, das recherchierte Wissen über die Thematik und die Skills für die Datenverarbeitung wie grundlegende Programmier-Skills, um solche Daten zu visualisieren. Wenn ich diese Einzelteile dann kombiniere, ergibt das eigentlich die Data Science – weil ich es mit Fachwissen und Datenverarbeitungsskills schaffe, Informationen so aufzuarbeiten, dass sie verständlich sind

Zoé: Unter Data Science stellt man sich immer sowas Abstraktes vor, aber letztlich ist es das gar nicht. Man braucht nicht die absurdesten Coding-Skills, auch eine einfache Tabelle kann schon Data Science sein.

karla: In eurer Mission auf der Website steht, ihr wollt die Welt mit eurer Arbeit zu einem besseren Ort machen. Wie wollt ihr das mit Daten erreichen?

Zoé: Das tun wir, indem wir anderen Non-Profit-Organisationen helfen. Die wissen wiederum, wie sie die Welt in ihrem eigenen Bereich besser machen können. Wir helfen den Organisationen, ihre Arbeit effizienter und besser zu machen, indem wir ihre Datenpotentiale unterstützen und ihnen helfen, sie zu nutzen.

karla: Was sind denn gute und was schlechte Daten?

Marco: Pauschal lässt sich das nicht sagen, weil Daten immer aus einer Perspektive betrachtet werden müssen. Wenn ich Beiträge in einem Reddit-Forum analysiere, um damit Aussagen über alle Jugendlichen zu treffen, sind das schlechte Daten. Weil ich auf Reddit vor allem junge Männer habe, die dort kommunizieren. Wenn ich jetzt aber gucken will, wie verhalten sich junge Männer in dieser Generation bei solchen Themen, dann ist das wiederum ein besserer Datensatz. Es hängt also immer viel vom Blickwinkel auf die Daten ab. Von inkonsistenten Daten sollte man aber generell die Finger lassen.

Auf der Open Data Plattform der Stadt liegen viele Daten. Die wurden bisher nicht gezielt analysiert und hinterfragt. Das wollen wir ändern. Gemeinsam mit der Stadt Konstanz, CorrelAid e. V., cyberLAGO e. V. und hacKNology e. V. gehen wir von karla lokalen Fragestellungen bei unserem Open Data Hackathon nach. Und auch ihr könnt teilnehmen. Eingeladen sind Schüler:innen, Studierende, Beschäftigte im Bereich IT und alle Interessierte am Thema Open Data und Hacking. Der Open Data Hackathon findet am 16. und 17. Dezember 2022 im Ratssaal des Konstanzer Rathauses statt.

karla: An wen richtet sich CorrelAid? Erstens zum Mitmachen und zweitens, wem bietet ihr eure Leistungen an?

Zoé: Mitmachen kann jede:r, den:die es interessiert. Das Wichtigste: Man muss nicht groß coden können oder andere Vorerfahrungen haben. Grundsätzlich ist unser Ziel ja auch, dass man in den Projekten noch etwas lernt. Es reicht also, wenn man sich für Daten interessiert und Lust darauf hat – dann kann jede:r mitmachen. Unsere Leistungen richten wir an andere Organisationen, überwiegend kleinere und gemeinnützige Organisationen.

karla: Was für Projekte sind das? Könnt ihr mal ein Beispiel nennen?

Marco: Für den Bee Observer haben wir Sensordaten aus Bienenstöcken analysiert. Die Sensoren erfassen Daten wie die Luftfeuchtigkeit und das Gewicht des Bienenstocks. Die Daten haben wir analysiert, um Abweichungen im Bienenstock zu erkennen. Dadurch wissen die Imker:innen früher oder zuverlässiger, ob es den Bienen auch gut geht.

Zoé: Ein anderes Projekt haben wir mit der Plattform Frag den Staat, über die jede:r Anfragen an Behörden stellen kann. Anhand der Metadaten lässt sich erkennen, wie lange eine Behörde braucht, um zu antworten. Und dafür wird gerade ein Dashboard erstellt, um das einfach zu visualisieren.

karla: Was begeistert euch an der Arbeit mit Daten?

Marco: Mich fasziniert es, Strukturen zu erkennen. Ich studiere Politik und Verwaltung und finde es manchmal anstrengend, über theoretische politische Konzepte zu reden. Interessant ist für mich die Frage, wie ich aus Daten einen Mehrwert generieren kann, um eine bessere politische Entscheidung zu treffen.

Zoé: Ich finde es spannend, Zusammenhänge oder Beziehungen zu finden, die nicht offensichtlich sind. Die dann vielleicht auch überraschen, weil man sie erst in den Daten findet.

karla: Aber findet man denn auch immer etwas?

Zoé und Marco: Nein (lachen). 

Marco: Man muss ja auch vorsichtig sein, wenn man etwas findet. Dass die Daten korrekt sind, ich sie nicht fehlinterpretiere und die passende Methodik benutze. Es sind viele Aspekte, die man sich anschauen muss. 

Das Foto zeigt Wiebke mit Zoé und Marco von CorrelAid im Interview
Ko-Redaktionsleiterin Wiebke (links) mit Zoé und Marco von CorrelAid im Interview. Foto: Jehona Miftari

karla: Zum Thema Methodik: Wie geht ihr denn generell an so einen Datensatz heran?

Zoé: Ich würde sagen, man sollte die Daten erstmal verstehen. Also welche Variablen sind da drin? Bei einer Umfrage muss ich wissen, wer befragt wurde und was die Beobachtungseinheit ist.

Marco: Verteilungen in Datensätzen sind natürlich auch wichtig. Ein Beispiel: Wenn ich Rückschlüsse von Daten auf eine Bevölkerung ziehen möchte, muss ich mir unter anderem die Altersverteilung in einem Datensatz anschauen. Wenn in den Daten nur ältere Personen sind, dann muss ich das natürlich berücksichtigen und darf keine Schlussfolgerungen auf die Gesamtbevölkerung ziehen.

karla: Und wenn ich die Daten dann verstanden habe …

Zoé: Dann kommt die Bereinigung von Fehlern oder fehlenden Werten. Häufig werden diese mit 99 oder so codiert, damit kann man natürlich rechnen, aber man hat dann im Nachhinein ein Problem damit. Wichtig ist auch der Datentyp, also dass mit Zahlen als Daten auch als Zahlen gerechnet wird und sie von dem Programm nicht als Text verstanden werden. 

Marco: Die nächsten Schritte wären für mich, auch Struktur reinzubringen. Muss ich vielleicht Sachen neu zuordnen? Ist die Benennung konsistent, nicht nur von der Variablen her, sondern auch bezogen auf den Inhalt?

Karla: Das klingt jetzt erstmal, als würde es relativ viel Vorarbeit geben, bevor man richtig in die Analyse gehen kann …

Zoé: Also ich sag immer: 80 Prozent Datenbereinigung, 20 Prozent der Teil, der Spaß macht.

Marco: Da hat man auch viele Entscheidungen, zum Beispiel bei der Kategorisierung von Themen. Wenn ich in einem Datensatz zehn verschiedene Kategorien habe, ist es schwierig, das visuell fürs Auge darzustellen. Breche ich das runter? Wenn ja, wie bringe ich die Variablen zusammen, dass es Sinn ergibt? Treffe ich damit nicht falsche Aussagen, wenn ich da etwas zusammen mixe? Das sind alles Entscheidungen, die ich treffen muss, bevor ich mit der Visualisierung der Daten beginnen kann.

karla: Und wenn die Daten dann endlich so sind, dass man sie analysieren kann, wie geht ihr dann vor?

Marco: Ich brauche am besten eine These oder Fragestellung, die ich anhand der Daten beantworten möchte. Und ein Endprodukt, das ich haben möchte – zum Beispiel eine Visualisierung. Dann entscheide ich mich für Methodiken zur Analyse oder vielleicht auch einfach nur für beschreibende Analysen. Ich kann die Daten ja auch nur aufzeigen und will vielleicht gar nichts vorhersagen.

Zoé: Ich würde mir dann auch überlegen, will ich irgendein Modell anwenden? Kann ich die Daten clustern oder klassifizieren? Oder möchte ich einfach nur eine Zeitveränderung visuell darstellen?

Marco: Wenn ich diese Entscheidungen getroffen habe, probiere ich es erstmal aus. Sind das Modell und meine Klassifizierung gut? Ich kann in der Analyse auch immer Schritte vor und zurück gehen, bis ich mein Endprodukt habe.

karla: Ist das Endprodukt dann für alle verständlich, die die Datensätze nicht verstanden haben?

Marco: Es sollte verständlich sein, aber es wird nicht immer vollständig sein. Und das muss man halt dann wiederum beachten, dass man das sozusagen mit in Betracht zieht. Man sollte immer im Auge behalten: Was habe ich weggelassen und welche zusätzlichen Informationen braucht der Betrachter noch.

karla: Gerade dieses Weglassen ist ja ein großes Thema, auch im Journalismus. Durch das Weglassen bestimmter Informationen lenkt man ja die Auswertung in eine bestimmte Richtung…

Zoé: Das ist so, ja.

Marco: Wichtig ist, dass man sensibel ist, wie man die Auswertung rahmt. Ich muss die Komplexität der Realität ja herunterbrechen. Aber es ist wichtig, sie so herunterzubrechen, dass sie keine Falschaussagen enthalten. 

Zoé: Wenn man sich nur einen Teil der Daten anschaut und visualisiert, sollte man immer begründen, warum man diese jetzt ausgewählt hat. Das kann sein, weil es bei denen einen Effekt gab und bei anderen eben nicht. Transparenz ist hier sehr wichtig. 

karla: Welche Risiken lassen sich daraus ableiten? Fehlinterpretationen, Fake News? Ist euch bewusst, dass man Daten auch für falsche Zwecke nutzen kann?

Marco: Ja und deshalb ist Transparenz und Kommunikation immer wichtig.

Zoé: Und das Ganze auch in den Kontext einzubetten. Also sich jetzt nur Daten anzuschauen und gar nicht mitzudenken, was der Kontext für eine Umfrage war, das ist dann immer schwierig. Sowas sollte man berücksichtigen und auch kommunizieren. 

Marco: Das ist ja in der Forschung nichts anderes. Ich versuche immer Erkenntnisse zu bekommen, habe aber natürlich auch gewisse Limitationen. Genauso ist es bei den Daten. Da ist das Wichtigste, das bei den Leuten, mit denen wir zusammenarbeiten, offen und ehrlich zu kommunizieren. Wenn Personen das wissen, dann kann man sensibler handeln.

karla: Wir kooperieren ja auch für einige datenjournalistischen Themen. Was macht ihr dabei anders als bei der Auswertung für Imker?

Zoé: Gerade bei dem Bee Observer Beispiel weiß man einfach, was rauskommt. Da soll eine App herauskommen, die Alarm schlägt. Bei den datenjournalistischen Themen ist es eher ein explorativer Ansatz. Man weiß vorher noch gar nicht so richtig, welche Geschichte sich hinter den Daten verbirgt, und will die erstmal finden.

karla: Was glaubt ihr, was für Möglichkeiten Daten in dieser Hinsicht auch für den Journalismus bieten?

Marco: Daten waren ja schon immer ein Teil von Journalismus. Ein gutes Beispiel ist der Sportjournalismus, wo man angefangen hat, Statistiken zu machen und zu schauen, wer eigentlich das bessere Team war. Dafür hat man Torchancen und Zweikampfquoten gesammelt. Mittlerweile gibt es aber viel, viel größere Datenmengen, die genutzt werden können. Dadurch können Journalist:innen heute viel größere Zusammenhänge recherchieren und aufzeigen. Ich kann mir jetzt nicht nur eine Person angucken, sondern aus Daten, die über viele Jahre gesammelt wurden, die Bevölkerung von 20 Ländern oder in Offshore-Papern Millionen Einträge vergleichen.

Karla: Welche Rolle spielt der Datenschutz beziehungsweise kann man überhaupt so richtig datenschutzkonform in Daten wühlen?

Zoé: Datenschutz haben wir ja nur bei personenbezogenen Daten und nicht alle Daten sind personenbezogen. Man muss immer aufpassen, dass der Datenschutz einen nicht komplett abschreckt, dass man gar nichts mehr mit den Daten macht. Wichtig ist eine Balance, um schon etwas mit den Daten zu machen, aber so, dass der Datenschutz gewährleistet ist. Personenbezogene Daten haben wir zum Beispiel beim Bike Sensor Projekt, das den Abstand von Fahrradfahrern bei Überholvorgängen misst. Überholvorgänge sind an sich erstmal nichts Personenbezogenes, aber wenn jemand immer wieder die gleichen Fahrradstrecken hat, kann ich natürlich Rückschlüsse darauf ziehen, wo jemand wohnt und arbeitet. Solche Daten muss ich anonymisieren, indem ich Ballungen von Datenpunkten – die mir zeigen, dass die Person dort zuhause sein könnte – wegfallen lasse. Bei diesen Daten ist der 100-Meter-Umkreis vom Startpunkt nicht einsehbar, sodass man keinen Startpunkt einsehen kann. 

Karla: Was sind die ethischen Grundsätze bei eurer Arbeit?

Marco: Also das Wichtigste ist die Transparenz. Dann habe ich noch die Verantwortung, zu wissen, mit was man da umgeht, und dass man nicht bewusst Falschaussagen trifft.

Zoé: Man sollte sich vorher auch Gedanken machen, was für Auswirkungen eine Analyse haben könnte.

karla: Danke für den spannenden Einblick in eure Arbeit.