Digitales Leben 7. November 2013

DDJ: Erst die Daten, dann das Vergnügen

by Christian Jakubetz

Natürlich sieht es meistens toll aus, wenn man aus Daten eine gute, umfangreiche und interaktive Geschichte gebaut hat: Bevor es soweit ist, steht wie immer im Journalismus die Recherche. Allerdings eine der ganz besonderen Art: Wo bekommt man überhaupt die ganzen Zahlen her, die man für ein Projekt braucht? Dritter Teil unserer Serie über Datenjournalismus – heute mit dem Thema: Daten recherchieren.

Der Name verrät es schon: Ohne Daten  – kein Datenjournalismus. Die richtigen, wertigen, guten und umfangreichen Daten sind also Grundvoraussetzung, um überhaupt irgendwelche Projekte starten zu können. Doch wo bekommt man sie her? Und, womöglich genauso wichtig: Wie strukturiert man einen enorm großen Datensatz so, dass am Ende eine brauchbare Information extrahiert ist? Die wichtigsten Quellen, Recherchemöglichkeiten und Tipps zur Aufarbeitung im Überblick:

Datenbanken

Es ist meistens nicht so, dass man sich die Daten in hartnäckiger und monatelanger Recherche zusammensuchen muss. Oft reicht es aus zu wissen, wo man nachschauen muss. Datenbanken im Netz können da eine wahre Fundgrube sein. Das Projekt, bei dem “sueddeutsche.de” die Lebensverhältnisse der Menschen in Europa verglich, basierte auf den Zahlen von “Eurostat”. Weder versteckt noch passwortgeschützt, sondern für jedermann einsehbar. Behörden, die sich mit Statistik befassen, sind also immer ein guter Einstieg. Solche Stellen gibt es auf nahezu jeder Ebene. Angefangen von Gemeinden und Landkreisen über Bundesländer und den Bund bis eben hin zu Eurostat, fast nirgendwo mehr lässt sich das Leben nicht eben auch in Zahlen darstellen.

Pressestellen

Selbst da, wo man nicht sofort auf eine offene Datenbank im Netz zugreifen kann, liegen Zahlen trotzdem oft vor.  Vielleicht nicht gleich als Datenbank, aber dennoch in einem Format, mit dem sich arbeiten lässt. Einen Anruf ist es auf jeden Fall meistens wert.

Scraping

Natürlich ist die Datenbank der Wunschtraum für jeden, der mit Daten arbeitet. Oder irgendein anderes maschinenlesbares Format. Das aber ist leider nicht immer der Fall. In einem solchen Fall müssen die Zahlen in ein solches Format gebracht werden. Dazu eignen sich CSV- oder Excel-Tabellen. Woraus man allerdings auch ablesen kann, dass jeder, der sich mit Datenjournalismus beschäftigt, irgendwann auch mal wenigstens grundlegende Fähigkeiten mit einem Tabellen- oder Kalkulationsprogramm benötigt. Vorsicht übrigens bei PDF-Dateien: Technisch betrachtet sind sie meistens nichts anderes als Bilder, für Kalkulationsprogramme also ungeeignet. Hilfreich sind dann entweder Texterkennungsprogramme, sogenannte OCR-Programme oder Software wie “Photoshop”, mit der man einzelne Seiten als JPG abspeichern kann.

Was man mit Daten machen kann

Das große Interesse am Thema Datenjournalismus hat einen Hintergrund, der mit Medien und Journalismus nur sehr bedingt zu tun hat: Im Zuge der Digitalisierung der Welt entstehen inzwischen tagtäglich an den unterschiedlichsten Stellen der Welt Daten in einer Menge, wie man sich das bisher nicht vorstellen konnte. Aufgrund dieser enormen Mengen spricht man inzwischen auch von “Big Data”.

Daten gibt es im digitalen Zeitalter in einer nie gekannten Menge. Die Frage ist demnach: Wie kommt man an sie heran - und was macht man daraus? (Foto: Markus Vogelbacher  / pixelio.de)
Daten gibt es im digitalen Zeitalter in einer nie gekannten Menge. Die Frage ist demnach: Wie kommt man an sie heran – und was macht man daraus? (Foto: Markus Vogelbacher / pixelio.de)

Ungeordnet und unstrukturiert kann man mit diesen Zahlenmassen zunächst natürlich nicht viel anfangen. Sortiert und mit Algorithmen versehen liefern sie hingegen enorm viele Informationen. Immer mehr Unternehmen, aber auch Organisationen und Institutionen gehen deshalb mittlerweile dazu über, “Big Data” für ihre Zwecke zu nutzen. Aus großen Datensätzen lassen sich nicht etliche Informationen über das Hier und Jetzt gewinnen, sondern zudem auch zuverlässige Prognose über die Zukunft ableiten. Bei Großkonzernen bestimmen solche Algorithmen bereits heute schon zu einem Teil beispielsweise die Mengen an Waren, die man zu einem bestimmten Anlass an bestimmten Tagen einkauft. In den USA wird “Big Data” zur Verbrechensbekmäpfung eingesetzt. Aus Datemsätzen lassen sich Prognosen über die zu erwartende Häufigkeit von Straftaten in bestimmten Regionen vorhersagen. Die Erfolgsquote liegt in einem signifikanten Bereich und ist weit davon entfernt, dass man diese Erfolge auf Zufallsfaktoren schieben könnte.

“Big Data” hat natürlich zwei Seiten: Neben den unbestreitbaren Vorzügen gibt es auch Risiken. Kritiker befürchten, dass solche enormen Datenmengen letztendlich zum “gläserenen Bürger” führen, der den Einflussnahmen von Staat und Konzernen hilflos ausgesetzt ist.

Schwerpunkt Datenjournalismus

In diesem Schwerpunkt “Datenjournalismus” beschäftigen wir uns mit den wichtigsten Entwicklungen, den Grundlagen, Praxiserfahrungen und Tipps für diese neue Variante des digitalen Journalismus. Bisher erschienen:

Für Journalisten haben die neuen Datenströme zwei Aspekte. Zum einen können – wie oben beschrieben – aus sehr großen Datensätzen relevante und neue Informationen gewonnen werden. Zum anderen lassen sich mit multimedialen und interaktiven Darstellungsformen auch Möglichkeiten der Aufbereitung und Visualisierung produzieren, die bisher undenkbar waren und über die Möglichkeiten der guten, alten Infografik weit hinausgehen.