Open Data ist mehr als ein Datensatz

  • Aus den Projekten
Ein abstraktes Bild in Rosa und Gelb, das ein Büro zeigt, in dem Menschen arbeiten, sich unterhalten und umhergehen. Über ihren Köpfen schweben Wolken aus Netzwerkverbindungen. Es wurde mit Gouache gemalt und mit Bleistift gezeichnet.
  • Jamillah Knowles & Digit / betterimagesofai.org / CC BY 4.0

Überall werden Daten gesammelt – in Spreadsheets, Datenbanken, geteilten Dokumenten. Aber wie werden aus gesammelten Daten offene Daten? Und warum sollte man sich die Mühe machen? Ein Gastbeitrag von Johannes Filter vom Projekt TimeTiles.

Menschen sammeln ständig Daten. Nicht nur Behörden oder Forschungseinrichtungen, sondern Journalist*innen, Aktivist*innen, Vereine, Nachbarschaftsinitiativen und engagierte Einzelpersonen. Wer eine Liste führt - von Vorfällen im Viertel, von politischen Ereignissen, von Preisänderungen oder von etwas, das sich über die Zeit verändert -, sammelt Daten.

Das Werkzeug der Wahl ist dabei fast immer dasselbe: eine Tabelle. Microsoft Excel und Google Sheets sind die stillen Helden der Datensammlung. Sie sind niedrigschwellig, flexibel und benötigen keine Programmierkenntnisse. Man öffnet ein leeres Blatt, legt Spalten an - Datum, Ort, Beschreibung, Quelle – und fängt an. Für die meisten Datensammlungen ist das der natürliche Startpunkt. Spreadsheets sind universell verständlich, sie erlauben Kollaboration und sie erzwingen gerade genug Struktur, um Daten halbwegs konsistent zu halten.

Viele der wichtigsten zivilgesellschaftlichen Datensammlungen in Deutschland haben so angefangen. Chroniken rechter Gewalt, Dokumentationen von Polizeivorfällen, Sammlungen von Gerichtsentscheidungen oder Umweltdaten – bevor sie auf einer Website oder in einer Datenbank landeten, waren sie eine geteilte Tabelle.

Warum selbst Daten sammeln?

Man könnte fragen: Ist das nicht die Aufgabe von Behörden, Statistikämtern oder Forschungseinrichtungen? Teilweise schon. Aber es gibt viele Themen, zu denen keine offiziellen Daten existieren – oder zu denen die vorhandenen Daten lückenhaft, veraltet oder schwer zugänglich sind.

Ein Beispiel: In Deutschland gibt es keine zentrale, frei zugängliche Statistik zu Polizeischüssen. Wer wissen will, wie oft die Polizei von der Schusswaffe Gebrauch macht, ist auf zivilgesellschaftliche Recherchen angewiesen, die Informationen aus Presseberichten, parlamentarischen Anfragen und anderen Quellen zusammentragen.

Solche Lücken gibt es in vielen Bereichen. Und sie zu füllen, ist nicht nur Aufgabe großer Institutionen. Wer Informationen systematisch sammelt, schafft damit potenziell einen offenen Datensatz – auch ohne offiziellen Auftrag. Die entscheidende Frage ist: Was passiert danach mit diesen Daten?

Von der Tabelle zum offenen Datensatz

Hier beginnt die eigentliche Arbeit. Daten in einem Spreadsheet zu sammeln, ist vergleichsweise einfach. Sie so aufzubereiten, dass andere sie verstehen und weiterverwenden können, ist deutlich aufwendiger.

Ortsangaben wie „in der Nähe von Stuttgart" müssen zu Koordinaten werden. Zeitangaben benötigen ein einheitliches Format. Kategorien, die für die Sammelnden selbstverständlich sind, müssen dokumentiert werden. Und Fehler oder Inkonsistenzen, die in einer internen Tabelle kaum auffallen, werden problematisch, sobald Dritte mit den Daten arbeiten.

Diese Arbeit ist mühsam und oft unsichtbar. Aber genau hier entscheidet sich, ob aus einer privaten Sammlung ein öffentlich nutzbarer Datensatz wird.

Die Grenzen des Spreadsheets

So gut Tabellen als Einstiegswerkzeug sind, irgendwann stoßen sie an ihre Grenzen. Wer tausende Einträge auf einer Karte darstellen oder eine durchsuchbare Chronik aufbauen möchte, merkt schnell: Die Tabelle allein reicht nicht mehr.

Excel und Google Sheets sind Werkzeuge zum Sammeln und Sortieren – nicht zum Veröffentlichen und Visualisieren. Für den Schritt von der Tabelle zur interaktiven Karte oder filterbaren Übersicht braucht es zusätzliche Infrastruktur. Wer keine Programmierkenntnisse hat, landet dabei häufig bei proprietären Plattformen. Diese sind oft kostenpflichtig oder hosten die Daten auf fremden Servern – beides kann problematisch sein, wenn Unabhängigkeit und Datensouveränität wichtig sind.

Was fehlt, sind Brücken zwischen der Welt der Tabellen und der Welt der Veröffentlichung. Werkzeuge, die eine CSV-Datei oder eine geteilte Tabelle nehmen und daraus etwas Nutzbares machen: eine Karte, eine Zeitleiste, eine durchsuchbare Übersicht – als Open-Source-Software, die man selbst betreiben kann.

Open Data braucht offene Werkzeuge

Im Open-Data-Diskurs geht es häufig um Lizenzen und Formate. Weniger diskutiert wird die Frage der Werkzeuge. Wenn die Daten offen sind, die Software zu ihrer Nutzung aber nicht, entsteht ein neues Abhängigkeitsverhältnis.

Dabei gibt es leistungsfähige offene Infrastruktur. OpenStreetMap stellt frei nutzbare Geodaten bereit. MapLibre ermöglicht interaktive Karten ohne Bindung an kommerzielle Anbieter. Und es existieren zahlreiche Open-Source-Projekte im Bereich Datenvisualisierung.

Was häufig fehlt, ist die Integrationsschicht: Werkzeuge, die diese Bausteine so kombinieren, dass sie auch ohne tiefgehende technische Kenntnisse nutzbar werden. Genau an dieser Stelle setze ich mit dem Projekt TimeTiles an, das ich im Rahmen meiner Förderung durch den Prototype Fund entwickle. Ziel ist eine modulare, selbst hostbare Software, die den Weg von einer Tabelle zu einer interaktiven Chronik mit Orts- und Zeitbezug vereinfacht – auf Basis offener Infrastruktur.

Es fängt mit einer Tabelle an

Unabhängig von konkreten Tools bleibt der wichtigste Schritt der erste: anfangen, Daten systematisch zu sammeln. Mit klaren Spalten, konsistenten Formaten und einer kurzen Beschreibung, was die Daten bedeuten.

Es muss nicht perfekt sein. Es muss keine komplexe Datenbank sein. Eine sauber gepflegte Tabelle ist ein Anfang. Wenn die Sammlung wächst und veröffentlicht wird – als CSV-Download, als eingebettete Karte oder als durchsuchbare Chronik – entsteht daraus ein Beitrag zum offenen Wissen.

Open Data entfaltet seine Wirkung nicht allein durch die Existenz eines Datensatzes sondern durch die Arbeit, die ihn verständlich, nutzbar und zugänglich macht. Oft beginnt diese Arbeit mit nichts weiter als einer Tabelle – und dem Entschluss, Wissen zu teilen. Und darum geht‘s.

Johannes Filter er/ihm

johannesfilter.com

Johannes Filter ist freiberuflicher Full-Stack-Entwickler und Datenjournalist in Berlin. In Jahrgang 01 des Prototype Fund entwickelt er mit TimeTiles eine modulare Software-Bibliothek und Anwendung für interaktive Chroniken mit Orts- und Zeitbezug. Neben seiner Arbeit an Open-Source-Tools betreibt er Transparenzprojekte wie polizeischuesse.cilip.de und verfassungsschutzberichte.de.

Weitere Artikel