| Letztes Update:

Macht doch mal euer eigenes Spiegel-Mining-Projekt

Überwachung mal andersrum: Wie wäre es denn, wenn wir einen auf David Kriesel machen, um die Online-Historie von Behörden, Unternehmen und anderen Entitäten, die eindeutig einer Überwachung durch die Bürger bedürfen, zu dokumentieren?

Wer David Kriesel nicht kennt: Ein so genannter Data Scientist, sympathischer Kerl mit ein paar spannenden Ideen, unter anderem das Projekt Spiegel-Mining. Er hat über einen längeren Zeitraum die Inhalte der Online-Ausgabe des Spiegel runtergeladen und diverse interessante Dinge herausgefunden, u.a. dass Headlines manipuliert werden, um Klickraten zu optimieren, oder wie es um die Debattenwilligkeit bei kritischen Themen bestellt ist, wer von der Redaktion mit wem ins Bett geht oder in den Urlaub fährt, u.a.

Nun ist das, was der David da getan hat, nämlich Daten runterladen und auswerten, eine eher unhandliche Angelegenheit, wenn man nicht ohnehin schon im Bereich der Data Science unterwegs ist und seine Tools zur Hand hat.

Es gibt eine interessante OpenSource-Lösung, die nennt sich ArchiveBox. Dabei handelt es sich um Grunde um eine Anwendung, die im Wesentlichen das Gleiche tun soll wie das Internet Archive, nämlich in regelmäßigen Abständen Snapshots von Websites oder Webanwendungen zu machen, und diese in einem universellen, möglichst lange (>100 Jahre) nutzbaren Format zu archivieren. Auf Wunsch inklusive eventueller Downloads, Videos etc.

Man gibt einfach eine URL ein oder definiert eine ganze Website mit beliebiger Navigationstiefe und los gehts. Selbstverständlich sollte man - so als Privatnutzer im Kontext des Heimnetzwerks - ein bisschen im Blick behalten, wie viel Speicherplatz das so schluckt, und vielleicht nicht gleich das ganze Web archivieren wollen. Aber für bestimmte Fälle ist das ein interessantes Tool. Werde ich mal ausprobieren und meine Erfahrungen berichten.