Das Internet vergisst nichts!(?)

Die Ferien neigen sich dem Ende zu, viele Tage mit vielen Treffen und langen Diskussionen mit Freundinnen und Freunden liegen hinter uns. Schön, wenn man endliche einmal Zeit hat, sich in Ruhe auszutauschen, bei einem Gläschen Wein auf der Terrasse zu sitzen und dabei über Gott und die Welt und das Internet und Dies und Das und Jenes zu reden, denn auch wenn es nach Außen natürlich häufig anders aussieht: Während der normalen Schulzeit kommt man ja irgendwie zu nichts…

In einer dieser abendlichen Diskussionen sowie in einem Telefongespräch heute morgen bin ich wiederholt über den Satz gestolpert, der heute an jeder Ecke gehört und gelesen werden kann:

Das Internet vergisst nichts!

Ein gerne genutzter Satz, um auf die vermeintlichen Gefahren im Internet aufmerksam zu machen. Stammtischartige Reaktion auf diesen Satz im Allgemeinen: „Deshalb mache ich ja auch nichts im Internet!“. Auch im Informatik- bzw. IB-Unterricht dürfte dieser Satz deutschlandweit hier und da fallen, um den Schülerinnen und Schülern deutlich zu machen, dass man vorsichtig sein muss mit dem, was man so ins Internet stellt. Auch ich kann mich nicht davon freisprechen, diesen Satz schon ein- oder mehrmals gesagt zu haben. Allerdings nicht in der Absicht, das Internet als solches zu verteufeln, sondern in der Absicht, deutlich zu machen, dass man eben aufpassen soll, was man online stellt.

Wie ist das denn aber nun? Stimmt es, dass das Internet nichts vergisst?

Natürlich nicht. Denn diese Aussage impliziert zunächst einmal, dass es das Internet gäbe. Was sollte das sein, das Internet? Das Internet ist eine lose Ansammlung unterschiedlichster Webseiten, Protokolle und Services, es gibt nicht das eine, allumfassende Netz und natürlich gibt es auch nicht die zentrale Verwaltung oder das zentrale Gedächtnis des Internets. Was also kann gemeint sein mit dem Satz?

Gegen Screenshots ist kein Kraut gewachsen

Ich denke, es ist wichtig, sich darüber im Klaren zu sein, dass Daten, einmal ins Netz gestellt, nicht mehr kontrollierbar sind. Alles, was einmal im Netz war, kann abgespeichert werden und sich damit meiner Kontrolle entziehen. Da helfen keine Rechtsklick-Javascript-Sperren, um den Download eines Bildes auf den Rechner zu verhindern und auch kein Digitales Radiergummi (das in sich derart abstrus gedacht ist, dass man sich fragt, wofür eigentlich noch Gelder herausgeworfen werden, von denen wir nur nichts mitbekommen).

Völlig egal, was ich ins Internet stelle, solange es auch nur ein einziger anderer Benutzer auf seinem Rechner anzeigen kann, ist er oder sie in der Lage, davon einen Screenshot anzufertigen und hat damit eine digitale Kopie meines Bildes oder meines Textes und kann damit tun und lassen, was er oder sie will. Wenn ich also irgendwann bemerke, dass es vielleicht doch nicht so sinnvoll war, meine Partyfotos bei Facebook und Flickr einzustellen, kann ich diese zwar dort löschen – ob aber nicht irgendwer dieses Fotos in der Zwischenzeit bereits auf seinem Rechner im Ordner „Wenn ich dem Dorok mal eine dröhnen will“ abgelegt hat, garantiert mir niemand. Besser also, ich habe solche Fotos gar nicht erst online gestellt.

Wir haben da ein Backup – Die Wayback Machine

Ein schönes Beispiel von „Das Internet vergisst nichts“, das über die o.g. Möglichkeit der Screenshots hinaus geht, ist das Internet Archive, auch bekannt als die „Wayback Machine“. Dieses Internetarchiv legt in regelmäßigen Abständen Snapshots von Webseiten an und speichert sie ab. Übrigens interessant, dass das völlig automatisch und ohne das Zutun der Webseitenbetreiber geschieht! In den FAQ der Waybackmachine heisst es dann auch noch:

The Internet Archive is not interested in preserving or offering access to Web sites or other Internet documents of persons who do not want their materials in the collection. By placing a simple robots.txt file on your Web server, you can exclude your site from being crawled as well as exclude any historical pages from the Wayback Machine.

Im Umkehrschluss bedeutet dies, dass das Internetarchiv standardmäßig davon ausgeht, dass es jede Webseite archivieren darf, es sei denn, ich verbiete es ausdrücklich durch eine bestimmte Einstellung innerhalb meiner robots.txt Datei. Übertrüge man dies auf das „echte“ Leben (Ja, ich unterscheide immer noch zwischen on- und offline Leben) würde das ja z.B. bedeuten, eine Firma X ginge automatisch davon aus, dass sie einen Betrag Y von meinem Konto abbuchen darf, solange ich dem nicht widerspreche ;-)

Aber nehmen wir die Wayback Machine einmal als gegeben hin und stellen sie nicht in Frage, denn das ist nicht Thema dieses Blogeintrags: Früher, als Webseiten zum größten teil aus statischen HTML-Seiten bestanden, funktionierte das Abspeichern der Webseiten weitaus besser als heute, da viele Seiten (wie auch dieses Blog) erst beim Aufrufen durch Skripte aus einer Datenbank generiert werden und in dem Sinne keine statisch auslesbaren HTML-Seiten auf den Server existieren. Statische Seiten lassen sich sehr viel besser und einfache maschinell auslesen und eben speichern als die vielen on-the-fly generierten PHP-Blogs und -Webseiten.

Sex und Cracks – die Wayback Machine im Selbstversuch

Als ich Student war, gehörte mir die Domain www.sebastian-dorok.de – wer diesem Link heute folgt, wird von seinem Browser die Meldung erhalten, dass diese Seite nicht mehr existiert. Gibt man die Adresse jedoch in die Wayback Machineein, so kann man bis ins Jahr 2000 zurück springen und dort das ein oder andere über mich vor nunmehr 11 Jahren erfahren: Nicht nur, dass dort noch meine (inzwischen natürlich inaktive) Mailadresse steht, wer sich den Quelltext des Navigationsframes zur Rechten anschaut, wird erstaunt feststellen, dass ich in den Metatags damals nicht nur das eingetragen hatte, um das es wirklich auf meiner Seite ging (mehr oder weniger Dinge aus dem Englisch- und Musikstudium), sondern dass ich dmals auch über Buzzwords wie „sex, xxx, warez, Crack“ versucht habe, Leute auf meine Webseite zu locken (die natürlich mit diesen Inhalten überhaupt nichts zu tun hatte). Peinlich, peinlich, nicht wahr?

Man sieht auch, dass ich irgendwann im Jahr 2003 mit einer Firma namens „vier:drittel – Webdesign“ selbstständig war, denn irgendwann im Jahr 2003 hat die Wayback Machine plötzlich nicht mehr meine Privatseite, sondern die Firmenseite gespeichert.

Was aber sagt das über mich aus? Wer mich nun nicht kennt und sein Bild einzig und allein aus diesen Informationen zusammen setzt (was schade wäre), der mag sich doch sehr wundern, dass ich – scheinbar – Sex und geklaute Software auf meiner Webseite angeboten habe.

Das Internet vergisst sehr langsam

Abgesehen von dieser – kleinen – Peinlichkeit: Im Jahr 2004 habe ich www.sebastian-dorok.de vom Netz genommen. Das ist jetzt sieben Jahre her. Dennoch finden sich Spuren dieser Webseite in der Wayback Machine. Ich gehe prinzipiell nicht davon aus, dass es Menschen gibt, die damals Screenshots von der Webseite gemacht haben und diese noch irgendwo zu Hause auf den Rechnern liegen haben. Es wäre auch wohl nichts dabei, für das ich mich schämen müsste (abgesehen von den META-Tags ;-)), aber dennoch: Hier hat die Wayback Machine (noch) nicht alles vergessen. Nach und nach werden die Daten sicherlich verschwinden, zumal inzwischen auch kaum noch eine der Grafiken meiner alten Webseite gespeichert ist. Aber dennoch: Daten, die ich vor 11 Jahren ins Internet geblasen habe und die ich vor 7 Jahren eigenhändig vom Server gelöscht habe, sind noch vorhanden. Ausserhalb meines Einflussbereichs und ohne mein Wissen.

Fazit

Es wäre problemlos möglich, hier noch viele andere Beispiele zu geben, sei es, dass sich Tweets finden lassen, die ich mit dem längst gelöschten Account @sdorok verfasst habe (irgendwelche Twittercrawler haben diese Nachrichten ebenso gespeichert wie Webseiten von Zeitungen, die mich als angeblichen Augenzeugen der Loveparade Katastrophe in Duisburg zitierten), sei es, dass Facebook letztlich meine Nachrichten und Fotos noch gespeichert hat, obwohl ich meinen Account dort deaktiviert aber nicht gelöscht habe, was erst nach einiger Zeit der Stilllegung funktioniert.

Ich denke aber, es dürfte klargeworden sein, dass der Satz „Das Internet vergisst nichts“ so nicht stimmt. Natürlich verschwinden Daten nach und nach aus dem Netz (siehe fehlende Bilder in der Wayback Machine), aber es dauert oftmals viel länger, als man sich das so vorstellt. Eigentlich müsste man den plakativen Satz „Das Internet vergisst nicht“ ändern in „Das Internet vergisst nur sehr sehr langsam und Du hast keine Kontrolle darüber, was mit Daten jedweder Art passiert, die Du einmal ins Netz gelassen hast, also überlege zwei Mal, bevor Du etwas online stellst.“ Aber das ist natürlich nicht so schön plakativ ;-)

So, und jetzt will ich mal schnell die robots.txt meiner aktuellen Domain dahingehend ändern, dass die Wayback Machine mich bitte nicht archiviert…

Das Internet vergisst nichts!(?)

Markiert in: Daten Internet Vergessen

Ein Gedanke zu „Das Internet vergisst nichts!(?)“

Greg
15. September 2011 um 22:38 Uhr

Vielleicht solltest Du auch kurz auf den neuen Geschäftszweig hinweisen, der sich genau auf diese Thematik spezialisiert hat. Diverse Agenturen bieten inzwischen die Löschung aller mit einer Person in Verbindung stehenden Daten online an. Ob das funktioniert und welche Kosten dabei auf einen zukommen, weiß ich leider auch nicht. Wer aber mit gesundem Menschenverstand surft, dürfte sowas eigentlich nicht nötig haben.

Ps. Die Idee mit der robots.txt ist gut! :)

Die Kommentare sind geschlossen.