Gearchiveerde pagina's verwijderen bij de Wayback Machine

Stel je dit even voor: je bent trots op je website, je hebt alles netjes bijgewerkt, en ineens ontdek je dat een oude, misschien wel gênante versie van je pagina nog steeds online staat.

▶Inhoudsopgave

Wat is de Wayback Machine eigenlijk?
Waarom wil je eigenlijk iets verwijderen?
De belangrijkste regel: je hebt geen wachtwoord nodig
Hoe vraag je om verwijdering aan?
Wat als je geen eigenaar bent?
Alternatieve methoden: DMCA en wetgeving
De rol van de robots.txt revisited
Wat gebeurt er na verwijdering?
Tips om je archief schoon te houden
Conclusie

Maar dan niet bij jou, nee, bij de Wayback Machine van het Internet Archive. Het voelt alsof een oude foto van je op een openbaar prikbord blijft plakken, terwijl je die allang kwijt wilde. Het internet vergeet namelijk alles, tenzij je actief ingrijpt. In dit artikel leg ik je precies en simpel uit hoe je die gearchiveerde pagina's definitief verwijdert, zodat je weer de baas bent over je eigen digitale sporen.

Wat is de Wayback Machine eigenlijk?

Voordat we gaan schoonmaken, is het handig om te weten wat we precies aan het verwijderen zijn. De Wayback Machine, onderdeel van het Internet Archive, is een digitaal museum.

Het slaat miljarden webpagina's op om ze voor de eeuwigheid te bewaren. Je kunt er terecht om te zien hoe een website er vijf of tien jaar geleden uitzag. Het is een geweldig hulpmiddel voor onderzoekers en nieuwsgierige aardbewoners, maar voor website-eigenaren kan het soms een doorn in het oog zijn.

Wanneer de Wayback Machine een pagina opslaat, maakt het een 'snapshot'. Deze snapshots blijven vaak jarenlang beschikbaar, tenzij jij als eigenaar vraagt om ze te verwijderen.

Het is dus niet zo dat je website automatisch verdwijnt uit dit archief zodra jij je domein opzegt; het blijft daar rondhangen totdat jij actie onderneemt.

Waarom wil je eigenlijk iets verwijderen?

Er zijn genoeg geldige redenen waarom je een pagina uit het archief wilt halen.

Misschien heb je je website compleet vernieuwd en staan er oude, incorrecte prijzen op de oude snapshots. Of er staan persoonlijke gegevens op die je per ongeluk hebt gepubliceerd en nu niet meer online willen hebben.

Soms verander je van bedrijfsnaam of heb je simpelweg spijt van een blogpost uit 2015. Wat de reden ook is, je hebt het recht om te bepalen wat er met jouw content gebeurt, zelfs als die al eens eerder is opgeslagen.

De belangrijkste regel: je hebt geen wachtwoord nodig

Dit is een misverstand dat we gelijk de wereld uit helpen. Je kunt niet inloggen op de Wayback Machine om je pagina's te verwijderen.

Het Internet Archive slaat pagina's op van het openbare web. Dat betekent dat ze de inhoud hebben gevonden terwijl die openbaar toegankelijk was. Om iets te laten verwijderen, moet je contact opnemen met de beheerders.

Het robots.txt bestand als eerste verdedigingslinie

Je kunt het archief niet 'hacken' of simpelweg een mapje leegmaken. Het is een gestructureerd proces.

De meest effectieve manier om te voorkomen dat de Wayback Machine je site scant, is door een robots.txt bestand te gebruiken.

Dit is een klein tekstdocumentje dat je op je server plaatst. Hierin geef je aan welke robots wel en niet welkom zijn. Als je hierin de regel voor de Internet Archive bot uitsluit, zal de bot niet langer nieuwe snapshots maken van je site. Let wel op: dit voorkomt alleen nieuwe opnames.

Het verwijdert geen bestaande snapshots. Als je een robots.txt bestand plaatst, verdwijnen de oude plaatjes niet direct. Het is dus een preventieve maatregel voor de toekomst, niet een schoonmaakmiddel voor het verleden.

Hoe vraag je om verwijdering aan?

Gelukkig is het Internet Archive erg meewerkend als het gaat om verwijderingsverzoeken. Ze hebben een speciaal formulier waar je dit kunt aanvragen.

Dit is de officiële en veiligste weg. Je moet wel kunnen aantonen dat je de eigenaar bent van de website of het materiaal.

Doe je dit niet, dan zal het archief je verzoek waarschijnlijk afwijzen. Het proces verloopt in principe in drie stappen, hoewel het even kan duren voordat het geregeld is. Het Internet Archive wordt dagelijks overspoeld met verzoeken, dus geduld is een schone zaak.

Zij doen hun best om dit zo snel mogelijk te verwerken, maar verwacht geen directe resultaten binnen een uur. Voordat je het formulier invult, moet je weten wat je precies wilt verwijderen.

Stap 1: Verzamel de juiste informatie

Je kunt niet zomaar een heel domein laten wissen (tenzij daar goede redenen voor zijn), maar je kunt wel specifieke URL's aanwijzen. Noteer de exacte data waarop de snapshots zijn gemaakt. De Wayback Machine geeft aan welke datums er opnames beschikbaar zijn. Kies de specifieke datums die je wilt laten verwijderen.

Wees zo precies mogelijk; dit helpt de technici om snel het juiste materiaal te vinden.

Stap 2: Het verzoek indienen

Je zoekt naar het 'Help Center' of het contactformulier van het Internet Archive. Daar selecteer je de optie voor het verwijderen van content. Je vult de URL's in die je wilt verwijderen en geeft aan waarom je dit wilt.

Wees eerlijk en duidelijk. Als het om privacy gaat, vermeld dat dan.

Als het om intellectueel eigendom gaat, leg dat uit. Het Internet Archive is een stichting zonder winstoogmerk en ze zijn erg zuinig op hun collectie, dus ze zullen alleen verwijderen als er een geldige reden is. Nadat je het verzoek hebt ingediend, ontvang je een bevestiging.

Stap 3: Wachten en controleren

Vervolgens is het wachten geblazen. Als het verzoek is goedgekeurd, worden de snapshots uit de publieke zoekresultaten verwijderd.

Dit betekent dat als je zoekt naar de pagina via de Wayback Machine, deze niet meer verschijnt.

Soms blijft er een 'lege' plek over, maar de inhoud is dan niet meer zichtbaar.

Wat als je geen eigenaar bent?

Een lastigere situatie doet zich voor als je geen eigenaar bent van de website, maar wel privacy-informatie over jezelf tegenkomt in een archief.

Bijvoorbeeld een oud forumbericht of een vergeten social media profiel. Ook dan kun je een verzoek indienen bij het Internet Archive. Je moet wel kunnen aantonen dat het om jouw persoonlijke data gaat en dat deze onrechtmatig is opgeslagen of een gevaar vormt voor je privacy.

Denk aan burgerservicenummers of medische gegevens. Het Internet Archive heeft hier specifieke richtlijnen voor en ze zijn hierin best streng, maar wel rechtvaardig.

Alternatieve methoden: DMCA en wetgeving

Er zijn andere manieren om content te laten verwijderen, vooral als het om copyright gaat. Als je merkt dat jouw werk zonder toestemming is gearchiveerd, kun je een DMCA-melding (Digital Millennium Copyright Act) indienen.

Dit is een Amerikaanse wet, maar het Internet Archive houdt zich hier strikt aan. Als je een geldige DMCA-claim indient, wordt de content vaak sneller verwijderd dan een algemeen verzoek. Het is een krachtig middel voor auteursrechthebbenden.

Let wel op: de DMCA geldt voor inbreuk op auteursrechten, niet voor persoonlijke ongemakken of verouderde informatie.

Als je dus een oude blogpost wilt verwijderen omdat je er spijt van hebt, is een DMCA-melding niet de juiste weg. Dan moet je terug naar het algemene verwijderingsverzoek.

De rol van de robots.txt revisited

We hebben het al even genoemd, maar het is belangrijk om nogmaals te benadrukken dat robots.txt niet de oplossing is voor bestaande problemen. Veel mensen denken dat ze met één regel in dit bestand alle sporen uit het verleden kunnen uitwissen. Helaas werkt het niet zo.

Het Internet Archive respecteert robots.txt, maar ze verwijderen geen data op basis van een huidig bestand.

Ze stoppen alleen met nieuwe opnames maken. Wil je echt alles schoonvegen?

Dan zul je toch echt dat verzoek moeten indienen. Het is de enige manier om de archieven actief te laten schoonmaken.

Wat gebeurt er na verwijdering?

Als je verzoek is goedgekeurd, worden de pagina's niet fysiek van de servers van het Internet Archive gewist. Dat klinkt misschien eng, maar in de praktijk betekent het dat ze niet meer publiekelijk toegankelijk zijn.

Ze worden uit de index gehaald en zijn niet meer vindbaar via de interface. Voor 99% van de gebruikers is de pagina dan verdwenen. Het Internet Archive bewaart soms interne kopieën voor juridische doeleinden of voor hun eigen archief, maar deze zijn niet zichtbaar voor het publiek. Dit is een belangrijk detail: volledige digitale vernietiging bestaat bijna niet op het internet, maar publieke toegang verwijderen is wel degelijk mogelijk en effectief.

Tips om je archief schoon te houden

Het beste wat je kunt doen, is proactief zijn. Zorg dat je website goed beveiligd is en gebruik een robots.txt bestand om ongewenste crawlers tegen te houden. Verwijder oude pagina's op je eigen server en zet er een 410 statuscode neer (verwijderd voor altijd).

Als een pagina op je eigen server niet meer bestaat, is de kans groter dat het Internet Archive op denkeur de snapshot verwijdert of als 'broken' markeert, hoewel dit niet altijd gebeurt.

Regelmatig je eigen aanwezigheid op het web checken is ook slim. Zoek af en toe je eigen naam of bedrijfsnaam in de Wayback Machine. Zo kom je verrassingen niet onverwachts tegen.

Conclusie

Het verwijderen van gearchiveerde pagina's uit de Wayback Machine is geen hogere wiskunde, maar het vraagt wel om de juiste aanpak. Het begint met het begrijpen van hoe het archief werkt en eindigt met het netjes indienen van een verzoek bij het Internet Archive.

Vertrouw niet op quick fixes zoals robots.txt voor bestaande data, maar ga voor de officiële weg. Met een beetje geduld en de juiste argumenten kun je je digitale voetafdrukken flink uitvegen. Zo houd je zelf de regie over wat er online over jou te vinden is.