Internetarchief behoudt zijn biljoenste webpagina: een mijlpaal in de digitale geschiedenis

23

Het Internet Archive, een vitale non-profitorganisatie die zich inzet voor het behoud van de digitale wereld, heeft zijn biljoenste webpagina gearchiveerd. Deze mijlpaal onderstreept zowel de omvang van het internet als de kwetsbaarheid van de inhoud ervan. In een tijdperk waarin online-informatie steeds vluchtiger wordt, is het werk van het Archief belangrijker dan ooit.

De kortstondige aard van het web

Het internet staat niet bekend om zijn duurzaamheid. Digitale inhoud verdwijnt gemakkelijk; serverfouten, platformverschuivingen of simpelweg verwaarlozing kunnen jaren van onlinegeschiedenis wegvagen. Een treffend voorbeeld: MySpace verloor in 2015 naar schatting 50 miljoen nummers van 14 miljoen artiesten als gevolg van een servermigratiefout. Dit illustreert hoe snel grote hoeveelheden digitale informatie kunnen verdwijnen.

Het internetarchief wil deze inherente instabiliteit tegengaan. De organisatie is opgericht in 1996 en gebruikt webcrawlers om publiekelijk toegankelijke websites vast te leggen, naast door gebruikers ingediende inhoud zoals boeken, muziek en audio. Tot nu toe heeft het bedrijf meer dan 866 miljard webpagina’s, 41 miljoen teksten en miljoenen andere digitale artefacten beveiligd, waarbij ongeveer 100.000 terabytes aan gegevens zijn verzameld. Om dit in perspectief te plaatsen: dat komt overeen met het vullen van de opslag van 50.000 topklasse iPhones.

De groeiende uitdagingen voor digitale bewaring

Ondanks de waarde ervan voor onderzoekers, journalisten en het publiek, staat het internetarchief voor steeds grotere uitdagingen. De opkomst van grote taalmodellen (LLM’s) heeft voor een nieuwe druk gezorgd: technologiebedrijven struinen agressief het internet af op zoek naar trainingsgegevens, vaak met twijfelachtige juridische status.

Grote mediakanalen zoals The New York Times, The Guardian en USA Today beperken nu de toegang tot hun nieuwere inhoud om ongeoorloofd gebruik door AI-systemen te voorkomen. Hoewel begrijpelijk gezien het gebrek aan duidelijke compensatiekaders voor makers van inhoud, compliceert dit de missie van het Archief om een ​​volledig overzicht van het internet te bewaren.

De toekomst van digitaal geheugen

De biljoenste webpagina van het Internetarchief is niet slechts een getal; het is een bewijs van de inspanningen die nodig zijn om de digitale geschiedenis veilig te stellen. Het conflict tussen het behouden van toegang en het beschermen van intellectueel eigendom benadrukt een kritische spanning in het moderne internet. Het vinden van duurzame oplossingen die deze concurrerende belangen in evenwicht brengen is essentieel als we willen dat het Archief zijn twee biljoenste behoud bereikt, en verder.