Internet Archive préserve sa billionième page Web : une étape importante dans l’histoire numérique

3

Internet Archive, une organisation à but non lucratif essentielle dédiée à la préservation du monde numérique, a archivé sa billionième page Web. Cette réalisation historique souligne à la fois l’ampleur d’Internet et la fragilité de son contenu. À une époque où l’information en ligne est de plus en plus éphémère, le travail des Archives est plus crucial que jamais.

La nature éphémère du Web

Internet n’est pas connu pour sa permanence. Le contenu numérique disparaît facilement ; les erreurs de serveur, les changements de plateforme ou simplement la négligence peuvent effacer des années d’historique en ligne. Un exemple frappant : MySpace a perdu environ 50 millions de chansons de 14 millions d’artistes en 2015 en raison d’une erreur de migration du serveur. Cela illustre la rapidité avec laquelle de grandes quantités d’informations numériques peuvent disparaître.

Internet Archive vise à contrecarrer cette instabilité inhérente. Fondée en 1996, l’organisation utilise des robots d’exploration Web pour capturer des sites Web accessibles au public, ainsi que du contenu soumis par les utilisateurs, comme des livres, de la musique et des fichiers audio. À ce jour, il a sécurisé plus de 866 milliards de pages Web, 41 millions de textes et des millions d’autres artefacts numériques, accumulant environ 100 000 téraoctets de données. Pour mettre cela en perspective, cela équivaut à remplir le stockage de 50 000 iPhones haut de gamme.

Les défis croissants de la préservation numérique

Malgré leur valeur pour les chercheurs, les journalistes et le public, les archives Internet sont confrontées à des défis croissants. L’émergence des grands modèles de langage (LLM) a créé une nouvelle pression : les entreprises technologiques fouillent de manière agressive le Web à la recherche de données de formation, souvent avec un statut juridique douteux.

Les principaux médias comme The New York Times, The Guardian et USA Today restreignent désormais l’accès à leurs nouveaux contenus pour empêcher toute utilisation non autorisée par les systèmes d’IA. Bien que compréhensible étant donné l’absence de cadres de rémunération clairs pour les créateurs de contenu, cela complique la mission des Archives qui consiste à préserver un enregistrement complet du Web.

L’avenir de la mémoire numérique

La billionième page Web d’Internet Archive n’est pas seulement un chiffre ; c’est un témoignage de l’effort requis pour sauvegarder l’histoire numérique. Le conflit entre la préservation de l’accès et la protection de la propriété intellectuelle met en évidence une tension critique dans l’Internet moderne. Trouver des solutions durables qui équilibrent ces intérêts concurrents est essentiel si nous voulons que les archives atteignent leur deux billionième conservation, et au-delà.

попередня статтяLe mécanisme « Stop-Scratch » intégré au corps révélé
наступна статтяL’administration Trump annule la réglementation sur le mercure pour les centrales à charbon