La Wikimedia Foundation segnala l'impatto negativo del scraping AI sui suoi server

L’uso intensivo e implacabile delle tecnologie di scraping da parte delle intelligenze artificiali sta causando gravi problemi ai server di Wikipedia. La Wikimedia Foundation, ente gestore della famosa enciclopedia online, ha dichiarato che le attività dei bot, impegnati nel raccogliere enormi quantità di dati per l’addestramento dei modelli di linguaggio, hanno incrementato del 50% il traffico di banda necessario per scaricare contenuti multimediali. Questo trend, avviatosi all’inizio del 2024, rappresenta una sfida non solo per Wikipedia, ma per l’intera comunità del software libero.

Indice dei contenuti

L’impatto del traffico non umano

La Wikimedia Foundation non gestisce solo Wikipedia, ma anche Wikimedia Commons, un archivio che ospita ben 144 milioni di file multimediali con licenze aperte. Questo ricco patrimonio informativo è da sempre alla mercé di studenti e ricercatori, alimentando progetti scolastici e ricerche online. Tuttavia, dall’inizio del 2024, le aziende di intelligenza artificiale hanno aumentato in modo drastico il loro scraping automatizzato, utilizzando tecniche di crawling diretto, API e download massivi per nutrire i loro modelli AI. Questo picco di traffico ha comportato costi economici e tecnici significativi, aggravati dalla mancanza di attribuzioni necessarie per mantenere in vita l’ecosistema di volontari di Wikimedia.

Il problema non può essere considerato solo in termini teorici. Un esempio lampante è legato alla morte dell’ex presidente degli Stati Uniti Jimmy Carter, avvenuta a dicembre 2024. In quella data, la pagina di Wikipedia dedicata a Carter ha ricevuto milioni di visualizzazioni. Tuttavia, la vera sfida si è presentata quando gli utenti hanno iniziato a guardare contemporaneamente un video di un dibattito del 1980, proveniente da Wikimedia Commons. Questo ha causato un raddoppio del traffico di rete normale, portando al collasso temporaneo di numerose connessioni Internet della Fondazione. Nonostante gli sforzi dei tecnici di deviare il traffico per alleviare la congestione, si è rivelato un problema più profondo: la capacità di banda era già in gran parte occupata dai bot che lavoravano a pieno regime nello scraping dei contenuti.

Comportamenti delle aziende di software libero

Siamo di fronte a un fenomeno che ha cominciato a diffondersi in tutto il settore del software libero. Recentemente, il repository Pagure di Fedora ha bloccato completamente il traffico proveniente dal Brasile a seguito di eventi simili di scraping riportati da Ars Technica. Anche l’istanza di GitLab di GNOME ha introdotto sfide di proof-of-work per filtrare gli accessi eccessivi dei bot. Un altro caso è quello di Read the Docs, che ha abbattuto notevolmente i costi di banda dopo aver bloccato i crawler delle intelligenze artificiali.

I dati interni di Wikimedia chiariscono perché questo tipo di traffico risulta così oneroso per i progetti aperti. A differenza degli utenti umani, che tendono a visualizzare articoli popolari e frequentemente memorizzati nella cache, i bot si concentrano su pagine meno accessibili e più oscure, costringendo i data center fondamentali di Wikimedia a servire richieste direttamente. I sistemi di caching, progettati per il comportamento di navigazione umano più prevedibile, non riescono a gestire la lettura indiscriminata degli archivi da parte dei bot.

Di conseguenza, la Wikimedia Foundation ha scoperto che i bot rappresentano il 65% delle richieste più costose per la sua infrastruttura principale, pur costituendo solo il 35% del totale delle visualizzazioni delle pagine. Questa asimmetria sottolinea un’importante intuizione tecnica: il costo delle richieste effettuate dai bot è significativamente più elevato rispetto a quelle degli esseri umani, e le spese si accumulano rapidamente.