La lotta contro gli crawler AI: la crisi della comunità open source si intensifica

Negli ultimi mesi, il mondo del software open source è stato investito da un problema senza precedenti, con i crawler AI che monopolizzano il traffico e mettono a dura prova i repository pubblici. Questo fenomeno ha generato instabilità nelle strutture e costi insostenibili, minacciando la sostenibilità dei progetti nati dalla comunità. La storia di Xe Iaso, uno sviluppatore di software, rappresenta perfettamente questa emergenza.

Indice dei contenuti

La sfida di Xe Iaso con gli crawler AI

Il dramma di Xe Iaso è iniziato all’inizio dell’anno, quando un’intensa attività di crawling da parte di bot AI di Amazon ha sopraffatto il suo servizio di repository Git. Nonostante l’implementazione di misure precauzionali tradizionali, come l’adeguamento del file robots.txt e il blocco di user-agent noti, Iaso ha notato che i crawler continuavano a evadere ogni tentativo di blocco. Questi bot, con la capacità di mascherare i loro user-agent e utilizzare indirizzi IP residenziali come proxy, stavano creando disservizi significativi.

In un tentativo disperato di trovare una soluzione, Iaso ha deciso di spostare il suo server dietro una VPN e di sviluppare “Anubis“, un sistema personalizzato di challenge proof-of-work. Questo sistema richiede ai browser di risolvere enigmi computazionali prima di accedere al sito. Per Iaso, è diventato chiaro che tentare di bloccare i bot era una battaglia persa, come dichiarato nel suo post sul blog intitolato “un grido di aiuto disperato“. La sua determinazione a non chiudere il server Gitea al pubblico, sebbene fosse una possibilità concreta, ha messo in luce la frustrazione crescente dei maintainer nell’affrontare questa crisi.

L’impatto sugli progetti open source

Il racconto di Iaso è emblematico di una crisi più ampia che sta colpendo la comunità open source. Gli crawler AI, sempre più aggressivi, stanno schiacciando le infrastrutture mantenute dalla comunità, creando situazioni simili ad attacchi DDoS distribuiti. Secondo un rapporto recente di LibreNews, alcuni progetti open source stanno registrando fino al 97% del loro traffico proveniente da bot di aziende di intelligenza artificiale. Questo aumento drastico non solo incide sui costi della banda, ma provoca anche instabilità nei servizi, sovraccaricando i maintainer già alle prese con risorse limitate.

L’impatto di questa situazione è esacerbato dalla difficoltà dei progetti nel mantenere un’adeguata qualità di servizio. I temi di gestione del traffico e di risposta ai bot divenuti sempre più odiosi con il tempo sono ora all’ordine del giorno. La questione si è fatta così grave che molte realtà si vedono costrette a prendere provvedimenti estremi.

Azioni intraprese da altri progetti

Kevin Fenzi, un membro del team sysadmin del progetto Fedora Pagure, ha fatto sapere sul suo blog che la situazione è diventata così critica che il progetto ha dovuto bloccare tutto il traffico proveniente dal Brasile, dopo ripetuti tentativi di risolvere il problema senza successo. Nel contesto gioco, GNOME GitLab ha implementato il sistema “Anubis” per mantenere sotto controllo l’accesso ai contenuti, richiedendo alle applicazioni di risolvere enigmi computazionali prima di colmare richieste. Bart Piotrowski, sysadmin di GNOME, ha condiviso tramite Mastodon che solo il 3,2% delle richieste ha superato il loro sistema di sfida, suggerendo che la stragrande maggioranza del traffico fosse automatizzata.

Altri sistemi, come quello di GitLab di KDE, hanno subito interruzioni temporanee a causa del traffico degli crawler provenienti da indirizzi IP di Alibaba, come riportato da LibreNews, evidenziando la gravità della situazione. La necessità di soluzioni rapide e efficienti diventa cruciale per garantire il futuro della comunità open source in un’era in cui gli crawler AI continuano a dominare la scena, creando sfide di cui tutti dovranno occuparsi.