Web Scraping e IA Generativa: i dati del tuo sito sono davvero al sicuro?
Le indicazioni del Garante Privacy per i gestori di siti web (Provv. n. 329 del 20 maggio 2024)
Introduzione
Ogni informazione personale pubblicata online può essere raccolta, copiata e riutilizzata da soggetti terzi attraverso processi automatizzati. È un fenomeno silenzioso ma diffusissimo: secondo i dati richiamati dal Garante, nel 2023 quasi la metà del traffico Internet è stato generato da bot, molti dei quali impegnati proprio nella raccolta massiva di dati per addestrare i modelli di intelligenza artificiale generativa.
Con il provvedimento n. 329 del 20 maggio 2024, il Garante per la protezione dei dati personali si è già espresso sul punto: l’attenzione non si concentra più soltanto su chi i dati li raccoglie, ma anche su chi li pubblica. Chi gestisce un sito web o una piattaforma online, in qualità di titolare del trattamento, ha infatti un ruolo attivo nella protezione dei dati che mette a disposizione del pubblico.
Che cos’è il web scraping e perché riguarda l’intelligenza artificiale
Il web scraping consiste nella raccolta massiva e automatizzata di dati presenti online, eseguita tramite software e bot che “setacciano” siti e piattaforme. Quando le informazioni raccolte sono riconducibili a persone fisiche identificabili, si pone immediatamente un problema di protezione dei dati personali.
Negli ultimi anni questa pratica ha assunto una dimensione nuova, perché grandi quantità di dati vengono prelevate per addestrare i modelli di intelligenza artificiale generativa. Il punto chiave evidenziato dal Garante è semplice ma decisivo: la pubblica disponibilità di un dato su Internet non rende automaticamente lecita la sua raccolta da parte di terzi.
La responsabilità di chi pubblica i dati
Il provvedimento riguarda direttamente tutti i soggetti, pubblici e privati, che gestiscono siti web o piattaforme online e che trattano dati personali in qualità di titolari del trattamento ai sensi del GDPR.
Il principio è chiaro: chi mette online informazioni personali ha il dovere di proteggerle anche dalla raccolta indiscriminata e automatizzata da parte di terzi. La responsabilità, dunque, non ricade soltanto su chi effettua lo scraping, ma può estendersi a chi non ha adottato cautele adeguate.
Gli obblighi GDPR restano fermi
Chi raccoglie dati tramite web scraping per finalità di IA, nella misura in cui è qualificabile come titolare del trattamento, resta vincolato a tutti gli obblighi del GDPR: individuazione di una idonea base giuridica, rispetto dei principi di limitazione della finalità, minimizzazione e riservatezza (art. 5). A monte di tutto opera il principio di accountability, che impone di documentare e giustificare ogni scelta effettuata.
Le misure giuridico-organizzative suggerite dal Garante
Il Garante non impone obblighi rigidi, ma indica una serie di cautele che il titolare può valutare di adottare. Sul piano giuridico e organizzativo, le principali misure suggerite sono:
- la creazione di aree riservate, accessibili solo previa registrazione, così da sottrarre i dati dalla libera consultazione del pubblico;
- l’inserimento di clausole anti-scraping nei Termini di Servizio del sito, che vietino espressamente la raccolta automatizzata dei dati;
- il monitoraggio del traffico verso le pagine web, per individuare flussi anomali di dati in entrata e in uscita.
- il monitoraggio del traffico HTTP e l’adozione di sistemi di rate limiting, per limitare il numero di richieste provenienti da una stessa fonte;
- l’uso di CAPTCHA, capaci di distinguere l’utente reale dal bot automatizzato;
- l’intervento sul file robots.txt, che consente di segnalare ai crawler le sezioni del sito da non indicizzare o raccogliere.
L’Autorità precisa con chiarezza che nessuna di queste misure, presa singolarmente, è in grado di azzerare il fenomeno al 100%. È la loro combinazione che permette di alzare progressivamente la soglia di protezione dei dati.
Conclusioni: un approccio proattivo alla tutela dei dati
Il provvedimento del Garante segna un passaggio importante nella protezione dei dati personali nell’era dell’intelligenza artificiale generativa. Pur non avendo carattere impositivo, esso responsabilizza chi pubblica dati online, invitandolo a un ruolo attivo e consapevole.
La vera sfida per imprese, enti e gestori di piattaforme è oggi quella di passare da un atteggiamento passivo a uno proattivo. Adottare misure adeguate e documentarle non è soltanto un adempimento formale, ma un investimento in fiducia, reputazione e sicurezza giuridica.
