Diritto d'autore e Intelligenza Artificiale: tra tutela degli autori e sfide tecnologiche nei casi GEMA vs OpenAI e Kneschke vs LAION
Introduzione
Negli ultimi mesi la Germania è diventata epicentro di due vicende legali che potrebbero ridefinire il rapporto tra diritto d’autore e intelligenza artificiale in Europa. Da un lato la causa GEMA contro OpenAI, che coinvolge la presunta violazione dei diritti d’autore su testi musicali da parte del noto chatbot ChatGPT, dall’altro la decisione del Tribunale Regionale di Amburgo nella causa intentata dal fotografo Robert Kneschke contro la fondazione LAION, riguardante l’utilizzo non autorizzato di contenuti visivi protetti per il training di modelli di IA.
Entrambi i procedimenti ruotano attorno a un nodo giuridico centrale: l’uso di opere protette da copyright nell’addestramento di sistemi generativi, e l’applicabilità o meno dell’eccezione per text and data mining (TDM) ai sensi dell’articolo 44b della legge tedesca sul diritto d’autore (UrhG), strumento di recepimento della Direttiva UE 2019/790.
GEMA vs OpenAI: un nuovo fronte tra diritto d’autore e IA generativa
La GEMA, omologa tedesca della SIAE, tutela oltre 95.000 autori ed editori musicali e ha il ruolo di organismo di gestione collettiva dei diritti. Il 13 novembre 2024 ha avviato una causa contro OpenAI presso il Tribunale Regionale di Monaco, accusando la società statunitense – e la sua controllata europea OpenAI Ireland Ltd – di utilizzare testi di canzoni protetti per addestrare modelli linguistici come ChatGPT senza la necessaria licenza.
Secondo GEMA, numerosi brani presenti nel suo repertorio sarebbero rilevabili tra gli output generabili dal chatbot, sintomo di un uso massivo delle opere tutelate in fase di training. Questo, in assenza di autorizzazione e in presenza di una riserva d’uso formalmente espressa da GEMA per conto dei propri associati, configurerebbe una grave violazione del diritto d’autore.
A supporto della propria posizione, GEMA ha pubblicato una Carta dell’IA con cui afferma la centralità dell’autore umano nel processo creativo e propone un modello di licenza che consenta uno sfruttamento equo e trasparente delle opere da parte dei sistemi di IA.
Conferme empiriche: il progetto AI Disclosures e lo studio sui dati O’Reilly Media
Una recente evidenza empirica sembra confermare i sospetti avanzati da GEMA sulla natura dei dati utilizzati da OpenAI. Lo studio condotto dall’AI Disclosures Project – iniziativa guidata dal tecnologo Tim O’Reilly e dell’economista Ilan Strauss – ha analizzato il comportamento del modello GPT-4o di OpenAI rispetto a 34 libri protetti da copyright pubblicati da O’Reilly Media, editore noto per contenuti specializzati venduti dietro paywall.
Attraverso un’attenta verifica tecnica (DE-COP membership inference attack), i ricercatori sono giunti a un risultato di rilievo: GPT-4o ha dimostrato una “forte capacità di riconoscere” contenuti coperti da diritti e non accessibili pubblicamente, ottenendo un punteggio AUROC – una metrica di valutazione usata in statistica e machine learning per misurare la performance di un modello – dell’82%. In confronto, il modello GPT-3.5 Turbo mostrava interazioni molto più limitate con tali contenuti, con un punteggio vicino al 50%.
Il report evidenzia anche che i libri in questione erano disponibili, senza autorizzazione, su database come LibGen, suggerendo che OpenAI abbia potuto accedervi tramite fonti illegali o grigie. In ogni caso, secondo gli autori, lo studio conferma che GPT-4o sia stato addestrato con dati proprietari di O’Reilly Media, in assenza di una licenza esplicita.
Questi elementi rafforzano la tesi secondo cui vi sia una prassi diffusa da parte dei fornitori di IA generativa nel coinvolgere contenuti protetti durante la fase di pre-training, senza opportune autorizzazioni. Il problema, infatti, non riguarda solo la musica o i testi, ma ogni tipologia di contenuto creativo (immagini, libri, giornalismo, ecc.).
LAION vs Kneschke: primi orientamenti del Tribunale di Amburgo
Un’importante pronuncia è arrivata lo scorso 27 settembre 2024 dal Tribunale Regionale di Amburgo, chiamato a decidere nella controversia tra il fotografo professionista Robert Kneschke e LAION e.V., una organizzazione non-profit che si occupa di costruire dataset da utilizzare per l’addestramento di modelli IA generativi. Al centro della causa vi era l’accusa mossa da Kneschke a LAION di aver incluso, senza autorizzazione, una sua fotografia nel dataset LAION-5B, impiegato da soggetti come Stability AI per l’addestramento di modelli di generazione visiva.
Secondo il ricorrente, l’estrazione automatica dell’immagine dai canali pubblici del web costituiva una riproduzione non autorizzata e dunque una violazione del diritto d’autore. Di contro, LAION ha difeso la propria attività, sostenendo che il download dell’immagine — in bassa risoluzione e con watermark — era avvenuto per scopi esclusivamente scientifici, nell’ambito della creazione libera e non commerciale di dataset.
Il Tribunale di Amburgo ha rigettato la domanda dell’autore, affermando che non si è verificata alcuna violazione del diritto d’autore, in quanto l’attività di LAION è risultata correttamente inquadrabile come text and data mining (TDM) per finalità di ricerca scientifica, ai sensi dell’articolo 3 della Direttiva sul mercato unico digitale (Direttiva 2019/790/UE), recepita in Germania all’art. 60d UrhG, la Legge sul diritto d’autore della Repubblica Federale di Germania.
La Corte ha chiarito che, nel caso di LAION, si configurano tutti gli elementi richiesti dalla norma:
- la natura non commerciale del soggetto (ente non-profit);
- la finalità scientifica del TDM (il dataset è stato pubblicato gratuitamente e a disposizione della comunità accademico-scientifica);
- l’assenza di finalità diretta di sfruttamento commerciale dell’opera tutelata.
Significativamente, la Corte ha anche respinto l’argomentazione secondo cui la presenza, nel team LAION, di alcuni dipendenti collegati a società commerciali (in particolare, Stability AI) invalidasse la natura scientifica dell’attività. Secondo il tribunale, l’assenza di un’influenza decisiva da parte di soggetti commerciali nel processo decisionale e operativo di LAION consente di mantenere la caratterizzazione come “ente scientifico”.
Il giudice ha aggiunto che il web scraping finalizzato alla costruzione di un dataset, di per sé, non determina automaticamente un uso “commerciale” dell’opera, e ha sottolineato l’esigenza di distinguere tra le tre fasi funzionali dell’IA:
- la creazione dei dataset,
- l’addestramento tecnico del modello,
- l’utilizzo commerciale del modello addestrato (AI generativa in senso stretto).
Essendo applicabile l’art. 60d UrhG, il titolare del diritto d’autore (Kneschke) non aveva la possibilità di opporsi preventivamente mediante una riserva d’uso (opt-out), facoltà prevista solo per il TDM a fini non scientifici disciplinato all’art. 44b UrhG.
In ogni caso, nel testo della sentenza, il Tribunale ha espresso, in obiter dictum, un’indicazione di principio di ampio rilievo: una riserva d’uso espressa in linguaggio naturale (ossia non codificata tecnicamente) potrebbe essere considerata “leggibile da macchina”, dato che già dal 2021 esistono tecnologie in grado di individuare tali dichiarazioni tra i dati web.
Implicazioni sistemiche: verso una governance europea dell’intelligenza artificiale
L’insieme dei casi citati – GEMA vs OpenAI, Kneschke vs LAION e i rilievi dell’AI Disclosures Project – indica in modo chiaro l’assenza di regole consolidate e l’urgente necessità di definire criteri condivisi per l’uso lecito delle opere nell’addestramento delle IA generative.
Il principio del “fair balance”, riconosciuto dalla Corte di Giustizia dell’UE, impone una valutazione proporzionata tra il diritto di proprietà intellettuale, la libertà di espressione, la libertà d’impresa e la promozione della scienza. In questo quadro, il legislatore e le corti sono chiamati a calibrare strumenti giuridici e tecnici per dare certezza giuridica sull’efficacia delle riserve d’uso, promuovere modelli di licenza interoperabili, simili a quelli già elaborati da GEMA; introdurre obblighi di trasparenza (data provenance disclosure), come già previsto dal Regolamento UE sull’AI (AI Act), attualmente in fase di attuazione.
È prevedibile che nei prossimi mesi anche altri organismi di gestione collettiva, come SIAE, SACEM o PRS for Music, intraprendano azioni coordinate per proteggere i propri repertori. Parallelamente, un mercato della licenza per l’addestramento dei dati potrebbe strutturarsi, già oggi alimentato da player come Defined.ai.
Il futuro dell’intelligenza artificiale passerà anche da qui: dalla capacità di coniugare libertà di innovare con rispetto per l’ingegno umano.
