New York Times vs. OpenAI: la causa per violazione del copyright prosegue
Il giudice federale Sidney Stein del Distretto Sud di New York ha respinto con ordinanza l’istanza di OpenAI volta a ottenere il rigetto anticipato delle pretese del New York Times per intervenuta prescrizione. La causa, promossa dal quotidiano nel dicembre 2023, si fonda sull’allegata violazione del diritto d’autore da parte di OpenAI, accusata di aver utilizzato, per finalità di addestramento dei propri modelli generativi (tra cui ChatGPT), contenuti protetti tratti dagli archivi editoriali del Times, senza autorizzazione né licenza. Analizziamo questa controversia in tema di proprietà intellettuale sull’addestramento dell’AI con articoli protetti da copyright.
La questione della prescrizione e l’onere probatorio
OpenAI aveva sostenuto che le pretese del Times dovessero ritenersi prescritte, sulla base dell’assunto secondo cui il giornale sarebbe stato a conoscenza dell’uso dei propri contenuti già a partire dal 2020, anche in forza di un proprio articolo che riferiva delle attività di addestramento dei modelli AI da parte della società. Secondo tale tesi, il termine di decadenza biennale previsto dal Copyright Act (17 U.S. Code § 507(b)) avrebbe dovuto ritenersi già decorso al momento della proposizione della causa.
Il giudice Stein ha però chiarito che grava sull’autore dell’eccezione di prescrizione l’onere di dimostrare che l’attore fosse effettivamente a conoscenza, o che avrebbe dovuto ragionevolmente esserlo, dell’illecita utilizzazione dei contenuti oggetto di tutela. Nel caso di specie, l’articolo citato da OpenAI si limitava a descrivere genericamente che l’azienda stava addestrando i propri modelli su un corpus di testi di grandi dimensioni, senza alcun riferimento specifico alla possibilità che ChatGPT, lanciato pubblicamente solo nel novembre 2022, potesse in futuro restituire output testuali riconducibili a contenuti editoriali protetti del New York Times.
Pertanto, ha concluso il giudice, OpenAI non ha fornito elementi sufficienti per dimostrare che il Times fosse in grado, già nel 2020, di avere contezza del comportamento lesivo alla base della domanda giudiziale.
La responsabilità per contributory infringement
Il giudice ha inoltre rigettato la richiesta di OpenAI di escludere l’ulteriore capo d’accusa fondato su contributory copyright infringement. Il Times ha infatti sostenuto che OpenAI, addestrando i propri modelli su contenuti del quotidiano e progettando il sistema in modo tale da permettere agli utenti di eludere i paywall, avrebbe concorso alla violazione del copyright da parte degli utenti stessi.
Il tribunale ha ritenuto che il quotidiano abbia fornito elementi sufficienti a rendere “plausibile” la fondatezza di tale pretesa, allegando oltre 100 pagine di esempi documentali e richiamando segnalazioni inviate direttamente a OpenAI. Secondo il giudice, tali elementi possono supportare l’esistenza almeno di una “conoscenza costruttiva”, se non addirittura “effettiva”, da parte della convenuta circa la potenziale violazione da parte degli utilizzatori del servizio.
Particolarmente significativa la considerazione secondo cui la natura interattiva e continuativa del rapporto tra OpenAI e gli utenti – basato su risposte personalizzate ai prompt – possa giustificare un’ipotesi di responsabilità contributiva, nonostante la presenza di “usi sostanzialmente non lesivi” da parte del modello.
Le domande rigettate
OpenAI ha ottenuto il rigetto di alcuni capi di domanda secondari. Tra questi, la Corte ha dichiarato inammissibile la teoria del “free riding”, con cui il Times sosteneva che ChatGPT traesse indebitamente vantaggio economico da contenuti “time-sensitive”, in particolare gli articoli della sezione Wirecutter. Il giudice ha osservato che, in molti casi, ChatGPT menzionava espressamente la fonte, escludendo così la configurabilità del danno da mancata attribuzione. Inoltre, ha rilevato che tali condotte sarebbero comunque assorbite dalla disciplina del Copyright Act, rendendo superflua la qualificazione sotto altre fattispecie.
È stata inoltre rigettata l’ulteriore domanda relativa alla rimozione delle informazioni di gestione dei diritti (CMI) ai sensi del DMCA, sul presupposto che l’eventuale assenza di metadati nei testi prodotti da ChatGPT non sia sufficiente a integrare la fattispecie, mancando un’evidente “identità sostanziale” con l’opera protetta.
Conclusioni e prospettive processuali
Il procedimento, dunque, proseguirà verso la fase successiva, nella quale OpenAI potrà cercare di dimostrare la consapevolezza pregressa da parte del Times. Tuttavia, allo stato attuale, secondo il giudice Stein, non vi sono presupposti per un rigetto anticipato delle pretese.
Da parte sua, OpenAI ha ribadito la propria posizione difensiva, basata sulla teoria del fair use dell’addestramento su dati pubblicamente disponibili:
“I nostri modelli sono strumenti a supporto della creatività umana, della ricerca scientifica e dell’innovazione quotidiana. Il loro sviluppo si fonda sull’utilizzo lecito di dati pubblici e sul principio del fair use.”
