Training AI: foto con copyright utilizzabili anche senza consenso ma solo per ricerca e da Onlus
di Michele Di Salvo
Abstract. Il Tribunale di Amburgo ammette l’uso di immagini protette dal diritto d’autore per addestrare un sistema di intelligenza artificiale, se effettuato per scopi di ricerca scientifica da un’organizzazione no-profit. L’opt-out del titolare del diritto non ha carattere assoluto ed illimitato.
La sentenza oggetto di commento è particolarmente rilevante perché si tratta della prima decisione resa da un Tribunale di uno Stato Membro dell’U.E. sulla riproduzione delle immagini a scopo di analisi del contenuto e della relativa descrizione testuale ovvero per la raccolta ed esame dei dati funzionali al training dei sistemi di IA.
Il caso. La vicenda vede contrapposti il fotografo professionista R.K. e l’organizzazione no-profit LAION.
Accedendo alla piattaforma Have I Been Trained (che consente di scoprire in pochi secondi se una propria foto è stata utilizzata per addestrare un sistema di intelligenza artificiale), il fotografo R.K. aveva scoperto l’utilizzo senza consenso di una sua fotografia.
Era bastato caricare la foto sul motore di ricerca per accedere all’enorme archivio di immagini chiamato LAION-5B, rintracciando non la riproduzione dell’immagine fotografica ma chiare evidenze della correlazione tra la fotografia medesima e l’URL usato per l’identificazione dell’opera downloadata sul web.
LAION è un’organizzazione no-profit tedesca che rilascia gratuitamente dataset di intelligenza artificiale in modalità open source.
Ad oggi, LAION dispone di una libreria di circa sei miliardi di immagini utilizzate per alimentare Stable Diffusion, Google Image, Midjourney, DALL-E e tanti altri.
L’opera fotografica era stata originariamente pubblicata nello stock di un’agenzia fotografica per la concessione in licenza a titolo oneroso, con l’apposizione di una dichiarazione di riserva che vietava la riproduzione automatizzata del database con tecniche web scraping (c.d. opt-out).
L’opera fotografica di R. K. era stata comunque utilizzata durante il processo di creazione del dataset. In particolare, LAION aveva recuperato l’immagine dal sito web dell’agenzia fotografica ed utilizzato un software per verificare la corrispondenza delle descrizioni presenti nel dataset di origine con il corrispondente contenuto visivo. Nell’ambito di tale verifica sulla corrispondenza testo-immagine, LAION aveva temporaneamente memorizzato l’immagine corrispondente alla fotografia per implementare e sviluppare sistemi di IA attraverso la selezione di dati funzionali al sistema medesimo.
Il fotografo è ricorso al Tribunale di Amburgo che, negando tutela al Sig. K., ha accolto, seppur in parte, le difese di LAION.
La decisione del Tribunale di Amburgo. Secondo il Tribunale tedesco, è ammesso l’uso di opere protette dal diritto d’autore per l’estrazione ed analisi di dati fatti da organismi di ricerca per scopi di ricerca scientifica di cui all’articolo 3 della Direttiva Copyright e all’articolo 60d dell’UrhG.
I sistemi di intelligenza artificiale vanno addestrati attraverso la creazione di un dataset. Tale contributo, pur non generando un’acquisizione immediata di conoscenza, costituisce – in ogni caso – un lavoro preordinato al raggiungimento di future conoscenze e/o sviluppi anche per scopi di ricerca.
A ciò si aggiunga che LAION è un’organizzazione no-profit che ha pubblicato gratuitamente il dataset contestato dal fotografo perché potesse essere messo a disposizione di ricercatori nel campo delle reti neutrali artificiali.
Non rileva, a parere del Tribunale, il fatto che i membri della medesima organizzazione LAION siano società commerciali o, ancora, che il medesimo dataset possa essere utilizzato, oltre che dai ricercatori, anche da società commerciali con finalità di lucro.
Il Tribunale di Amburgo, che ha escluso la riproduzione temporanea ex art. 5 paragrafo 1 della Direttiva 2001/29/CE, ha inoltre precisato che non è stato provato né tanto meno dimostrato l’eventuale accesso privilegiato ai risultati della ricerca ad aziende commerciali (membri dello stesso organismo di ricerca).
I giudici tedeschi hanno poi fornito importanti chiarimenti sull’opt-out del titolare del diritto ovvero sulla dichiarazione di riserva pubblicata sul sito dell’agenzia fotografica ai sensi dell’art. 4, paragrafo 3, Direttiva UE 2019/790.
L’opt-out e il training dei dataset per i sistemi di intelligenza artificiale. Ai sensi dell’art. 53, paragrafo 1, del Regolamento UE 1689/2024 sull’intelligenza artificiale (c.d. AI Act): “I fornitori di modelli di AI per finalità generali: …c) attuano una politica volta ad adempiere al diritto dell’Unione in materia di diritto d’autore e diritti ad esso collegati e, in particolare, a individuare e rispettare, anche attraverso tecnologie all’avanguardia, una riserva di diritti espressa a norma dell’articolo 4, paragrafo 3, della direttiva (UE) 2019/790; d) redigono e mettono a disposizione del pubblico una sintesi sufficientemente dettagliata dei contenuti utilizzati per l’addestramento del modello di IA per finalità generali, secondo un modello fornito dall’ufficio per l’IA”.
La dichiarazione di riserva si applica all’estrazione di testo e di dati per la creazione di dataset di addestramento di sistemi di IA.
Il fotografo, Sig. R. K., si era avvalso della dichiarazione di riserva pubblicata sul sito dell’agenzia fotografica e in un formato “machine understandable” ovvero in maniera comprensibile dai sistemi di IA.
L’esercizio dell’opt-out è legittimo ma, come precisa la Corte di Amburgo, non è assoluto ed illimitato. Il Tribunale tedesco ha posto dei limiti all’opt-out da parte dei titolari dei diritti d’autore all’uso dei contenuti per il training dell’intelligenza artificiale per scopi di ricerca scientifica fatti da LAION.
L’art. 70 ter della Legge sul diritto d’autore. Nel nostro ordinamento, vale la pena rilevare che la Direttiva Copyright è stata recepita con il D.Lgs. 8 novembre 2021, n. 177 che ha introdotto l’art. 70 ter della Legge italiana sul diritto d’autore.
Anche in Italia, infatti, è ammessa l’estrazione di testo e dati per scopi di ricerca scientifica. La norma stabilisce che gli enti di ricerca includono università, istituti e altre entità con finalità di ricerca.
Sono consentite, infatti, “le riproduzioni compiute da organismi di ricerca e da istituti di tutela del patrimonio culturale, per scopi di ricerca scientifica, ai fini dell’estrazione di testo e di dati da opere o da altri materiali disponibili in reti o banche di dati cui essi hanno lecitamente accesso, nonché la comunicazione al pubblico degli esiti della ricerca ove espressi in nuove opere originali. Ai fini della presente legge per estrazione di testo e di dati si intende qualsiasi tecnica automatizzata volta ad analizzare grandi quantità di testi, suoni, immagini, dati o metadati in formato digitale con lo scopo di generare informazioni, inclusi modelli, tendenze e correlazioni”.
Alla luce di quanto sopra, si ritiene che ai sensi dell’art. 70 ter della Legge sul diritto d’autore, le correlazioni effettuate da LAION tra l’immagine del fotografo e l’URL di identificazione avrebbero potuto ritenersi conformi alla normativa sul diritto d’autore.
Conclusioni. La tutela delle opere protette dal diritto d’autore può essere sacrificata nel caso di riproduzioni effettuate da organismi di ricerca (tra cui organizzazioni no-profit) per finalità di pre-training di sistemi di intelligenza artificiale.
L’attività di pre-training, consistente nella selezione, analisi e pulizia dei dati di addestramento, va considerata come attività di ricerca meritevole di tutela.
In ogni caso, la decisione mette in evidenza il difficile equilibro tra il diritto della proprietà intellettuale e lo sviluppo delle nuove tecnologie, favorendo gli interessi dei sistemi di intelligenza artificiale che – per crescere – devono per forza contare sui contributi autoriali di terzi.
Considerazioni sulla sentenza. Il vulnus maggiore della sentenza tedesca è insito in due affermazioni che lasciano trasparire un approccio ed una competenza di comprensione del fenomeno AI troppo “old economy”.
La prima è quella secondo cui “non rileva, a parere del Tribunale, il fatto che i membri della medesima organizzazione LAION siano società commerciali o, ancora, che il medesimo dataset possa essere utilizzato, oltre che dai ricercatori, anche da società commerciali con finalità di lucro.”
questo evidentemente contrasta con il fatto oggettivamente dimostrato che “LAION dispone di una libreria di circa sei miliardi di immagini utilizzate per alimentare Stable Diffusion, Google Image, Midjourney, DALL-E e tanti altri”.
La seconda è quella secondo cui “L’esercizio dell’opt-out è legittimo ma, come precisa la Corte di Amburgo, non è assoluto ed illimitato. Il Tribunale tedesco ha posto dei limiti all’opt-out da parte dei titolari dei diritti d’autore all’uso dei contenuti per il training dell’intelligenza artificiale per scopi di ricerca”.
Appare trasversalmente evidente quindi l’escamotage: l’azienda commerciale – di fronte al limite dell’utilizzabilità – crea un soggetto no-profit che “a scopo di ricerca” acquisisce e utilizza le immagini per il machine learning e l’addestramento di AI, ma facendolo “come diaframma legale no profit” e dichiarando “a scopo di ricerca” (non si comprende nello specifico quale, se non il machine learning) acquisisce l’accesso non prima legittimo e lo mette a disposizione dei suoi “soci”.
Quello che sfugge al tribunale – oltre alla ontologica creazione di un soggetto fittizio per bypassare la norma – è che ai fini dell’AI avere dataset di addestramento è un asset economico-commerciale di valore ben maggiore (allo stato delle cose) rispetto all’out-put commerciale vero e proprio.
Miglior e e più ampio dataset di addestramento significa maggiore performance e maggiore “base di metadati” per out-put a più alto valore aggiunto, oltre che maggiore performance del sistema in sé.
Ciò è tanto indispensabile che anche colossi come Google Image e Midjourney (che di per sé hanno accesso diretto a dataset esorbitanti) puntano anche a “nicchie” di sei miliardi di immagini.
Una rilevanza trasversale che riscontriamo per altre vie.
Una recente metodologia adottata per fornire dataset di addestramento alla AI era di far generare contenuti ad una macchina 1 a scopo di generare dataset per la macchina 2 da addestrare. Sul medio periodo si è rilevato che la macchina 2 aveva un progressivo calo di performance: non lavorava bene con dataset forniti da un’altra AI: aveva bisogno di “materiale originale e umanamente trattato” per imparare.
Rispondendo apparentemente ad una istanza “sociale” di recente Meta ha comunicato l’eliminazione di filtri per il “miglioramento estetico” delle fotografie. Dietro questa politica – che evidentemente comporta una perdita di profitto per l’azienda – in realtà si nasconde la stessa problematica: la AI dei gruppo meta vuole “foto vere” e non rielaborate con filtri, che appaiono (e sono) foto generate da un’altra AI.
Questa via ci fa comprendere quale sia il valore – immediato, economico e finanziario – dei dataset di addestramento, che talvolta superano quelli della vendita di un servizio ampiamente diffuso come i filtri fotografici immediatamente disponibili.
Questo bisogno “sopravvivenziale” per le AI è dimostrato anche da alcuni casi – sempre meno marginali e sporadici – denunciati in rete, da cui si evince come la voracità dei bot di OpenAl ha distrutto siti web come fossero attacchi DdoS.
OpenAl stava ha inviato decine di migliaia di richieste al server nel tentativo di scaricare tutto, centinaia di migliaia di foto, insieme alle loro descrizioni dettagliate. I crawler di OpenAl stavano distruggendo il sito web colpito anche se questo aveva una sezione di termini di servizio sul suo sito che proibisce ai bot di prendere le sue immagini senza permesso. Ma questo da solo non è bastato.
I siti Web devono usare un file robot.txt correttamente configurato con tag che dicono specificamente al bot di OpenAl, GPTBot, di lasciare il sito in pace. (OpenAl ha anche un paio di altri bot, ChatGPT-User e OAI-SearchBot, che hanno i loro tag, secondo la sua pagina di informazioni sui suoi crawler.)
In proposito i log dei server di Triplegangers sono stati resi pubblici per dimostrare l’iper invasività di questi “attacchi”.
È chiaro quindi che – allo stato attuale dello sviluppo tecnologico delle Ai generative – i dataset di machine learging a scopo di addestramento hanno un valore commerciale ben maggiore dell’out-put finale.
Non comprendere questo fatto intrinseco lascia aperta la via ad escamotage di comodo come quello di Laion. E non è difficile chiudere Lion ed aprirne altre cento. Sfruttando semplicemente le maglie interpretative di un regolamento (UE 1689/2024 sull’intelligenza artificiale (c.d. AI Act) che invece andrebbe interpretato con maggior rigore e ristrettezza.
Limitarsi per altro a usare anche file robot.txt correttamente configurati non basta e non è sufficiente: primo perché le società di sviluppo di AI hanno immense risorse per creare di volta in volta ulteriori bot con una variazione di una lettera o un numero bypassando le policy di restrizione, e poi perché potrebbero sempre addurre che “l’addestramento è ricerca e non out-put commerciale”.
Infine, quando il maggiore motore di ricerca del mondo occidentale dichiara tra le righe ma con molta chiarezza che avendo integrato la sua AI con il Search, se non autorizzi all’addestramento non ti indicizza il sito web… il gioco è fatto.
Ecco che comprendere davvero e nel profondo delle sue dinamiche il fenomeno, e applicare le norme nella loro lettura rigida e ristretta, resta la sola via per porre un argine alla violazione delle policy (e delle leggi).
Salvis Juribus – Rivista di informazione giuridica
Direttore responsabile Avv. Giacomo Romano
Listed in ROAD, con patrocinio UNESCO
Copyrights © 2015 - ISSN 2464-9775
Ufficio Redazione: redazione@salvisjuribus.it
Ufficio Risorse Umane: recruitment@salvisjuribus.it
Ufficio Commerciale: info@salvisjuribus.it
***
Metti una stella e seguici anche su Google News