I giganteschi dataset di canzoni rubate usati dagli sviluppatori di AI
Ne contengono a milioni teoricamente protette da diritto d'autore, usate per produrne altre generiche e derivative che si stanno infilando ovunque

L’utilizzo indiscriminato di canzoni protette da copyright per l’addestramento dei software di intelligenza artificiale, che le elaborano e le riassemblano per creare nuove composizioni, è un tema molto sentito dagli addetti ai lavori. Gli sviluppatori possono accedere con molta semplicità a cataloghi immensi e sfruttarli per allenare i loro modelli senza sostenere alcun costo e senza dare alcun compenso a chi li ha scritte e prodotte. Musicisti e società discografiche equiparano questa pratica a un gigantesco furto di proprietà intellettuali, e stanno provando a far valere le loro ragioni in varie cause legali.
Una recente inchiesta dell’Atlantic ha raccontato dettagliatamente il contenuto di alcuni dataset estesamente utilizzati dagli operatori del settore. Alex Reisner, il giornalista che l’ha realizzata, è riuscito ad accedervi frequentando siti specializzati in condivisione di dati per l’intelligenza artificiale e consultando riferimenti presenti in articoli scientifici. I dataset scandagliati da Reisner sono quattro: uno contiene 12 milioni di brani (per ascoltarlo interamente servirebbero circa 91 anni), un altro 9 milioni, gli altri due più di 100mila.
Contengono un po’ di tutto e coprono ogni genere, dal pop alla musica colta, dalla techno all’heavy metal, fino alla musica classica. I repertori provengono da artisti di tutto il mondo, compresa l’Italia. Ci sono cantanti che riempiono gli stadi come Vasco Rossi, Luciano Ligabue, Jovanotti, Ultimo e Pinguini Tattici Nucleari; cantautori come Fabrizio De André, Francesco Guccini e Lucio Dalla; e rapper come Marracash, Fabri Fibra e Guè. Ma ci sono anche canzoni di gruppi di ultra nicchia, ascoltati soltanto da qualche migliaio di persone: Giorgio Canali e Rossofuoco, Sick Tamburo, Yuppie Flu, Uzeda e Il quadro di Troisi, per fare degli esempi.
Dei quattro dataset analizzati dall’Atlantic uno è una vera e propria raccolta di file audio in formato MP3, mentre gli altri tre sono di fatto liste sconfinate di link che portano a canzoni caricate su Spotify e su YouTube. Reisner ha scritto che gli sviluppatori scaricano le relative tracce audio utilizzando programmi che consentono di aggirare le procedure d’accesso e le pubblicità e di accedere a contenuti che altrimenti sarebbero accessibili solo con un abbonamento, eludendo le protezioni e le condizioni di utilizzo delle piattaforme.
Reisner ha scritto che questi sono stati scaricati «migliaia di volte», ma a causa della riservatezza delle aziende del settore non è possibile sapere da chi. L’unica informazione verificata riguarda il 2022, quando uno di questi dataset fu utilizzato sia da Google sia da Stability, azienda britannica nota per lo sviluppo di Stable Diffusion, un modello capace di generare immagini a partire da input testuali.
– Leggi anche: Spotify è circondato dalle intelligenze artificiali
L’accesso a queste canzoni consente ai software di intelligenza artificiale di generare una canzone sulla base di alcune semplici richieste dell’utente: il genere musicale (rock o country, per esempio), il ritmo, l’atmosfera e alcune indicazioni per l’eventuale testo. Queste operazioni sono alla portata di chiunque, dato che per farlo basta pagare un abbonamento piuttosto contenuto senza bisogno di una qualsiasi competenza musicale. Le canzoni prodotte in questo modo possono ricordare molto da vicino altre ben più famose, e in molti contesti stanno affiancando o addirittura sostituendo le composizioni umane, senza che gli autori originali, grazie ai quali esistono, percepiscano alcun compenso.
A novembre, per fare un esempio, durante un’esibizione i pattinatori sul ghiaccio cechi Kateřina Mrázková e Daniel Mrázek avevano danzato su una composizione generata dall’AI che suonava come una generica canzone rock e riprendeva testualmente alcuni versi di “You Get What You Give”, la famosa canzone dei New Radicals. La coppia aveva usato una canzone fatta con l’AI anche durante le Olimpiadi di Milano Cortina di febbraio.
Dal 2024 alcune grandi case discografiche statunitensi (tra cui Warner, Sony e Universal, le tre più grandi al mondo) hanno intentato una causa legale per violazione del copyright contro Suno e Udio, i due software più utilizzati per generare musica. Hanno chiesto un risarcimento di 150mila dollari (circa 140mila euro) per ogni brano utilizzato senza licenza, oltre alla diffida a utilizzare materiale protetto da diritto d’autore in futuro. Inizialmente le società avevano contestato a Suno l’utilizzo di 560 canzoni prese dai loro cataloghi, ma a maggio hanno ampliato la lista a 61.026. Udio invece avrebbe utilizzato senza autorizzazione più di 30mila canzoni solo dal catalogo di Sony.
La difesa di Suno e Udio si basa interamente sul cosiddetto “fair use” (“utilizzo leale”), una disposizione della legge statunitense sul copyright che permette di usare legalmente materiale protetto dal diritto d’autore nei casi in cui lo scopo sia d’informazione, critica o insegnamento, senza chiedere l’autorizzazione a chi ne possiede i diritti. La disciplina è molto complessa, ma il presupposto fondamentale è che il materiale protetto venga impiegato per un uso “trasformativo”: ossia che venga modificato o reinterpretato in modo da creare un nuovo significato, diverso dall’originale.
I legali dei due servizi hanno impostato la propria strategia difensiva su due sentenze (Bartz vs Anthropic e Kadrey v. Meta Platforms) che hanno stabilito che l’addestramento di un’intelligenza artificiale, se fondato su opere acquistate legalmente o comunque ottenute attraverso canali leciti, rappresenta un utilizzo trasformativo e può essere quindi inquadrato nel fair use.
Le case discografiche, rappresentate dalla Recording Industry Association of America, un’associazione di categoria, sostengono invece che moltissimi brani generati dall’AI siano molto simili alle versioni originali, e che le voci siano in certi casi indistinguibili da quelle reali. In molte altre occasioni le canzoni generate dall’AI incorporano elementi provenienti dalle versioni originali (una strofa, una linea di basso, un pattern di batteria e così via).
– Leggi anche: Forse questa band non esiste
L’abbonamento a Suno, il servizio più utilizzato al mondo, costa 8 dollari al mese (circa 7 euro) e permette di generare fino a 500 brani, che possono essere caricati sulle piattaforme di streaming audio come Spotify, e quindi commercializzati. Pagando l’abbonamento “Premier”, che costa 24 dollari (20 euro), se ne possono generare 2mila.
La facilità con cui si può generare musica attraverso questi strumenti l’ha resa rapidamente onnipresente su tutte le piattaforme di streaming. A settembre Spotify aveva rimosso 75 milioni di canzoni generate dall’intelligenza artificiale. Deezer (una piattaforma di streaming francese) ha invece recentemente fatto sapere che quasi la metà dei file che vengono caricati ogni giorno sulla piattaforma sono creati con software di questo tipo.
Una delle aziende che sta sdoganando maggiormente l’utilizzo di musica generata con l’intelligenza artificiale è Google, che ha integrato questa funzione nei suoi prodotti. Gemini, il suo chatbot, può creare brani di 30 secondi a partire da testi, foto o video caricati dagli utenti. E YouTube (piattaforma di proprietà di Google) permette ai creatori di contenuti di utilizzare basi musicali generate dall’intelligenza artificiale.
– Leggi anche: Le canzoni fatte con l’intelligenza artificiale fanno capolino nelle classifiche
Capita sempre più spesso che canzoni generate con l’intelligenza artificiale ottengano risultati d’ascolto notevoli. Nel 2024 per esempio era stato scoperto che Michael Smith, un anonimo musicista statunitense, aveva ottenuto più di 10 milioni di dollari in royalties dalle principali piattaforme di streaming musicale grazie a stratagemmi di questo tipo. In sostanza utilizzava vari software per generare moltissime canzoni, le caricava con nomi di band inventate e poi creava migliaia di account falsi e automatizzati in modo da gonfiare i numeri di ascolti giornalieri calcolati dalle piattaforme, riuscendo così a ottenere gli stessi compensi di gruppi e musicisti conosciuti da centinaia di migliaia di persone.
La scorsa estate invece i Velvet Sundown, una band di rock psichedelico fino a quel momento sconosciuta, avevano ottenuto un successo straordinario su Spotify nel giro di un paio di settimane, superando i 500mila ascoltatori mensili. Fin dall’inizio si era diffuso il sospetto che le loro canzoni fossero state create con l’intelligenza artificiale, sospetto poi confermato dalla stessa band (che quindi probabilmente nemmeno esisteva), che aveva descritto la propria musica come «una provocazione artistica pensata per mettere in discussione i confini dell’autorialità, dell’identità e della musica stessa nell’era delle AI».
– Leggi anche: Il disco senza musica pubblicato dai musicisti britannici contro i piani del governo sull’AI



