La scorsa settimana Apple ha presentato un catalogo di audiolibri la cui voce narrante è stata creata utilizzando un software di intelligenza artificiale: una voce sintetizzata da un computer, che legge il testo in un modo sorprendentemente realistico e simile a una persona in carne e ossa. Secondo Apple si tratta di «un prezioso accompagnamento agli audiolibri narrati da professionisti», che potrebbe ampliare il pubblico di chi ascolta romanzi e saggi.

Il servizio di “narrazione digitale” è pensato per autori indipendenti e piccoli editori, che non possono permettersi di pagare un doppiatore professionista che registri integralmente il testo dei libri. È anche prevista una collaborazione con Draft2Digital, un servizio statunitense di self-publishing (con il quale cioè si può pubblicare un proprio libro senza editore), tramite il quale gli autori potranno «candidare il loro libro» per averne una versione narrata da un’intelligenza artificiale.

Al momento, l’offerta è riservata ai titoli disponibili su Apple Books, il portale per la vendita di ebook di Apple, con alcuni limiti: le opere devono essere in inglese, di fiction o di letteratura rosa, mentre thriller, romanzi fantascientifici e di mistero non risultano ancora supportati. È anche possibile scegliere la voce a cui farlo leggere tra quattro opzioni, pensate per un certo tipo di genere o atmosfera, dalla fiction alla saggistica.

Sul sito di Apple si possono ascoltare dei brevi estratti di libri letti dalle voci digitali, che risultano piuttosto credibili e stupefacenti per la loro capacità di sembrare umane. Per questo Apple è stata criticata e accusata di voler usare le IA per rendere i narratori professionisti di fatto obsoleti, sostituendoli con un software. David Caron, che si occupa di produrre audiolibri per un editore canadese, ha spiegato al Guardian quanto il ruolo dei narratori sia importante nel «creare qualcosa di totalmente diverso dal libro stampato ma in grado di aggiungere valore in quanto forma d’arte».

Un’eventuale adozione su larga scala dei software di questo tipo per la lettura dei testi, d’altra parte, rappresenterebbe molto probabilmente un importante progresso per quanto riguarda la disponibilità di audiolibri per le persone cieche e ipovedenti, dato che permetterebbe di produrne molti di più. Insieme ai sintetizzatori vocali che leggono con voci artificiali i file di testo digitali, e che hanno una qualità espressiva ridotta rispetto alla voce umana, gli audiolibri sono uno degli strumenti per leggere più usati da chi non vede.

L’intelligenza artificiale sviluppata da Apple è solo un esempio delle capacità raggiunte dalla tecnologia «text-to-speech», che permette di creare una voce digitale in grado di leggere contenuti scritti. Sul settore hanno investito tutte le principali aziende tecnologiche, da Meta a Google, oltre a molte startup più piccole. Recentemente Microsoft ha presentato VALL-E, un’intelligenza artificiale in grado di simulare la voce di una persona a partire da una clip di appena tre secondi, analizzando le caratteristiche del parlante e riproducendole digitalmente. Il nome VALL-E è un omaggio a DALL-E, un modello linguistico di successo sviluppato dalla società OpenAI, in grado di generare immagini a partire da una descrizione testuale.

Come spesso succede con Apple, le specifiche della tecnologia sono coperte dal segreto aziendale ma esistono molte startup e aziende che da tempo investono nella cosiddetta sintesi vocale, il meccanismo con cui è possibile riprodurre digitalmente le voce di una persona. Un procedimento simile è alla base del funzionamento di Siri, l’assistente vocale di Apple, o Alexa, di proprietà di Amazon, o della voce che TikTok mette a disposizione dei creatori per leggere le didascalie testuali dei propri video.

Pur non essendoci conferme definitive a riguardo, circolano teorie piuttosto credibili sulle identità delle persone la cui voce è stata usata come base per creare questi assistenti vocali. Nel caso di Alexa, per esempio, a svelarlo è stato Brad Stone, giornalista e già biografo del fondatore dell’azienda Jeff Bezos, nel suo ultimo libro, in cui ha dichiarato che la voce originale è di Nina Rolle, una doppiatrice e narratrice statunitense. Per quanto riguarda Siri, invece, sarebbe quella di Susan Bennett (una teoria mai confermata da Apple ma supportata «al cento per cento» da delle indagini forensi organizzate dalla CNN).

La sintesi vocale si basa sulla raccolta e sull’analisi di un archivio di registrazioni vocali da parte delle intelligenze artificiali, in grado di spezzettarle e concatenarle assieme per generare nuovi suoni e nuove parole. Tuttora i limiti della tecnologia riguardano soprattutto l’enfasi e le scarse capacità recitative di queste voci sintetiche. Anche nel caso del servizio di Apple, l’azienda ha preferito puntare sulle opere di saggistica, evitando soprattutto romanzi thriller, d’avventura o romantici, che altrimenti risulterebbero narrati con «una placidità da zombie», come scrive Slate.

Oltre che per la qualità del prodotto, la mossa di Apple ha fatto discutere anche per via degli ottimi risultati dimostrati negli ultimi mesi da servizi come MidJourney, Chat-GPT e la stessa DALL-E, in grado di generare immagini e testo. Il servizio di narrazione digitale conferma anche le ambizioni di Apple nel settore degli audiolibri, nel quale gode di una posizione di rilievo grazie alla piattaforma Apple Books. A dominare il campo è però Amazon, sia grazie al suo sito di e-commerce, sia grazie ad Audible, piattaforma specializzata in audiolibri di proprietà dell’azienda.

La concorrenza tra le due aziende è in aumento anche perché lo stesso mercato degli audiolibri è in crescita: il giro d’affari globale nel 2021 era di poco superiore ai quattro miliardi di dollari, ma è previsto che superi i 35 miliardi entro il 2030. In questo ambito, Amazon e Apple non si limitano a presentarsi come librerie online ma come piattaforme con cui è possibile pubblicare e monetizzare le proprie opere, grazie anche a una percentuale sulle vendite molto più alta di quella garantita agli autori dall’editoria tradizionale.

Il crescente successo del settore ha spinto anche Spotify a investire nel 2021 in Findaway, una piattaforma per la vendita di audiolibri che offre servizi simili e con cui la società di streaming musicale ha ampliato la sua offerta di contenuti. Questa nuova strategia era iniziata nel 2019, quando Spotify aveva cominciato a investire anche nel settore dei podcast, acquisendo lo studio di produzione Gimlet Media e i diritti di alcuni titoli di grande successo. Più recentemente, Spotify ha anche lavorato alla possibilità di acquistare audiolibri direttamente dalla app.

O meglio ci ha provato, perché l’aggiornamento dell’applicazione che includeva questa novità è stata bocciata tre volte dall’App Store, il negozio di applicazioni di Apple, che l’ha accettata solo dopo aver imposto a Spotify una serie di modifiche che hanno reso l’acquisto di audiolibri più complesso e meno immediato. La diatriba si inserisce in una lunga storia di conflitti tra le due società: tramite App Store, infatti, Apple trattiene il 30% di ogni acquisto effettuato attraverso le app disponibili per iPhone e iPad, compresi gli abbonamenti di Spotify. È per questo che, in molti casi, le applicazioni costringono gli utenti a finalizzare gli acquisti accedendo direttamente al sito attraverso un browser.

«La verità è che abbiamo già visto questo tipo di atteggiamento da parte di Apple. È il motivo per cui abbiamo presentato una causa contro Apple presso la Commissione europea, quattro anni fa», si legge in un sito creato appositamente da Spotify per denunciare le politiche portate avanti da Apple. Anche Epic Games, società sviluppatrice di videogiochi, tra cui Fortnite, ha denunciato Apple per lo stesso motivo, ritenendo di non dover cedere il 30% di ogni acquisto effettuato dai giocatori dall’applicazione mobile. Il processo è ancora in corso ma la sentenza di primo grado, giunta lo scorso anno, aveva dato perlopiù ragione ad Apple, per la quale la vendita di servizi digitali, che comprende Apple Music, Apple TV, Apple Pay, il settore del gaming e gli acquisti in-app, è valsa 78 miliardi di dollari nel 2022.