Ascoltatori artificiali: viaggio nella uncanny valley della musica ascoltata, nell’era dell’intelligenza artificiale

Non dobbiamo chiederci se la macchina possa sostituire l’artista, dobbiamo chiederci quanto teniamo all’artista.

da Quants numero 4, luglio 2023

Negli ultimi anni abbiamo accolto l’intelligenza artificiale come ospite speciale nelle nostre discussioni sulla creatività e sul destino dell’arte — tutto sommato un progresso rispetto alle interpretazioni apocalittiche del quinquennio precedente, almeno per chi seguiva gli sviluppi attraverso Black Mirror o Westworld. Di fronte alle possibilità apparentemente magiche del machine learning e delle reti neurali, abbiamo progressivamente imparato ad ammirarne le applicazioni nell’arte, che soprattutto a cavallo tra 2022 e 2023 hanno cominciato a diffondersi su tutti i nostri feed social. Passata l’eccitazione, è arrivato il terrore, e ci siamo chiesti dell’impatto di queste tecnologie sulla sostenibilità del lavoro artistico. Ma raramente ci siamo fermati a chiederci: chi vuole quest’arte generata dalle macchine? E in particolare qual è il pubblico che vorrebbe ascoltare la musica dell’intelligenza artificiale?

La domanda nasconde un trabocchetto: la musica fatta con l’intelligenza artificiale tecnicamente l’abbiamo già sentita tutti, ammesso che sia stata prodotta con alcune delle Digital Audio Workstation sul mercato, che offrono già molti plugin basati sul machine learning. Ma quanto interessa al pubblico generalista che la musica che sta ascoltando sia prodotta da un artista in carne e ossa o da una qualche definizione più astratta e virtuale, o — potenzialmente — da nessun artista? E cosa dice questo di noi come ascoltatori? Per provare a dare una risposta, credo sia necessario parlare delle abitudini degli appassionati di musica nel 2023, nel pieno dell’era dello streaming. E per questo bisogna tornare un attimo indietro.

Da quando lo streaming ha cominciato a rimettere in piedi l’industria musicale (al momento tornata ai profitti record dell’era pre-Napster), la playlist è stata la forma privilegiata di distribuzione delle canzoni. Daniel Ek, fondatore e CEO di Spotify, lo va dicendo a gran voce dal 2015, e gli studi del mercato l’hanno confermato irrevocabilmente: nel 2018 Goodwater Capital calcolava che il 31% del tempo passato sulla piattaforma era speso su playlist proposte da Spotify stesso (+55% dal 2015 al 2017). Nel 2020 la piattaforma Deezer ribadiva il concetto, con un sondaggio su 8mila dei suoi utenti: il 40% di loro preferisce ascoltare le playlist piuttosto che gli album. E dire che la materia prima non mancherebbe, visto che escono centinaia di nuovi album ogni settimana. Se poi andiamo a vedere bene cosa contengono le playlist ascoltate ogni giorno, scopriamo qualcos’altro. Nel 2022 la Stockholm School of Economics ha monitorato le 12mila playlist più seguite su Spotify, rivelando che gli ascoltatori sono più propensi ad ascoltare le proposte che la piattaforma suggerisce, che si tratti di playlist create da curatori o playlist personalizzate tramite l’algoritmo, senza alcuna particolare flessione se per caso da quella playlist mancano contenuti più popolari, cioè di proprietà delle tre major (Universal, Sony, Warner). In sostanza, l’utente medio si fida di quello che Spotify offre di base, a prescindere che questo contenga o meno delle sedicenti “hit” o un artista popolare. Quindi, cosa c’è dentro queste playlist che vengono ascoltate a ripetizione?

Chi vuole quest’arte generata dalle macchine? E in particolare qual è il pubblico che vorrebbe ascoltare la musica dell’intelligenza artificiale?

Nel 2018, il sito di riferimento per le statistiche musicali Chartmetric ha sondato le 1000 playlist curate di Spotify più seguite tra il milione di quelle che monitora quotidianamente: il 56,8% di queste si basava sul genere musicale o sull’attualità (Today’s Hits è tuttora la playlist più seguita); il 36,5% sul contesto o il mood (Peaceful Piano; Cardio; Sleep); il 6,7% su una combinazione delle due cose (Latin Dance Cardio). Eppure, queste ultime due categorie richiamavano molti più utenti medi (rispettivamente 160k e 237k follower), e in crescita rispetto alle ultime rilevazioni. Per moltissimi utenti, insomma, l’esperienza dello streaming ha sostituito il flusso della radio, con la complicità di un algoritmo che consiglia nuova musica in base agli ascolti precedenti ritenuto al limite del soprannaturale. Nei primi mesi del 2023 la piattaforma è venuta ulteriormente incontro agli utenti, prima pubblicando i “niche mixes” (“compilation di nicchia”) pensati per accompagnare momenti ultra-specifici o percorrere micro-generi musicali (da Anti-Anxiety a Egg Punk); quindi combinando la curatela del “mood” alla recommendation-AI nella figura del DJ X, feature (per ora disponibile solo in USA, Canada, UK e Irlanda) che prepara un “mix” in continua evoluzione, pensato apposta per i vari momenti della giornata.

Questo è il reame della musica cosiddetta “funzionale”, ascoltata per accompagnare una situazione contingente: il sonno, il relax, il lavoro, lo studio, l’esercizio fisico, e così via. L’ascoltatore di musica di questo spicchio di ventunesimo secolo, quindi, è in media piuttosto passivo, ma tutt’altro che stupido o inconsapevole: semplicemente, sembra propenso a scegliere non l’artista ma la “vibe”. Insomma, non è tanto il “chi” o il “che cosa” a contare, ma il “quando” e il “perché”: cosa sto facendo mentre ascolto musica? Come mi sento, e come voglio che la musica rifletta il mio stato emotivo? L’identità dell’artista o della traccia sembra un’esigenza del passato: basti pensare che tutta la musica etichettata come “funzionale” viene riprodotta oltre 15 miliardi di volte ogni mese, cioè più di tutti gli stream totalizzati su Spotify dall’album più ascoltato di sempre (÷ di Ed Sheeran). Chi fornisce questa cifra – bisogna dirlo – è una società che si occupa proprio di questo e che ha investito molto sull’ascolto orientato dal “mood”. Si chiama Endel, e più di un milione di persone nel mondo la conoscono come applicazione che promette di ridurre il tuo stress o aumentare la tua produttività facendoti ascoltare “paesaggi sonori” (soundscape). Nella pratica, l’azienda di base a Berlino può orientarsi sulle richieste degli utenti, o tracciare alcuni dati biometrici e atmosferici, per suggerire alla sua AI generativa di creare musica ambient elettronica che dovrebbe entrare “in sintonia” con le loro emozioni e necessità del momento. Già dal 2019 molti importanti attori dell’industria musicale avevano intravisto il valore di questa promessa: Warner Music Group, ad esempio, è stata la prima major a mettere sotto contratto un algoritmo, stringendo un accordo con Endel per la pubblicazione di venti album in un anno, ciascuno basato su un particolare mood.

L’ascoltatore di musica sembra propenso a scegliere non l’artista ma la “vibe”. Insomma, non è tanto il “chi” o il “che cosa” a contare, ma il “quando” e il “perché”: cosa sto facendo mentre ascolto musica? Come mi sento, e come voglio che la musica rifletta il mio stato emotivo?

La pagina Spotify di Endel (che conta al momento 226mila ascoltatori mensili, meglio di tanti sedicenti artisti) custodisce decine e decine di questi dischi, i cui titoli sembrano la creazione di un computer assemblato dentro una spa: Nature Sounds: Forest Ambience o On The Go: Athletic Foggy Afternoon. E nonostante l’entità senza volto che scrive questa musica sia quasi sufficiente a bastarsi da sola – le sue tracce si trovano nell’ambitissima playlist Brain Food che conta più di 3 milioni e mezzo di iscritti – Endel non si è fermata qui. Sulla sua app, infatti, ha ospitato opere inedite di James Blake, Miguel e Grimes, tra gli altri: la promessa, in questo caso, è quella di estendere potenzialmente all’infinito la loro musica generando nuovi soundscape a partire da questa, sempre in base alle esigenze dell’ascoltatore. A seconda del tuo mood o del momento del giorno in cui stai usando l’app, insomma, potresti sentire versioni molto differenti del lavoro dello stesso artista, ri-generate dall’AI di Endel. La priorità, di nuovo, non è la riconoscibilità di una voce o di una mano, ma la soddisfazione dell’ascoltatore, o il suo “benessere”, come promette la società tedesca.

Il fascino di questa promessa è facilmente comprensibile, e per questo Warner non è stata l’ultima grande attrice dell’industria musicale a mettersi in contatto con Endel. A febbraio Amazon Music ha cominciato a pubblicare una serie di “wellness playlist” esclusive create con il loro motore-AI. Ma forse la notizia più eclatante è arrivata a fine maggio, quando anche Universal Music Group ha annunciato una partnership con Endel: quest’ultima avrà accesso alle incisioni di proprietà di UMG per creare a partire da questi nuovi soundscape, orientati come sempre al relax o alla concentrazione dell’ascoltatore. Lo scopo, a detta di UMG, è migliorare l’offerta di musica funzionale disponibile sul mercato (un’offerta che il CEO di Universal Lucian Grainge aveva definito solo a gennaio «a malapena musica») e fornire agli artisti nuove opportunità per generare profitto dai loro cataloghi, nel rispetto dei diritti. La promessa della partnership è «potenziare piuttosto che sfruttare le opere protette da diritto d’autore, per creare soundscape generativi». Un riferimento non troppo velato alla pratica di “scraping” di tracce dai suoi cataloghi che Universal ha denunciato il 12 aprile scorso in una lettera rivolta a Spotify e Apple Music, affinché le due società prendessero contromisure al riguardo. Neppure una settimana dopo, i social impazzivano per una canzone che era stata creata facendo uso delle voci di Drake e The Weeknd, entrambi artisti Universal.

Mi riferisco al fantomatico Ghostwriter e alla sua “Heart On My Sleeve”, brano “originale” sulla cui traccia vocale l’anonimo produttore ha applicato un filtro per dare l’impressione che a cantare fossero il rapper più influente degli ultimi quindici anni e la popstar più ascoltata di sempre nell’era dello streaming. La canzone è divenuta un caso anche per i numeri fenomenali che ha accumulato: prima che UMG riuscisse a convincere tutte le piattaforme streaming a oscurare la traccia, gli ascolti avevano superato i 20,4 milioni in pochissimi giorni. E non stupisce: le canzoni deepfake spopolano da almeno un paio d’anni su YouTube, dove — ad esempio — una playlist contenente ventuno versioni di canzoni celebri interpretate dalla “voce di Kanye West” (da “Somebody That I Used To Know” a “Hotline Bling”) conta più di 6 milioni di views complessive, nonostante la fattura tutt’altro che eccellente delle produzioni. Dall’aprile 2020, quando l’applicazione Jukebox di OpenAI (gli stessi di ChatGPT) ha aperto il vaso di Pandora delle cover deepfake, questo genere di creazioni è diventato un trend carsico, che periodicamente riemerge in superficie per meravigliare gli utenti di TikTok e Instagram in trenta secondi o poco più con la promessa di sentire Travis Scott che canta carole natalizie, o altre variazioni sul tema. In questi tre anni l’effetto novelty non si è esaurito, anzi: nuove “imitazioni” continuano a sbucare in rete, condivise e passate al vaglio quasi quotidianamente su Reddit o Discord, a caccia del nuovo successo virale, e ogni giorno queste imitazioni sembrano sempre più raffinate e meno robotiche. “Heart On My Sleeve” ha segnato soltanto l’arrivo delle canzoni deepfake originali: in tutto e per tutto simili a tracce già sentite, e sicuramente interpretate da timbri vocali che ricordano quelli di artisti noti, ma anche innegabilmente “nuove”. A creare lo spazio per questo tipo di operazione (e per il loro successo) contribuisce anche la formularità della musica contemporanea mainstream, ma nulla ci impedisce di immaginare risultati simili con chiavi di ricerca meno pop, come “Robert Plant canta i Greta Van Fleet” (e infatti ne esiste almeno un esempio).

E a quel punto, quando la uncanny valley delle canzoni deepfake sarà colmata, quando distinguere una canzone generata da AI da una canzone generata dall’artista che quella macchina sta imitando diventerà impossibile, a qualcuno importerà della differenza?

Probabilmente no. D’altronde, se vogliamo trarre un insegnamento dal milione di biglietti venduti in meno di un anno per il concerto virtuale degli ABBA, Voyage, potrebbe essere questo: l’idea di un artista vale quanto l’artista stesso. Ma se il quartetto svedese si è prestato in prima persona alla motion capture per creare gli ologrammi che interpretano le loro canzoni (registrate), le reali intenzioni di un artista invischiato in una canzone deepfake potrebbero essere molto meno chiare. In attesa di una riscrittura del diritto d’autore (che si spera benefici comunque gli artisti il più possibile) possiamo stare certi che i timbri vocali più riconoscibili e i generi musicali più in voga nel momento saranno i veri padroni di questo futuro mercato. Un mercato che, prima ancora di nascere, assomiglia già molto a quello delle fan fiction: a generare l’offerta di duetti impossibili e abbinamenti improbabili, è la domanda degli ascoltatori, che quando non sono impegnati a rilassarsi ascoltando – più o meno letteralmente – musica casuale, vogliono immaginare quello che gli artisti non possono dar loro.

Quando distinguere una canzone generata da AI da una canzone generata dall’artista che quella macchina sta imitando diventerà impossibile, a qualcuno importerà della differenza?

Insoddisfatto delle circa centomila nuove canzoni che ogni giorno vengono pubblicate sulle piattaforme streaming, insomma, il pubblico esige di più. Bisogna aggiungere che la domanda per l’oggetto “canzoni che un artista non ha mai scritto o interpretato” assomiglia in modo inquietante alla domanda per le pubblicazioni postume, che quasi settimanalmente giungono a noi dall’oltretomba a dimostrazione che neppure la morte vale più come “soluzione di continuità”. E del resto, la proposta di canzoni create in absentia si fa sempre più sofisticata, grazie anche al contributo di strumenti che fanno uso di machine learning. Tra le produzioni musicali che più segneranno il 2023, negli annali e nei conteggi dello streaming, ci sarà senz’altro la sbandierata “ultima canzone dei Beatles”, di cui Paul McCartney ha parlato in un’intervista con la BBC. A quarantatré anni dalla morte di John Lennon, la sua voce è stata ripescata da un nastro molto rovinato – quasi certamente una registrazione domestica piano e voce dal nastro intitolato “For Paul” che già restituì due brani ai tempi di Anthology (1995-96). Apparentemente, quello che non si poteva fare con la tecnologia di metà anni Novanta, oggi è possibile: merito di nuovo dell’AI, in particolare quella chiamata MAL (in onore del tour manager Mal Evans e ad HAL 9000) che ha permesso a Peter Jackson di creare la docu-serie Get Back. Di fronte al dilemma su cosa fare dell’audio rumoroso e monofonico che aveva trovato nelle molte ore di girato durante le sessioni di Let It Be, il regista ha dovuto chiamare a raccolta un team di esperti, tra cui Paris Smaragdis della University of Chicago: per raggiungere l’obiettivo (un audio chiaro con canali stereo separati per tutte le voci e gli strumenti) non è bastato restaurare il nastro, ma si è dovuto generare segnale laddove il rumore non permetteva di udirlo. Questa medesima tecnologia sarà usata da Sir Paul per tornare indietro nel tempo e darci una voce di Lennon come — letteralmente — non è mai esistita. Se sarà un successo, dimostrerà non soltanto l’ossessione per il remix e il riciclo del pubblico contemporaneo — discorso che merita un’analisi a parte — ma la centralità del pubblico stesso, mai così evidente. Sono gli ascoltatori a dettare le mosse del mercato, sempre più modellato per anticipare le sue esigenze: peccato che tra queste esigenze figuri raramente la voglia di ascoltare un altro essere umano.

Qualcuno ha definito un “momento Napster” la calata delle AI sulla musica pop nella primavera del 2023. Ventiquattro anni dopo Napster, l’industria discografica è più ricca e forte che mai, e la disruption della musica liquida — così come molte altre disruption — è rimbalzata indietro allo status quo. A questo giro, le major non vogliono aspettare vent’anni: quando l’AI-pop sarà qui, loro saranno pronte. E noi ascoltatori, apparentemente, pure.

Ascoltatori artificiali: viaggio nella uncanny valley della musica ascoltata, nell’era dell’intelligenza artificiale

Dall’oscurità alla luce

Produci consuma crepa. Sbattiti fatti crepa. Riempiti di borchie, rompiti le palle, cotonati i capelli, rasati i capelli, crepa crepa crepa.

Related Articles

Dall’oscurità alla luce

Produci consuma crepa. Sbattiti fatti crepa. Riempiti di borchie, rompiti le palle, cotonati i capelli, rasati i capelli, crepa crepa crepa.

Guardare dietro l’angolo