L’IA a commencé à transformer le monde des livres audio, avec la capacité de créer des enregistrements sans utiliser à chaque fois un narrateur humain. Une évolution qui inquiète.

Faire lire intégralement un livre en vue de sa version audio coûte cher, trop cher pour certains promoteurs de ce format. Alors ils investissent dans le clonage de voix et les voix de synthèse. Nicolas Sarkozy, par exemple, a enregistré en 2021 plus de 13 heures de ses mémoires de président, Le Temps des tempêtes. En anglais, Barack Obama a fait plus fort avec A Promised Land en 2020 : 29 heures. D’autres livres sont lus par des comédiens. Denis Podalydès a ainsi prêté sa voix à de nombreux classiques de la littérature, de Martin Eden, de Jack London, au Guépard, de Giuseppe Tomasi di Lampedusa, en passant par des œuvres de Rimbaud, Céline ou Baudelaire.

Mais des productions de ce genre, assez ou très onéreuses, ont un avenir incertain parmi les livres audio, qui font désormais de plus en plus souvent appel à l’intelligence artificielle (IA). Apple propose depuis 2023 des livres audio synthétiques. Au Festival du livre de Paris, en avril, Librinova, numéro un français de l’autoédition, a ainsi dit adopter «la technologie de clonage vocal, qui permet d’obtenir une qualité largement supérieure à celle des voix synthétiques, souvent trop robotiques». Un auteur enregistre la lecture d’une petite partie seulement de son livre et l’IA va extrapoler l’autre partie.

Le géant mondial du streaming Spotify avait pour sa part indiqué, au même évènement, qu’il investissait un million d’euros pour «des livres narrés par la voix de synthèse», autrement dit une machine qui imite, de plus en plus fidèlement, la voix humaine. Et d’expliquer : «Les coûts importants de production et l’adoption encore naissante de l’usage du livre audio ont eu pour conséquences de limiter l’offre et le catalogue existant en français.» Spotify indique clairement à ses utilisateurs quelle voix leur fait la lecture. À eux de savoir s’ils acceptent qu’elle soit artificielle.

«Il faut de tout»

Et si, depuis février, le groupe suédois accepte les contenus produits via la société spécialisée ElevenLabs, qui propose la transcription du texte à la voix synthétique en 32 langues, la plateforme n’abandonne pas les livres intégralement lus par un humain. «Ils viennent aider les éditeurs en finançant une partie de la production. Pour qu’un marché se développe et soit mature, il faut de tout», souligne le directeur général de Hugo Publishing, Arthur de Saint-Vincent.

Cet éditeur, qui s’est imposé comme le numéro un de la romance en France, a pour sa part annoncé une offensive dans le livre audio, sans IA de son côté. Avec sa maison mère, Glénat, il proposera 200 nouveaux titres dans les trois ans à venir. «Nous en sommes à un stade de développement où nous pouvons investir dans une production de qualité. Donc, on veut choisir les voix, travailler avec des comédiens et, avec le partenaire que nous avons choisi, le studio Blynd à Lyon, être intransigeants à chaque fois», avance le patron de Hugo.

Tout le monde n’a toutefois pas la trésorerie pour suivre. En 2021, le numéro un du livre audio dans le monde, Audible, filiale d’Amazon, écrivait sur son site internet français : «Au départ, les livres audio utilisaient la synthèse vocale, c’est-à-dire une voix générée par ordinateur. Aujourd’hui, la voix humaine est privilégiée, car elle permet une plus grande proximité avec le lecteur, plus de chaleur et une meilleure intonation.» Quatre ans plus tard, la recherche «virtual voice» («voix artificielle») sur son catalogue anglophone donne «plus de 50 000 résultats». L’immense majorité des titres sont signés d’auteurs peu ou pas connus.

«Couper les coûts»

La qualité de cette lecture laisse des appréciations contrastées, tantôt enthousiastes sur les progrès rapides de cette technologie, tantôt sceptiques sur ses limitations. «Je ne pense pas que la narration par IA soit bonne avec les émotions des personnages, hélas», a par exemple commenté sur X Alisanya, autrice anglophone de romans fantasy autoédités sur Amazon. Un avis déjà partagé en 2023 par Tania Eby, qui pose sa voix sur des textes depuis plus de vingt ans à temps plein. Qui ajoutait : «Avec le temps, les auditeurs vont peut-être s’y habituer. Je crois que c’est d’ailleurs en train de se passer.» «Ça semble logique que l’intelligence artificielle soit en train de nous affecter», disait cette témoin directe du ralentissement de son activité. «Je pense que c’est le plan pour l’avenir : remplacer les employés afin de couper les coûts.»

Les voix de synthèse ne bafouillent jamais et commettent de moins en moins d’erreurs dans la prononciation des noms propres. À l’intérieur d’une phrase, elles ont des modulations. Mais sur la longueur elles peuvent devenir monotones : elles ne savent pas (encore) accélérer ou ralentir, monter ou baisser l’intensité, s’agacer, s’étrangler, s’essouffler ni sangloter.