Alexis Bogan, whose speech was impaired by a brain tumour, uses an AI powered smartphone app to create a audible drink order at a Starbucks.

Jean Delaunay

Le traitement d’une tumeur a rendu cette femme incapable de parler. L’IA lui a redonné sa voix

Bien que le clonage vocal de l’intelligence artificielle (IA) suscite des inquiétudes, l’utilisation de la nouvelle technologie d’OpenAI pourrait aider les personnes touchées par des accidents vasculaires cérébraux et des tumeurs.

Avant de subir ce qui allait être une opération chirurgicale qui allait sauver et changer sa vie, la voix du jeune Américain Alexis « Lexi » Bogan était exubérante.

Elle adorait écouter les ballades de Taylor Swift et de Zach Bryan dans la voiture. Elle riait toujours, même lorsqu’elle rassemblait des enfants d’âge préscolaire qui se conduisaient mal ou débattait de politique avec des amis. À l’école, elle était soprano dans le chœur.

Puis, du jour au lendemain, cette voix a disparu.

En août de l’année dernière, les médecins ont retiré une tumeur située près de l’arrière de son cerveau. Lorsque le tube respiratoire est sorti un mois plus tard, Bogan avait du mal à avaler et s’efforçait de dire « bonjour » à ses parents.

Des mois de rééducation l’ont aidée à se rétablir, mais son élocution est toujours altérée. Les amis, les étrangers et les membres de sa propre famille ont du mal à comprendre ce qu’elle essaie de leur dire.

En avril, la jeune femme de 21 ans a retrouvé son ancienne voix. Pas le vrai, mais un clone vocal généré par la technologie d’intelligence artificielle (IA) du fabricant ChatGPT OpenAI qu’elle peut invoquer à partir d’une application téléphonique.

Lassitude face aux deepfakes de l’IA

Entraînée sur une capsule temporelle de 15 secondes de sa voix d’adolescente – provenant d’une vidéo de démonstration de cuisine qu’elle a enregistrée pour un projet scolaire – sa voix artificielle, synthétique mais remarquablement réelle, peut désormais dire presque tout ce qu’elle veut.

Elle tape quelques mots ou phrases sur son téléphone et l’application les lit instantanément à haute voix.

« Salut, puis-je s’il vous plaît obtenir un grand expresso glacé au lait d’avoine et à la cassonade », a déclaré la voix d’IA de Bogan alors qu’elle tenait le téléphone par la fenêtre de sa voiture dans un service au volant Starbucks.

Les experts ont averti que l’amélioration rapide de la technologie de clonage vocal de l’IA peut amplifier les escroqueries téléphoniques, perturber les élections démocratiques et porter atteinte à la dignité des personnes – vivantes ou décédées – qui n’ont jamais consenti à ce que leur voix soit recréée pour dire des choses qu’elles n’ont jamais dites.

Il a été utilisé pour produire de faux appels automatisés destinés aux électeurs du New Hampshire, imitant le président américain Joe Biden.

Dans l’État américain du Maryland, les autorités ont récemment accusé le directeur sportif d’un lycée d’avoir utilisé l’IA pour générer un faux clip audio du directeur de l’école tenant des propos racistes.

Mais Bogan et une équipe de médecins du groupe hospitalier Lifespan de Rhode Island pensent avoir trouvé une utilisation qui justifie les risques.

Alexis Bogan tape une réponse à la question d'un journaliste avec une application qui se rapproche de sa voix perdue.
Alexis Bogan tape une réponse à la question d’un journaliste avec une application qui se rapproche de sa voix perdue.

Recréer des voix perdues

Bogan est l’une des premières personnes – la seule à souffrir de cette maladie – à avoir réussi à recréer une voix perdue grâce au nouveau moteur vocal d’OpenAI.

Certains autres fournisseurs d’IA, comme la startup ElevenLabs, ont testé une technologie similaire pour les personnes souffrant de troubles de la parole ou de pertes d’élocution – y compris une avocate qui utilise désormais son clone de voix dans la salle d’audience.

Nous devons être conscients des risques, mais nous ne pouvons pas oublier le patient et le bien social.

Dr Fatima Mirza

Résident travaillant sur le pilote

« Nous espérons que Lexi sera une pionnière à mesure que la technologie se développera », a déclaré le Dr Rohaid Ali, résident en neurochirurgie à la faculté de médecine de l’Université Brown et à l’hôpital de Rhode Island.

Des millions de personnes souffrant d’accidents vasculaires cérébraux débilitants, de cancer de la gorge ou de maladies neurogénératives pourraient en bénéficier, a-t-il déclaré.

« Nous devons être conscients des risques, mais nous ne pouvons pas oublier le patient et le bien social », a déclaré le Dr Fatima Mirza, une autre résidente travaillant sur le projet pilote. « Nous sommes en mesure d’aider Lexi à retrouver sa vraie voix et elle est capable de parler dans les termes qui lui sont les plus fidèles ».

Mirza et Ali, qui sont mariés, ont attiré l’attention d’OpenAI, créateur de ChatGPT, en raison de leur précédent projet de recherche chez Lifespan utilisant le chatbot IA pour simplifier les formulaires de consentement médical pour les patients.

La société de San Francisco a recherché plus tôt cette année des applications médicales prometteuses pour son nouveau générateur vocal d’IA.

Récupération lente

Bogan se remettait encore lentement de l’opération.

La maladie a débuté l’été dernier par des maux de tête, une vision floue et un visage tombant, alarmant les médecins de l’hôpital pour enfants Hasbro de Providence.

C’est presque comme si une partie de mon identité avait été volée lorsque j’ai perdu la voix.

Alexis Bogan

Premier patient du pilote

Ils ont découvert une tumeur vasculaire de la taille d’une balle de golf appuyant sur son tronc cérébral et empêtrée dans les vaisseaux sanguins et les nerfs crâniens.

« C’était une bataille pour contrôler l’hémorragie et éliminer la tumeur », a déclaré le Dr Konstantina Svokos, neurochirurgienne pédiatrique.

L’emplacement et la gravité de la tumeur, associés à la complexité de l’opération chirurgicale de 10 heures, ont endommagé le contrôle de Bogan sur les muscles de sa langue et ses cordes vocales, l’empêchant de manger et de parler, a déclaré Svokos.

« C’est presque comme si une partie de mon identité avait été volée lorsque j’ai perdu la voix », a déclaré Bogan.

La sonde d’alimentation est sortie cette année. L’orthophonie se poursuit, lui permettant de parler de manière intelligible dans une pièce calme mais sans aucun signe elle retrouvera toute la lucidité de sa voix naturelle.

« À un moment donné, je commençais à oublier à quoi je ressemblais », a déclaré Bogan. « Je me suis tellement habitué à mon son maintenant ».

« Former » l’IA à la façon de parler

Chaque fois que le téléphone sonnait au domicile familial situé à North Smithfield, dans la banlieue de Providence, elle le transmettait à sa mère pour qu’elle réponde à ses appels.

Elle avait l’impression d’être un fardeau pour ses amis chaque fois qu’ils allaient dans un restaurant bruyant. Son père, malentendant, avait du mal à la comprendre.

De retour à l’hôpital, les médecins recherchaient un patient pilote pour expérimenter la technologie OpenAI.

« La première personne qui est venue à l’esprit du Dr Svokos était Lexi », a déclaré Ali. « Nous avons contacté Lexi pour voir si elle serait intéressée, sans savoir quelle serait sa réponse. Elle était prête à l’essayer et à voir comment cela fonctionnerait ».

Bogan a dû remonter quelques années en arrière pour trouver un enregistrement approprié de sa voix afin de « former » le système d’IA sur la façon dont elle parlait. C’était une vidéo dans laquelle elle expliquait comment préparer une salade de pâtes.

Ses médecins ont intentionnellement alimenté le système d’IA pendant seulement 15 secondes. Les sons de cuisine rendent d’autres parties de la vidéo imparfaites. C’était également tout ce dont OpenAI avait besoin : une amélioration par rapport à la technologie précédente nécessitant des échantillons beaucoup plus longs.

Ils savaient également qu’obtenir quelque chose d’utile en 15 secondes pourrait être vital pour tout futur patient qui n’a aucune trace de sa voix sur Internet. Un bref message vocal laissé à un proche pourrait suffire.

« Je deviens tellement ému à chaque fois que j’entends sa voix »

Lorsqu’ils l’ont testé pour la première fois, tout le monde a été stupéfait par la qualité du clone vocal. Des problèmes occasionnels – un mot mal prononcé, une intonation manquante – étaient pour la plupart imperceptibles.

En avril, les médecins ont équipé Bogan d’une application téléphonique personnalisée qu’elle seule peut utiliser.

« Je suis tellement émue à chaque fois que j’entends sa voix », a déclaré sa mère, Pamela Bogan, les larmes aux yeux.

« Je pense que c’est génial de pouvoir retrouver ce son », a ajouté Lexi Bogan, affirmant que cela m’a aidé à « renforcer ma confiance jusqu’à ce qu’elle soit avant que tout cela n’arrive ».

Elle utilise désormais l’application environ 40 fois par jour et envoie des commentaires qui, espère-t-elle, aideront les futurs patients.

L’une de ses premières expériences a été de parler aux enfants de l’école maternelle où elle travaille comme assistante pédagogique.

Elle a tapé « ha ha ha ha » en s’attendant à une réponse robotique. À sa grande surprise, cela ressemblait à son vieux rire.

Elle l’a utilisé chez Target et Marshall pour demander où trouver des objets. Cela l’a aidée à renouer avec son père. Et il lui est désormais plus facile de commander de la restauration rapide.

Les médecins de Bogan ont commencé à cloner les voix d’autres patients volontaires du Rhode Island et espèrent apporter cette technologie aux hôpitaux du monde entier.

OpenAI a déclaré qu’elle avançait avec prudence dans l’expansion de l’utilisation du moteur vocal, qui n’est pas encore accessible au public.

Un certain nombre de petites startups d’IA vendent déjà des services de clonage vocal aux studios de divertissement ou les rendent plus largement disponibles.

La plupart des fournisseurs de systèmes de génération vocale déclarent interdire l’usurpation d’identité ou les abus, mais la manière dont ils appliquent leurs conditions d’utilisation varie.

Alexis Bogan (au centre) et sa mère Pamela Bogan (à droite) réagissent en entendant une reconstitution de sa voix perdue à partir d'une invite tapée par le Dr Fatima Mirza (à gauche).
Alexis Bogan (au centre) et sa mère Pamela Bogan (à droite) réagissent en entendant une reconstitution de sa voix perdue à partir d’une invite tapée par le Dr Fatima Mirza (à gauche).

Accès plus large au clonage vocal de l’IA

« Nous voulons nous assurer que toutes les personnes dont la voix est utilisée dans le service donnent leur consentement de manière continue », a déclaré Jeff Harris, responsable du produit chez OpenAI.

« Nous voulons nous assurer qu’elle ne soit pas utilisée dans des contextes politiques. Nous avons donc adopté une approche très limitée quant aux personnes à qui nous donnons la technologie ».

Harris a déclaré que la prochaine étape d’OpenAI consisterait à développer un outil sécurisé « d’authentification vocale » afin que les utilisateurs puissent reproduire uniquement leur propre voix. Cela pourrait être « limitant pour une patiente comme Lexi, qui a soudainement perdu ses capacités d’élocution », a-t-il déclaré.

« Nous pensons donc que nous devrons entretenir des relations de confiance élevée, en particulier avec les prestataires médicaux, pour donner un accès un peu plus libre à la technologie ».

Bogan a impressionné ses médecins en se concentrant sur la manière dont la technologie pourrait aider d’autres personnes souffrant de troubles de la parole similaires ou plus graves.

« Une partie de ce qu’elle a fait tout au long de ce processus a consisté à réfléchir aux moyens d’ajuster et de changer cela », a déclaré Mirza. « Elle a été une grande inspiration pour nous ».

Alors que pour l’instant elle doit manipuler son téléphone pour faire parler le moteur vocal, Bogan imagine un moteur vocal IA qui améliore les anciens remèdes pour la récupération de la parole – comme l’électrolarynx à sonorité robotique ou une prothèse vocale – en fusionnant avec le corps humain. ou traduire des mots en temps réel.

Elle est moins sûre de ce qui se passera à mesure qu’elle grandit et sa voix d’IA continue de sonner comme elle le faisait lorsqu’elle était adolescente. Peut-être que la technologie pourrait « vieillir » sa voix IA, a-t-elle déclaré.

Pour l’instant, « même si je n’ai pas complètement retrouvé ma voix, j’ai quelque chose qui m’aide à retrouver ma voix », a-t-elle déclaré.

Laisser un commentaire

douze − 6 =