Des films entièrement créés par l’intelligence artificielle ? Après DALL-E et ChatGPT, Microsoft développe une IA dédiée au son

Cette nouvelle IA peut imiter n’importe quelle voix, y compris son émotion et sa tonalité après trois petites secondes d’écoute.

Pourquoi est-ce important ?

Avec en figure de proue ChatGPT, qui pourrait être une révolution au même titre que l’iPhone, les intelligences artificielles se répandent de plus en plus. Cette fois-ci, Microsoft sort sa propre IA dédiée au son : VALL-E.

L’actualité : L’histoire d’amour entre Microsoft et les IA continue. Alors que ChatGPT pourrait débarquer dans la suite office Microsoft sort sa nouvelle IA : VALL-E.

Le détail : Sur le site de VALL-E, on apprend que cette IA a été rendue possible grâce à « 60.000 heures de parole en anglais, soit des centaines de fois plus que les systèmes existants ».

  • Cette intelligence artificielle utilise une nouvelle méthode. Contrairement aux autres méthodes de synthèse de la parole à partir du texte, qui synthétisent généralement la parole en manipulant des formes d’onde, VALL-E génère des codes de codage audio discrets à partir de textes et d’échantillons acoustiques. Elle analyse la façon dont une personne parle, décompose cette information en composants discrets appelés « tokens ». Grâce à EnCodec, l’IA utilise des données d’entraînement pour faire correspondre ce qu’elle « sait » de la manière dont cette voix sonnerait si elle prononçait d’autres phrases en dehors de l’échantillon de trois secondes.
  • Toujours selon le site, cette nouvelle technologie permettrait « directement diverses applications de synthèse vocale, telles que le TTS (Text To Speech ou faire parler les textes par ordinateur, NDLR), l’édition vocale et la création de contenu, en combinaison avec d’autres modèles d’IA générative comme GPT-3.« 
  • Une partie de la base de données ainsi que l’interprétation de VALL-E sont disponibles sur leur site.
Modèle général du fonctionnement de VALL-E – Source : VALLE-E

L’enjeu : Les IA se démocratisent de plus en plus et, ce, dans de plus en plus de domaines.

  • Pour tout ce qui touche au texte, ce qui peut évidemment être mêlé au son, ChatGPT est bien sûr la référence actuelle.
  • Pour l’image, DALL-E permet déjà de générer des images à partir de texte.
  • Si l’on additionne les trois, on pourrait imaginer un film ou n’importe quel contenu audiovisuel totalement réalisé par des IA. Heureusement, certaines applications ont déjà été créées (même si elles doivent encore être optimisées, NDLR) pour différencier les travaux humains de ceux des IA en général, et de ChatGPT en particulier.
Plus
Lire plus...