Microsoft cria IA que imita voz humana

Prédio Microsoft com a fachada envidraçada e o logo da empresa fixado na fachada

A gigante Microsoft acabou de anunciar a criação de uma ferramenta de IA para sintetização de texto em fala que imita a voz de qualquer interlocutor com uma amostra de apenas três segundos de áudio. Mais um avanço para o campo da Inteligência Artificial.

Já não é de hoje que os avanços no campo da Inteligência Artificial (IA) estão a passos largos e que novas ferramentas inovadoras têm saído no mercado. Um exemplo disso foi o ChatGPT da qual você pode ver conferir clicando aqui.

Seguindo nesse caminho a Microsoft acaba de anunciar o resultado de uma de suas atuais pesquisas no campo. Trata-se de um recurso criado utilizando “linguagem de codec neural”, uma abordagem de modelagem de linguagem para síntese de texto para fala (TTS no termo em inglês) e que foi batizado com o nome de VALL-E. O recurso utiliza IA que imita a voz humana baseado numa pequena amostra.

Segundo informações da própria Microsoft em sua página o GitHub, foram utilizados 60 mil horas de gravações de áudio em inglês para treinamento do modelo de modo que sua capacidade oferece recursos de aprendizado que pode ser utilizado para sintetizar uma fala de alta qualidade com apenas uma pequena gravação de 3 segundos.

Resumindo, com a ferramenta e apenas 3 segundos de gravação da fala de um ser humano qualquer, podemos sintetizar um texto personalizado para ser falado utilizando a voz reproduzida pela IA baseada na amostra do fonema gravado. É como se nós pegássemos o texto desta postagem para ser sintetizada com a voz de um artista qualquer, ou seja, uma IA que imita a voz de um ser humano.

Objetivos e limitações

Como objetivo a Microsoft tenta utilizar a tecnologia transformar texto em fala de forma mais natural e realista, algo que ela consegue muito bem com recursos de transformar texto em fala no seu navegador, o Microsoft Edge.

Apesar das limitações do modelo atual, tanto no idioma somente em inglês quanto no seu desempenho, os pesquisadores descobriram que ele é capaz de preservar a manutenção do ambiente acústico bem como o tom emocional da voz do interlocutor como raiva, sonolência, divertido, com nojo etc.

Mais detalhes desta pesquisa, bem como amostras de áudios e comparações com os áudios originais, podem ser encontrados na página compartilhada pela própria Microsoft que você acessa clicando aqui.