Técnica faz voz do usuário falar outros idiomas

Microsoft desenvolve nova tecnologia para tradução simultânea de voz. Sistema pode facilitar comunicação na internet em diversos idiomas.

A Microsoft publicou um vídeo em que mostra uma tecnologia de tradução capaz de não só traduzir as falas de um usuário numa transcrição em legenda, como também reproduzir a tradução em áudio, num novo idioma, com a própria voz original.

Segundo Rick Rashid, diretor de pesquisa da Microsoft, a técnica utilizada chama-se Deep Neural Networks (Redes Neurais Profundas) – ela segue o modelo de comportamento do cérebro humano, e permitiu aos pesquisadores treinar o reconhecimento com um critério melhor do que métodos anteriores.

“Nós fomos capazes de reduzir a taxa de erro por fala em 30% na comparação com as técnicas usadas antes. Isso significa que em vez de ter uma palavra errada em cada quatro ou cinco, a taxa é de uma em cada sete ou oito”

Numa primeira etapa, o computador “entendeu” a voz do usuário e a converteu em um texto escrito. Depois, o texto escrito foi traduzido para outra língua. No passo seguinte, uma gravação de uma hora da voz do usuário foi utilizado para reproduzir o texto traduzido em áudio, fazendo a voz do interlocutor “falar” no novo idioma.

No vídeo, um executivo apresenta a tecnologia com uma tradução do inglês para o mandarim. Ao final da apresentação, por exemplo, ao agradecer – thank you, na sua própria voz, em mandarim, se ouviu xiè xiè.