Nova voz do Google é indistinguível da voz humana

1064 Visualizações:
Comentários: 6
Curtidas:

Os seres humanos deram oficialmente a sua voz às máquinas.

Uma pesquisa publicada pelo Google em dezembro de 2017, detalha um sistema de texto para fala (TTS) chamado Tacotron 2, que pretende ter uma precisão quase humana ao imitar áudio de uma pessoa lendo um texto.

O sistema é a segunda geração oficial da tecnologia do Google, que consiste em duas redes neurais profundas . A primeira rede traduz o texto em um espectrograma, uma maneira visual de representar frequências de áudio ao longo do tempo.Esse espectrograma é então alimentado no WaveNet , um sistema do laboratório de pesquisa da Alphabet, que lê o gráfico e gera os elementos de áudio correspondentes.

Você pode ouvir amostras abaixo. Tenha em mente que uma amostra de cada frase é gerada pela Inteligência Artificial e a outra é um ser humano contratado pelo Google. Nós não sabemos com certeza qual é qual. (No entanto, se você revelar o “código-fonte da página” e ver os nomes dos arquivos de cada um no site da pesquisa do Google, um arquivo é rotulado como “gen”, aparentemente para marcar a amostra gerada.)

Ouça alguns exemplos

“George Washington foi o primeiro presidente dos Estados Unidos”.
(George Washington was the first President of the United States.)

“Aquela garota fez um vídeo sobre o batom de Star Wars”.
(That girl did a video about Star Wars lipstick.)

Os pesquisadores do Google também demonstram que o Tacotron 2 pode lidar com palavras e nomes difíceis de pronunciar, além de alterar a forma como enuncia com base na pontuação. Por exemplo, as palavras maiúsculas são estressadas, como alguém faria ao indicar que a palavra específica é uma parte importante de uma frase.

“Os ônibus não são o PROBLEMA, eles realmente fornecem uma solução”.
“The buses aren’t the PROBLEM, they actually provide a SOLUTION.”

Ao contrário de algumas pesquisas básicas de Inteligência Artificial que a empresa faz, essa tecnologia é imediatamente útil para o Google. O WaveNet, anunciado pela primeira vez em 2016, agora é usado para gerar a voz no Google Assistant. Uma vez preparado para a produção, o Tacotron 2 poderia ser uma adição ainda mais poderosa ao serviço.

Fonte: Quartz

Leonardo Gleison
WRITTEN BY

Leonardo Gleison

Engenheiro de software, possui 13 anos de experiência em acessibilidade digital e é criador de conteúdo sobre tecnologia assistiva, educação inclusiva, atividades de vida autônoma, inclusão e acessibilidade no canal Inclunet do Youtube.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

6 comentários em “Nova voz do Google é indistinguível da voz humana

  1. E o Windows 10 com aquelas vozes!

  2. Interessante a qualidade com qual o software lêem…

  3. · 14 de fevereiro de 2018 às 23:42

    Olá!

    legal essa notíćíá, espero que esse tipo de voz seja integrada ao talkback; deixaria nossa esperiência de navegaçãõ˜com leitor de tela excelente.