Os seres humanos deram oficialmente a sua voz às máquinas.
Uma pesquisa publicada pelo Google em dezembro de 2017, detalha um sistema de texto para fala (TTS) chamado Tacotron 2, que pretende ter uma precisão quase humana ao imitar áudio de uma pessoa lendo um texto.
O sistema é a segunda geração oficial da tecnologia do Google, que consiste em duas redes neurais profundas . A primeira rede traduz o texto em um espectrograma, uma maneira visual de representar frequências de áudio ao longo do tempo.Esse espectrograma é então alimentado no WaveNet , um sistema do laboratório de pesquisa da Alphabet, que lê o gráfico e gera os elementos de áudio correspondentes.
Você pode ouvir amostras abaixo. Tenha em mente que uma amostra de cada frase é gerada pela Inteligência Artificial e a outra é um ser humano contratado pelo Google. Nós não sabemos com certeza qual é qual. (No entanto, se você revelar o “código-fonte da página” e ver os nomes dos arquivos de cada um no site da pesquisa do Google, um arquivo é rotulado como “gen”, aparentemente para marcar a amostra gerada.)
Ouça alguns exemplos
“George Washington foi o primeiro presidente dos Estados Unidos”.
(George Washington was the first President of the United States.)
“Aquela garota fez um vídeo sobre o batom de Star Wars”.
(That girl did a video about Star Wars lipstick.)
Os pesquisadores do Google também demonstram que o Tacotron 2 pode lidar com palavras e nomes difíceis de pronunciar, além de alterar a forma como enuncia com base na pontuação. Por exemplo, as palavras maiúsculas são estressadas, como alguém faria ao indicar que a palavra específica é uma parte importante de uma frase.
“Os ônibus não são o PROBLEMA, eles realmente fornecem uma solução”.
“The buses aren’t the PROBLEM, they actually provide a SOLUTION.”
Ao contrário de algumas pesquisas básicas de Inteligência Artificial que a empresa faz, essa tecnologia é imediatamente útil para o Google. O WaveNet, anunciado pela primeira vez em 2016, agora é usado para gerar a voz no Google Assistant. Uma vez preparado para a produção, o Tacotron 2 poderia ser uma adição ainda mais poderosa ao serviço.
Fonte: Quartz
E o Windows 10 com aquelas vozes!
As vozes do Windows 10 são até boas, para algumas coisas, tipo navegar por menus e pastas. Para ler textos eu acho terríveis
Interessante a qualidade com qual o software lêem…
Obrigado por comentar a notícia Jhonatan. Volte sempre.
Olá!
legal essa notíćíá, espero que esse tipo de voz seja integrada ao talkback; deixaria nossa esperiência de navegaçãõ˜com leitor de tela excelente.
Eu publiquei essa notícia aqui com esse intuito. Mais cedo ou mais tarde essas vozes chegarão aos leitores de tela.