Como a integração GPT e Envision Glasses está transformando a tecnologia assistiva

783 Visualizações:
Comentários: 0
Curtidas:

Uma nova função em Beta do aplicativo Envision AI mostra como o advento da recente inovação da Inteligência Artificial, os Modelos Grandes de Linguagem, encarnados em produtos como ChatGPT, GPT4, Dalle e muitos outros está prestes a dar um enorme passo à frente no campo de soluções de tecnologia assistiva para as pessoas com deficiência.

Leia também: 10 aplicativos para reconhecer imagens e objetos

A Envision AI é uma empresa dos Paises Baixos que lançou no mercado alguns anos atrás um aplicativo de acessibilidade para Android e IOS, totalmente gratuito. Usando a câmera, do celular, ele oferece uma suíte de funcionalidades com voz sintetizada, como o reconhecimento óptico de caracteres para poder ler material textual impresso e manuscrito, a descrição do ambiente, a identificação e descrição de pessoas, o reconhecimento de notas de dinheiro, a leitura de códigos QR e a identificação de cores.

Uma opção que a empresa oferece é usar esse aplicativo não com a câmera do celular mas usando um óculos munido de câmera, microfone e fone de ouvido de condução óssea: o famoso, porém malsucedido Google Glass, produto que ia ser lançado pela Google para o público geral uns anos atrás mas acabou não vingando devido à relutância do público e muitas organizações de proteção do consumidor e de privacidade que achavam o produto sinistro e perigoso.

O Glass não morreu, mas em vez foi comercializado para empresas dos mais diversos ramos, o que continua sendo feito até hoje, em razão de sua utilidade para aprimorar a eficiência e eficácia de diversos tipos de trabalhadores, desde médicos até operários em linhas de ensamblagem . Com o Google Glass, a solução da Envision AI passa no entanto a custar US$3.500, um preço bastante salgado.

Mas a nova funcionalidade revolucionária da solução, que está agora em fase Beta, permite que o usuário peça informações muito específicas e precisas dos textos escaneados, uma função que não existe em nenhum produto de OCR no mercado hoje, quer seja para pessoas com deficiência ou para o público em geral.

As capacidades demonstradas pelos vídeos divulgados no YouTube são de deixar qualquer pessoa de queixo caído: um menu de restaurante é escaneado com o Google Glass, e em seguida o usuário pede com sua própria voz para que sejam faladas as entradas propostas. O aplicativo se executa à perfeição. Com base nessa resposta, o usuário pede o preço de uma entrada específica, e a resposta logo vem.

O vídeo (com áudio em Inglês apenas) pode ser assistido abaixo:

Outro uso demonstrado também através de outro vídeo é a leitura focada de uma passagem de trem:

Depois de escaneá-la, o usuário pede para o aplicativo informar o número do assento, o número da reserva da passagem, o número de trem e a hora de partida.

Em outro vídeo podemos assistir um usuário perguntando ao Envision AI Glass a informação nutricional de uma embalagem de pizza e o número de porções.

Detalhe, o texto na embalagem está em francês mas a informação é respondida em Inglês para o usuário anglófono.

É importante salientar que a informação não é simplesmente falada tal como aparece na imagem escaneada, mas formulada em frases coerentes e inteligíveis, com texto frequentemente acrescentado para tornar a resposta natural, como se uma pessoa de verdade tivesse lido o texto, entendido a informação estruturada do texto escaneado e respondido com suas próprias palavras para atender ao usuário da melhor forma possível.

Por enquanto essa nova funcionalidade somente parece estar disponível na versão do Envision AI que vem com o Google Glass. Esperamos no entanto que em algum momento seja liberado também para seu uso no celular, devido ao fato de que o alto custo do Google Glass torna a solução inacessível financeiramente a muitas pessoas, especialmente a consumidores no Brasil. Além do mais, as funções inteligentes propostas pela Envision AI não parecem decorrer de tecnologia inteligente própria desenvolvida pela empresa, nem depender do Google Glass, mas simplesmente ser resultado de fazer uma interface com o GPT4 da Microsoft. Assim, o papel principal desenvolvido pela Envision AI foi a de integrar três tecnologias: a de reconhecimento de texto da própria Envision AI (provavelmente também de terceiros), o Google Glass e o GP4; ou seja, criar uma interface de usabilidade com acessibilidade para tecnologias de terceiros.

Na opinião do autor desse texto, isso é só o começo. As possibilidades de soluções de acessibilidade só vão aumentar a um ritmo tão desenfreado quanto a própria tecnologia de IA, que está vivendo um momento de crescimento exponencial. Na verdade, a IA sempre esteve na curva exponencial, só que agora já entramos na parte em que ela se torna mais íngreme e imparável.

Robert Mortimer
WRITTEN BY

Robert Mortimer

Com formação em Engenharia Elétrica, Robert Mortimer trabalhou 7 anos na Escola Perkins para Cegos de Watertown, Massachusetts nos Estados Unidos antes de chegar em 1997 na Laramara - Associação Brasileira de Assistência à Pessoa com Deficiência Visual, onde desenvolve até hoje diversas atividades voltadas para a tecnologia assistiva e sua disseminação no Brasil. Atualmente é coordenador do setor Laratec, que comercializa todo tipo de tecnologia assistiva para as pessoas com deficiência visual.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *