SXSW Interactive 2022 – 4º dia: Inteligência Artificial e Conversação

Presentão: baixe o link para o relatório “2022 Tech Trends do Future Today Institute” e confira as novidades sobre Inteligência Artificial.

sxsw

A Digital House está representada no SXSW 2022, com a participação presencial de Edney “Interney” Souza, nosso diretor acadêmico, em Austin (Texas/EUA). Diariamente, ele traz uma análise com os melhores acontecimentos do festival. Abaixo, você confere o que rolou nesse 4º dia de evento, pelo olhar do Edney:

Antes de descrever meu dia um recado rápido: ontem lançaram o 2022 Tech Trends do Future Today Institute, o mais completo relatórios de tendências de tecnologia. O relatório é dividido em 14 volumes (por tipo de indústria) e você pode baixar aqui. Vale a pena ler o volume da indústria em que você trabalha para se manter atualizado em termos de tecnologia.

O dia começou com o painel “Um novo teste de Turing: a IA pode encontrar um coelho desaparecido?“. Alex Castrounis (Why of AI e Northwestern University), Casey Hudetz (DocuSign) e Pamela Pavliscak (Pratt Institute) discutiram se a Inteligência Artificial consegue interpretar o texto do livro “I Want My Hat Back” de Jon Klassen.

É um livro infantil, onde um urso perde seu chapéu e fala com vários animais até perceber que o coelho pegou o chapéu e então, ele come o pobre bichinho. Por se tratar de um livro infantil não é explícito que o urso comeu o animalzinho e essa é a grande questão do painel. Uma Inteligência Artificial consegue decifrar o que aconteceu com o coelho?

A resposta depende de como você encara o desafio.

Se você espera que a Inteligência Artificial entenda os desenhos, que animal fala cada frase, quais emoções os animais estão sentindo e então responda o que aconteceu com o coelho, a resposta é não.

Esse é um desafio mundial  proposto para milhares de cientistas e ainda não resolvido.

Os animais do livro não são reconhecidos por Inteligência Artificial em função do seu desenho caricato. Os modelos de IA existentes funcionam bem para identificar animais reais, não desenhos.

As falas ao lado de cada imagem não possuem indicação de quem fala, mas como sabemos que é o urso que perdeu o chapéu e as cores são diferentes nós humanos conseguimos fazer essa associação.

Existem IA treinadas para identificar emoções, mas os modelos dessas IAs funcionam em pessoas e rostos humanos. No livro nós humanos conseguimos identificar algumas emoções nos animais pelo olhar (eles não têm boca) e pelo conteúdo do texto.

Porém, se você descrever todas as imagens e colocar os autores em cada frase existe uma IA, chamada GPT-3 que consegue entender que o urso comeu o coelho. Vale destacar que o GPT-3 possui 175 bilhões de parâmetros de aprendizado de máquina e tenta simular conversas normais quando questionado. Existe a possibilidade da IA ter “chutado” que o coelho foi comido ao invés de “analisado” o problema com profundidade.

De qualquer forma gostei de entender no painel que a IA só resolveu o problema quando convertido em texto. IAs continuam resolvendo apenas problemas bem específicos para os quais elas foram treinadas. Quando é preciso mesclar diferentes modelos em uma análise elas ainda estão longe de funcionar como os humanos.

Mais tarde foi a vez do painel “Como as pessoas falam e o que isso significa para a tecnologia” onde Jonathan Bloom e Tanya Kraljic do Google.

Quando as pessoas falam com um assistente de voz do Google, em 7% das vezes elas tocam o aparelho, em 29% elas fazem gestos com as mãos e em 86% das vezes  fazem contato visual. Esse foi um estudo do próprio Google onde câmeras foram colocadas em algumas casas (com consentimento das pessoas) para estudar a interação com o assistente de voz.

Eles explicaram ao longo do painel como estudam gestos, integração social e até pausas nas conversas para melhorar os produtos Google.

Eles falaram do Project Relate, onde pessoas com dificuldade de fala podem usar um app para serem melhor compreendidas.

Contaram também de como as expressões são importantes na fala. Por conta disso, algumas pessoas usam outro produto do Google, o Live Transcribe, próximo ao rosto para verem o que elas falam ao mesmo tempo que a transcrição ocorre.

Curiosidade: como o Live Transcribe é um produto primariamente para surdos o vídeo de divulgação não tem som:

0:00
/

Como o feedback visual é crucial, o assistente do Google pisca algumas luzes conforme se comunica com as pessoas. Eles também citaram o Jibo, um robô assistente, como um bom exemplo de interface com interação social.

Entendendo como nos comunicamos é possível usar tecnologias existentes de maneiras mais inteligentes e avançadas.


Confira também: