ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

Resultados mostram que IAs ainda têm dificuldades em usar lógica e cometem erros frequentes

AFP

Os LLMs (sigla em inglês para Grandes Modelos de Linguagem), como ChatGPT, ainda seguem tendo dificuldades para raciocinar usando a lógica e cometem erros frequentes, de acordo com estudo.

As inteligências artificiais refletem os preconceitos de gênero, éticos e morais dos humanos presentes nos textos dos quais se alimentam, recorda o estudo publicado nesta quarta-feira (5) na revista Open Science da Royal Society britânica.

Mas o questionamento é se elas também refletem esses preconceitos nos testes de raciocínio, como questionou Olivia Macmillan-Scott, doutoranda do departamento de Ciências da Computação da UCL (University College de Londres).

O resultado da pesquisa é que os LLMs mostram "um raciocínio muitas vezes irracional, mas de uma forma diferente da dos humanos", afirma a pesquisadora à AFP.

Sob a supervisão de Mirco Musolesi, professor e diretor do Machine Intelligence Lab da UCL, Macmillan-Scott apresentou sete modelos de linguagem a uma série de testes psicológicos desenvolvidos para humanos:

ChatGPT 3.5 e 4, da OpenAI
Bard, do Google
Claude 2 ,da Anthropic
Três versões de LLaMA da Meta

Como esta tecnologia aborda o preconceito que leva a privilegiar soluções com um maior número de elementos, em detrimento daquelas com uma proporção adequada?

Um exemplo: se tivermos uma urna com nove bolinhas brancas e uma vermelha e outra urna com 92 bolinhas brancas e oito vermelhas, qual devemos escolher para ter a melhor chance de obter uma bolinha vermelha?

A resposta correta é a primeira urna, visto que há 10% de possibilidades frente a 8% da segunda opção.

As respostas dos modelos de linguagem foram muito inconsistentes. Alguns responderam corretamente ao mesmo teste seis em cada dez vezes. Outros apenas duas em cada dez, embora o teste não tenha mudado. "Cada vez obtemos uma resposta diferente", diz a pesquisadora.

Os LLMs "podem ser bons para resolver uma equação matemática complicada, mas logo te dizem que sete mais três é igual a 12", constatou.

"NÃO TENHO MUITA CERTEZA"

Estes modelos "não falham nestas tarefas da mesma forma que um humano", afirma o estudo. É o que Musolesi chama de "erros de máquina".

"Existe uma forma de raciocínio lógico que é potencialmente correta se a considerarmos por etapas, mas que é errada tomada como um todo", afirma.

A máquina funciona com "uma espécie de pensamento linear", diz o professor, e cita o modelo Bard, atual Gemini, capaz de realizar corretamente as diferentes fases de uma tarefa, mas que obtém um resultado final incorreto por não ter uma visão geral.

Sobre esta questão, o professor de ciências da computação Maxime Amblard, da Universidade de Lorraine, na França, recorda que os LLMs, como todas as inteligências artificiais generativas, não funcionam como os humanos".

Os humanos são "máquinas capazes de criar significado", o que as máquinas não conseguem, diz à AFP.

Existem diferenças entre os diferentes modelos de linguagem e em geral, o GPT-4, sem ser infalível, obteve resultados melhores que os demais.

Macmillan-Scott suspeita que os modelos "fechados", cujo código operacional permanece secreto, "incorporam mecanismos em segundo plano" para responder a questões matemáticas.

De toda forma, neste momento é impensável confiar uma decisão importante a um LLM. Segundo o professor Musolesi, eles deveriam ser treinados para responder "não tenho muita certeza" quando necessário.

Tópicos relacionados

Leia tudo sobre o tema e siga:

Últimas notícias

ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

Resultados mostram que IAs ainda têm dificuldades em usar lógica e cometem erros frequentes

"NÃO TENHO MUITA CERTEZA"

Tópicos relacionados

Endereço da página

x-twitter

Leia as últimas notícias sobre Elon Musk, a Tesla e o X (ex-Twitter)

IA

Tudo sobre inteligência artificial e ferramentas como ChatGPT e Bard

últimas notícias

Mercado

Não há governança que resista quando a cúpula resolve fraudar, diz advogado da Americanas

DeltaFolha

Quanto lixo plástico seu consumo gera em casa? Calcule

Plano Real, 30

Entre muitos pais do Plano Real, seis se destacam; veja nomes

A Folha integra o

Últimas notícias

Folha Mercado

"NÃO TENHO MUITA CERTEZA"

Compartilhe

Desvendando IA

Tópicos relacionados

sua assinatura pode valer ainda mais

sua assinatura vale muito

notícias da folha no seu email

Mais lidas em Tec

últimas notícias

Mercado

Não há governança que resista quando a cúpula resolve fraudar, diz advogado da Americanas

DeltaFolha

Quanto lixo plástico seu consumo gera em casa? Calcule

Plano Real, 30

Entre muitos pais do Plano Real, seis se destacam; veja nomes

newsletter

A Folha integra o