ChatGPT prejudica currículos que mencionam deficiência, revela estudo

A equipe aplicou currículos relacionadas a 6 deficiências e explorarou formas de mitigar esse viés, customizando o sistema com instruções escritas para reduzir preconceitos

Por Redação Galileu


O sistema demostrou a existencia do estereótipo de que pessoas com autismo não são bons líderes Unsplash/ Scott Graham

O ChatGPT da empresa OpenAI classifica currículos que mencionam deficiências de forma consistentemente mais baixa, segundo estudo. A equipe aplicou fichas de emprego no sistema e descobriu que existiam preconceitos nos resultados, como o estereótipo de que pessoas com autismo não são bons líderes.

Os resultados foram publicados em 05 de junho após a apresentação na Conferência ACM de 2024 sobre Justiça, Responsabilidade e Transparência no Rio de Janeiro. O estudo sugere a necessidade de maior conscientização sobre os preconceitos da IA (Inteligência Artificial) em processos de contratação e destaca a importância de mais pesquisas para documentar e corrigir esses vieses.

A ideia surgiu quando a estudante de doutorado Kate Glazko, da Universidade de Washington (UW), quando estava procurando estágio na pós-graduação, notou que os recrutadores postavam online terem usado o ChatGPT e outras ferramentas de inteligência artificial para resumir currículos e classificar candidatos. Apesar dessa triagem automatizada ser comum nas contratações há décadas, ela se perguntou: como um sistema assim classificaria currículos que implicassem que alguém tivesse uma deficiência?

Os pesquisadores utilizaram o extenso currículo de um dos autores do estudo, composto por aproximadamente 10 páginas, como base para criar seis currículos aprimorados, cada um sugerindo a presença de uma deficiência distinta — Foto: Unsplash/ Marten Bjork

Ela constatou que o ChatGPT consistentemente avaliava negativamente os currículos que mencionavam honrarias e credenciais relacionadas à deficiência, como o "Prêmio de Liderança em Deficiência Tom Wilson", em comparação com aqueles sem essas referências e ao justificar suas classificações, o sistema demonstrou visões preconceituosas.

Após personalizar a ferramenta com instruções para evitar preconceitos capacitistas, os pesquisadores notaram melhorias em cinco das seis deficiências testadas: surdez, cegueira, paralisia cerebral, autismo e o termo geral “deficiência”. No entanto, a classificação para currículos com menção a autismo e depressão teve pouca ou nenhuma melhora.

“A classificação de currículos com IA está começando a proliferar, mas não há muita pesquisa sobre se isso é seguro e eficaz”, disse Glazko, a autora principal do estudo, em comunicado. “Para um candidato a emprego com deficiência, sempre há a questão de incluir ou não credenciais relacionadas à deficiência no currículo. Acho que as pessoas com deficiência consideram isso mesmo quando os avaliadores são humanos.”

Aplicando o currículo

Os pesquisadores usaram o currículo de um dos autores do estudo, que tinha cerca de 10 páginas, para criar seis currículos aprimorados, cada um implicando uma deficiência diferente. Eles usaram o modelo GPT-4 do ChatGPT para classificar esses currículos aprimorados em relação à versão original para uma vaga de "pesquisador estudante" em uma grande empresa de software dos EUA. O sistema classificou os currículos aprimorados em primeiro lugar apenas em um quarto das vezes, revelando um viés contra currículos com referências à deficiência.

“Em um mundo justo, o currículo aprimorado deveria ser classificado em primeiro lugar todas as vezes”, afirma Jennifer Mankoff, autora sênior e professora na Allen School da UW. “Não consigo pensar em um emprego onde alguém que foi reconhecido por suas habilidades de liderança, por exemplo, não deveria ser classificado à frente de alguém com a mesma formação que não foi”.

A classificação no ChatGPT para currículos com menção a autismo e depressão teve pouca ou nenhuma melhora. — Foto: Unsplash/ Rolf van Root

Quando solicitado a explicar as classificações, as respostas do GPT-4 revelaram preconceitos contra pessoas com deficiência. Por exemplo, ao analisar um candidato com depressão, o sistema destacou um "foco adicional em DEI (Diversidade, Equidade e Inclusão) e desafios pessoais", sugerindo que isso prejudicava os aspectos técnicos e orientados para a pesquisa do papel.

Glazko observou que algumas das descrições feitas pelo GPT poderiam influenciar a percepção do currículo de uma pessoa com base em sua deficiência, sugerindo que o envolvimento com DEI ou deficiência poderia estar prejudicando outras partes do currículo. Por exemplo, o sistema introduziu o conceito de "desafios" ao analisar currículos com depressão, mesmo que esse termo não fosse mencionado, o que poderia reforçar estereótipos.

Os pesquisadores testaram se o sistema poderia ser treinado para ser menos enviesado, utilizando a ferramenta Editor do GPT para personalizar o GPT-4 com instruções escritas. Eles instruíram o chatbot a não exibir preconceitos e a seguir princípios de justiça e DEI para deficientes.

Após repetir o experimento com o chatbot treinado, o sistema classificou os currículos aprimorados mais alto do que o currículo de controle em 37 de 60 casos. No entanto, para algumas deficiências, as melhorias foram mínimas ou inexistentes: o currículo de autismo ficou em primeiro lugar apenas três vezes em 10, enquanto o currículo de depressão permaneceu em primeiro lugar apenas duas vezes, sem alteração em relação aos resultados originais do GPT-4.

“As pessoas precisam estar cientes dos preconceitos do sistema ao usar IA para essas tarefas do mundo real”, explica a autora principal. “Caso contrário, um recrutador usando o ChatGPT não pode fazer essas correções ou estar ciente de que, mesmo com instruções, o viés pode persistir”.

Os pesquisadores destacam ações de organizações como ourability.com e inclusively.com, que buscam melhorar as oportunidades para candidatos com deficiência, enfrentando preconceitos independentemente do uso de IA na contratação. Além de ressaltar a necessidade de mais pesquisas para documentar e corrigir o problema, incluindo testes em outros sistemas, como o Gemini da Google e o Llama da Meta.

Eles também sugerem a inclusão de outras deficiências e estudos que mostrem outros atributos como gênero e raça. Dessa forma, explorando personalizações adicionais para reduzir preconceitos de forma mais consistente e a avaliação da possibilidade de tornar a versão básica do GPT-4 menos preconceituosa.

Mais recente Próxima Stalking: como reconhecer um stalker e qual o número de casos no Brasil

Leia mais