Sociedade

Por Redação Galileu

O ChatGPT da empresa OpenAI classifica currículos que mencionam deficiências de forma consistentemente mais baixa, segundo estudo. A equipe aplicou fichas de emprego no sistema e descobriu que existiam preconceitos nos resultados, como o estereótipo de que pessoas com autismo não são bons líderes.

Os resultados foram publicados em 05 de junho após a apresentação na Conferência ACM de 2024 sobre Justiça, Responsabilidade e Transparência no Rio de Janeiro. O estudo sugere a necessidade de maior conscientização sobre os preconceitos da IA (Inteligência Artificial) em processos de contratação e destaca a importância de mais pesquisas para documentar e corrigir esses vieses.

A ideia surgiu quando a estudante de doutorado Kate Glazko, da Universidade de Washington (UW), quando estava procurando estágio na pós-graduação, notou que os recrutadores postavam online terem usado o ChatGPT e outras ferramentas de inteligência artificial para resumir currículos e classificar candidatos. Apesar dessa triagem automatizada ser comum nas contratações há décadas, ela se perguntou: como um sistema assim classificaria currículos que implicassem que alguém tivesse uma deficiência?

Os pesquisadores utilizaram o extenso currículo de um dos autores do estudo, composto por aproximadamente 10 páginas, como base para criar seis currículos aprimorados, cada um sugerindo a presença de uma deficiência distinta — Foto: Unsplash/ Marten Bjork
Os pesquisadores utilizaram o extenso currículo de um dos autores do estudo, composto por aproximadamente 10 páginas, como base para criar seis currículos aprimorados, cada um sugerindo a presença de uma deficiência distinta — Foto: Unsplash/ Marten Bjork

Ela constatou que o ChatGPT consistentemente avaliava negativamente os currículos que mencionavam honrarias e credenciais relacionadas à deficiência, como o "Prêmio de Liderança em Deficiência Tom Wilson", em comparação com aqueles sem essas referências e ao justificar suas classificações, o sistema demonstrou visões preconceituosas.

Após personalizar a ferramenta com instruções para evitar preconceitos capacitistas, os pesquisadores notaram melhorias em cinco das seis deficiências testadas: surdez, cegueira, paralisia cerebral, autismo e o termo geral “deficiência”. No entanto, a classificação para currículos com menção a autismo e depressão teve pouca ou nenhuma melhora.

“A classificação de currículos com IA está começando a proliferar, mas não há muita pesquisa sobre se isso é seguro e eficaz”, disse Glazko, a autora principal do estudo, em comunicado. “Para um candidato a emprego com deficiência, sempre há a questão de incluir ou não credenciais relacionadas à deficiência no currículo. Acho que as pessoas com deficiência consideram isso mesmo quando os avaliadores são humanos.”

Aplicando o currículo

Os pesquisadores usaram o currículo de um dos autores do estudo, que tinha cerca de 10 páginas, para criar seis currículos aprimorados, cada um implicando uma deficiência diferente. Eles usaram o modelo GPT-4 do ChatGPT para classificar esses currículos aprimorados em relação à versão original para uma vaga de "pesquisador estudante" em uma grande empresa de software dos EUA. O sistema classificou os currículos aprimorados em primeiro lugar apenas em um quarto das vezes, revelando um viés contra currículos com referências à deficiência.

“Em um mundo justo, o currículo aprimorado deveria ser classificado em primeiro lugar todas as vezes”, afirma Jennifer Mankoff, autora sênior e professora na Allen School da UW. “Não consigo pensar em um emprego onde alguém que foi reconhecido por suas habilidades de liderança, por exemplo, não deveria ser classificado à frente de alguém com a mesma formação que não foi”.

A classificação no ChatGPT para currículos com menção a autismo e depressão teve pouca ou nenhuma melhora. — Foto: Unsplash/ Rolf van Root
A classificação no ChatGPT para currículos com menção a autismo e depressão teve pouca ou nenhuma melhora. — Foto: Unsplash/ Rolf van Root

Quando solicitado a explicar as classificações, as respostas do GPT-4 revelaram preconceitos contra pessoas com deficiência. Por exemplo, ao analisar um candidato com depressão, o sistema destacou um "foco adicional em DEI (Diversidade, Equidade e Inclusão) e desafios pessoais", sugerindo que isso prejudicava os aspectos técnicos e orientados para a pesquisa do papel.

Glazko observou que algumas das descrições feitas pelo GPT poderiam influenciar a percepção do currículo de uma pessoa com base em sua deficiência, sugerindo que o envolvimento com DEI ou deficiência poderia estar prejudicando outras partes do currículo. Por exemplo, o sistema introduziu o conceito de "desafios" ao analisar currículos com depressão, mesmo que esse termo não fosse mencionado, o que poderia reforçar estereótipos.

Os pesquisadores testaram se o sistema poderia ser treinado para ser menos enviesado, utilizando a ferramenta Editor do GPT para personalizar o GPT-4 com instruções escritas. Eles instruíram o chatbot a não exibir preconceitos e a seguir princípios de justiça e DEI para deficientes.

Após repetir o experimento com o chatbot treinado, o sistema classificou os currículos aprimorados mais alto do que o currículo de controle em 37 de 60 casos. No entanto, para algumas deficiências, as melhorias foram mínimas ou inexistentes: o currículo de autismo ficou em primeiro lugar apenas três vezes em 10, enquanto o currículo de depressão permaneceu em primeiro lugar apenas duas vezes, sem alteração em relação aos resultados originais do GPT-4.

“As pessoas precisam estar cientes dos preconceitos do sistema ao usar IA para essas tarefas do mundo real”, explica a autora principal. “Caso contrário, um recrutador usando o ChatGPT não pode fazer essas correções ou estar ciente de que, mesmo com instruções, o viés pode persistir”.

Os pesquisadores destacam ações de organizações como ourability.com e inclusively.com, que buscam melhorar as oportunidades para candidatos com deficiência, enfrentando preconceitos independentemente do uso de IA na contratação. Além de ressaltar a necessidade de mais pesquisas para documentar e corrigir o problema, incluindo testes em outros sistemas, como o Gemini da Google e o Llama da Meta.

Eles também sugerem a inclusão de outras deficiências e estudos que mostrem outros atributos como gênero e raça. Dessa forma, explorando personalizações adicionais para reduzir preconceitos de forma mais consistente e a avaliação da possibilidade de tornar a versão básica do GPT-4 menos preconceituosa.

Mais recente Próxima Stalking: como reconhecer um stalker e qual o número de casos no Brasil
Mais de Galileu

Em entrevista à GALILEU, Kamilla Souza fala sobre o trabalho de extrair cérebros de cetáceos - e como eles podem ser modelos para entender, também, o cérebro humano

Brasileira é dona da maior coleção de cérebros de golfinho da América Latina

Experiência imersiva pela famosa paisagem especial foi possível a partir da combinação de imagens dos dois telescópios espaciais mais poderosos do mundo, Hubble e James Webb

Nasa desenvolve visualização 3D dos "Pilares da Criação"; veja

Dados de 390 mil adultos, coletados ao longo de 20 anos, sugerem que a ingestão de suplementos alimentares não é sinônimo de maior longevidade, ou mesmo menor risco de doenças cardíacas e câncer

Tomar multivitamínicos todo dia não ajuda você a viver mais, diz estudo

Arqueólogos acreditam que sobrevivência de criança com a síndrome para além do período de amamentação dependeu de cuidados da comunidade neandertal em que vivia

Descoberta primeira criança neandertal com síndrome de Down

Estimativas de pesquisadores podem ter implicações nos estudos sobre a estabilidade das plataformas de gelo e no aumento do nível do mar

Geleiras da Antártida guardam duas vezes mais água do que se imaginava

Novo imposto, que passa a valer a partir de 2030, visa reduzir emissões de gases de efeito estufa na atmosfera e, ao mesmo tempo, apoiar a transição verde do país

Pum de vaca faz governo da Dinamarca propor taxa de R$ 500 por animal

Análise química de estalagmites realizada em caverna do Parque Nacional Cavernas do Peruaçu, em Minas Gerais, demonstra que o aquecimento global tem gerado um distúrbio hidrológico na região central do país, fazendo com que parte significativa da água da chuva evapore antes mesmo de se infiltrar no terreno

Seca no Cerrado brasileiro é a pior há sete séculos, diz estudo

Naufrágio Kyrenia foi descoberto em 1965, mas, devido a problemas de conservação, não pôde ter sua idade determinada com precisão. Isso mudou com um novo estudo

Cientistas confirmam quando navio grego naufragou usando... amêndoas

Pesquisa mostrou que legalização nos EUA não contribuiu para um maior consumo entre adolescentes - o que não exclui os riscos do uso por jovens e a necessidade de monitoramento

Liberar maconha aumenta uso entre adolescentes? O que diz a experiência dos EUA

Produtos incluem diferentes opções de bonecos Funko, camiseta, mouse pad e até réplica do ovo de dragão, além do livro que inspirou a série; preços vão de R$ 21 a R$ 135

A Casa do Dragão: sete itens para entrar no clima da segunda temporada