História

Por Mark Faulkner, The Conversation*

Você já teve dificuldade para ler o que está escrito entre "cenouras" e "batatas" em sua lista de compras? Em breve, a inteligência artificial (IA) poderá ajudar.

Nos últimos dez anos, pesquisadores têm trabalhado gradualmente para ensinar os computadores a ler documentos escritos à mão. Como na maioria dos casos de aprendizado de máquina, um computador recebe dados de treinamento: neste caso, imagens de caligrafia e detalhes do que está escrito. Em seguida, ele aprende como as marcas em cada página correspondem às letras. Ele aprende que aquele meio círculo é um "c", que aquele traço vertical curto é um "i" e que, portanto, pode ser "arroz" o que você escreveu na sua lista de compras, por exemplo.

Ninguém sabe ao certo como ele faz isso — o aprendizado de máquina geralmente é uma caixa preta. Mas parece provável que ela esteja aprendendo, pelo menos em parte, quais caracteres provavelmente ocorrerão em sequência, determinando, assim, que é improvável que você queira comprar "qvjx", por mais que a palavra se pareça com isso.

Essa tecnologia foi aplicada à caligrafia de muitos países e períodos, desde manuscritos medievais até diários do século XIX (se não ainda listas de compras do século XXI), em idiomas que vão do latim ao francês antigo e ao hebraico.

Como a tecnologia funciona com base na análise de imagens, ela é, em teoria, aplicável a qualquer tipo de escrita, desde hieróglifos egípcios até placas de cobre. Dez anos após seu desenvolvimento inicial, algumas consequências realmente interessantes do desenvolvimento de técnicas de reconhecimento de texto manuscrito (HTR) estão se tornando claras.

Aplicativos de arquivo da IA

Uma delas é que ela democratiza o acesso ao conhecimento. A digitalização de manuscritos tornou as coleções de muitas bibliotecas acessíveis com o clique de um botão (apesar da cibercriminalidade). Mas ainda é necessário um longo treinamento, disponível apenas em universidades selecionadas, para ler o que eles dizem (e alguns roteiros, como o Beneventan, têm o poder de fazer até mesmo pós-graduados rangerem os dentes).

O HTR tem o poder de gerar uma versão toleravelmente precisa e legível por máquina de um manuscrito com mais ou menos o clique de um botão. Se o idioma ainda for uma barreira para o usuário, essa transcrição pode ser submetida à tradução automática e uma versão viável em inglês (ou francês ou chinês) pode ser fornecida, lado a lado com o manuscrito.

A grande quantidade de dados que esses processos disponibilizarão tem ramificações significativas para o estudo. Muitos manuscritos medievais não são lidos desde a Idade Média. No passado, questões importantes (como a data de composição de obras fundamentais como Beowulf) eram frequentemente resolvidas com os menores fragmentos de dados, como uma única ortografia. Agora estamos começando a procurar responder a essas perguntas com conjuntos de dados de dezenas de milhares de grafias: com o HTR, serão centenas de milhares, se não milhões. E as respostas que obtivermos serão diferentes.

Além do qwerty

Os dados que o HTR pode gerar também são mais ricos. No último meio milênio, a representação de textos medievais foi fundamentalmente limitada pela prensa de impressão e pelo teclado do computador.

Alguns escribas medievais usam três formas diferentes de "s", mas todas foram transcritas como o familiar "s" em forma de cobra em um teclado. Os sinais de pontuação, como o pobre punctus elevatus (que se parece com um ponto-e-vírgula invertido), tiveram que ser modernizados para não serem vistos.

Como o HTR se baseia na tecnologia de reconhecimento visual, ele pode reconhecer qualquer número de formas de letras, não apenas as cerca de cem existentes em um teclado qwerty, e reproduzi-las com mais precisão do que um ser humano que se acostumou a copiar todas as quatro formas de "s" como "s".

Realizar essas possíveis aplicações para o inglês escrito mais antigo, do período anterior a 1150, é o objetivo do meu novo projeto piloto, Ansund, no Trinity College Dublin.

O objetivo da Ansund é usar o HTR para criar um corpus digital exaustivo e de acesso aberto de textos em inglês antigo, que transcreva todo o inglês antigo existente pela primeira vez e com um nível de detalhe sem igual. Estamos particularmente empolgados para ver quantas novas formas de letras descobriremos e para reunir os primeiros dados substanciais sobre a divisão de palavras em inglês antigo (os escribas nem sempre colocavam espaços onde poderíamos esperar).

A Ansund é uma das várias iniciativas da Trinity que visa aproveitar as novas tecnologias para aumentar o acesso aos manuscritos, incluindo o Trinity Centre for the Book, que se concentra na história da escrita e no compartilhamento do livro. A Biblioteca Virtual Trinity digitalizou mais de 60 manuscritos e será lançada esta semana com o Simpósio Many Lives of Medieval Manuscripts (Muitas vidas de manuscritos medievais, em tradução livre).

A ética e os perigos da IA receberam atenção importante no ano passado, mas seu poder de tornar legível e navegável nosso patrimônio cultural também merece atenção. Um dia, em breve, ela poderá até mesmo garantir que você consiga decodificar suas listas de compras confusas.

*Mark Faulkner é professor assistente de literatura medieval e diretor do Trinity Centre for the Book. O artigo originalmente foi publicado em inglês no The Conversation.

Mais recente Próxima De onde surgiu o Papai Noel? Saiba as origens da figura natalina
Mais de Galileu

O forte ressurgimento no interesse pela exploração lunar reacende o debate a respeito da propriedade do satélite natural. Mas, afinal, de quem é a Lua?

Quem é o dono da Lua? Interesse crescente na exploração do satélite reacende discussão

Comportamento surpreendente nunca havia sido registrado, e demonstra como os insetos podem cuidar da saúde no interior da colônia

Formigas atacam de cirurgiãs e fazem amputações para salvar parceiras feridas

Fazer exercícios físicos moderados ou intensos durante a noite ajudou a regular e melhorar o controle glicêmico. É o que mostrou um estudo feito por pesquisadores dos EUA

Fazer atividade física à noite pode reduzir níveis de açúcar no sangue

Mini impressora em formato de chip foi capaz de produzir objetos planos, e pode ser uma alternativa para projetos 3D simples. Entenda como a técnica funciona

Pesquisadores criam impressora 3D funcional do tamanho de uma moeda

Sítios arqueológicos no Golfo do México correspondem a locais que inundaram com aumento do nível do mar, e guardam vestígios da presença de indígenas norte-americanos

Cientistas começam a investigar mundo perdido submerso da última Era do Gelo

Descoberta em 2021, embarcação é a única se encontra em seu local original, e pode ter sido produzida entre os anos 700 e 900. Mas a atividade agrícola na região acelerou a sua degradação

Antigo barco viking é consumido por fungos e pode desaparecer nos próximos 10 anos

Nova técnica aumentou o controle das próteses por usuários amputados, melhorando a velocidade de caminhada, a capacidade de desviar de obstáculos e de subir em escadas ou rampas

Cientistas do MIT criam perna biônica controlada com a mente; assista

Tanque que recria fluido uterino de tubarões-lanterna de cauda fina foi desenvolvido por pesquisadores japoneses, e pode ajudar na conservação de espécies ameaçadas

Útero artificial feito no Japão cria tubarões bebê por até 355 dias

A máquina de Anticítera, considerada o computador mais antigo do mundo, servia como uma espécie de calendário. Mas um novo estudo argumenta que seu funcionamento era diferente do que se pensava

Computador analógico de 2 mil anos seguia calendário lunar, diz estudo

Livro de Antônio Gonçalves Teixeira e Sousa, autor de Cabo Frio (RJ) elogiado por Machado de Assis, ganha nova edição pela Editora Sophia. Conheça a história

1º romance brasileiro, “O Filho do Pescador" ganha nova edição 180 anos depois