O velho e humilde PDF está a tornar-se um problema para a IA

Durante décadas, o PDF foi sinónimo de fiabilidade. Criado pela Adobe, o Portable Document Format nasceu com um objetivo simples. Ou seja, garantir que um documento tinha exatamente o mesmo aspeto em qualquer dispositivo.

Funcionou, e de facto continua a funcionar.

Mas há um novo “leitor” que está a ter dificuldades com este formato: a inteligência artificial.

Anime Live Action – A inteligência artificial faz mais e melhor!

PDFs são visualmente perfeitos, mas estruturalmente confusos

O problema não está na aparência. Está na estrutura.

Ao contrário de uma página web ou de um ficheiro de texto simples, o PDF não foi construído a pensar em lógica documental. Foi construído a pensar em coordenadas gráficas. Ou seja, cada letra é posicionada num ponto específico da página.

Para um humano, isto é ótimo. Para um modelo de linguagem de grande dimensão, é um pesadelo. Colunas múltiplas, cabeçalhos, rodapés, tabelas, gráficos e metadados escondidos confundem facilmente sistemas treinados para ler texto de forma linear, da esquerda para a direita.

O resultado? Resumos errados, interpretações trocadas e até as chamadas “alucinações”, quando a IA inventa detalhes porque interpretou mal a estrutura.

Não é só a IA que sofre

Curiosamente, este não é um problema novo.

Softwares de acessibilidade para utilizadores com deficiência visual também enfrentam obstáculos semelhantes. Ferramentas de análise de dados que tentam extrair tabelas ou gráficos de relatórios em PDF passam pelo mesmo.

A diferença é que, agora, estamos a tentar alimentar estes ficheiros a modelos de IA que prometem compreender e resumir qualquer documento.

E o PDF não foi feito para isso.

Segurança complica ainda mais

Há também a questão da segurança.

Segundo dados da Check Point, cerca de um em cada cinco ataques por email envolve PDFs infetados. O formato permite incorporar scripts, links e outros elementos potencialmente maliciosos.

Ou seja, além de estruturalmente complexo para a IA, o PDF é também um dos vetores preferidos de malware.

Há quem queira reinventar o documento digital

É curioso, mas alguns empreendedores veem aqui uma oportunidade.

A startup israelita Factify, liderada por Matan Gavish, está a desenvolver um novo formato pensado desde raiz para interagir com modelos de linguagem. A ideia é criar documentos “inteligentes”, preparados para automação e leitura por IA.

Mas nem todos concordam que o problema esteja no formato.

Duff Johnson, responsável pela PDF Association, defende que a solução passa por melhorar os modelos e as ferramentas, em vez de abandonar o PDF.

A própria Adobe já está a adaptar-se

Entretanto, a Adobe já integrou um assistente de IA no Acrobat, capaz de resumir e extrair informação de documentos. A Google também introduziu suporte semelhante nas suas ferramentas Gemini para converter PDFs em estruturas mais “amigáveis” para modelos.

Ou seja, o formato não está parado. Está a ser adaptado.

O PDF vai desaparecer?

Claro que não.

Desde que se tornou padrão aberto em 2008, estima-se que existam cerca de 2.5 biliões de PDFs em circulação pelo mundo. Declarações fiscais, relatórios científicos, formulários governamentais, contratos. É a língua franca da papelada digital.

O que está em causa não é a sobrevivência do PDF, mas a sua evolução. Nada mais que isso.