Cientistas sociais que trabalham com materiais que exigem digitalização só podem estudar o que as máquinas conseguem ler. Na prática, isso significa documentos impressos em alfabeto latino de arquivos bem financiados. Em um novo working paper, mostro que os Modelos de Linguagem Vision usados zero-shot superam todos os sistemas de OCR existentes em todos os scripts avaliados, e proponho um pipeline para implantá-los em novas coleções. Eu aplico isso a seis coleções arquivísticas abrangendo 1,8 milhão de páginas em seis países por menos de $1.900.