Sociale wetenschappers die werken met materialen die digitalisering vereisen, kunnen alleen bestuderen wat machines kunnen lezen. In de praktijk betekent dat gedrukte documenten in het Latijnse schrift uit goed gefinancierde archieven. In een nieuw werkdocument laat ik zien dat Vision Language Models in zero-shot elke bestaande OCR-systeem overtreffen voor elk geëvalueerd schrift, en ik stel een pipeline voor om ze in te zetten op nieuwe collecties. Ik pas het toe op zes archiefcollecties die 1,8 miljoen pagina's beslaan in zes landen voor minder dan $1.900.