Les scientifiques sociaux travaillant avec des matériaux nécessitant une numérisation ne peuvent étudier que ce que les machines peuvent lire. En pratique, cela signifie des documents imprimés en alphabet latin provenant d'archives bien financées. Dans un nouveau document de travail, je montre que les modèles de langage visuel utilisés en zéro-shot surpassent tous les systèmes OCR existants dans tous les scripts évalués, et je propose un pipeline pour les déployer sur de nouvelles collections. Je l'applique à six collections d'archives couvrant 1,8 million de pages dans six pays pour moins de 1 900 $.