Các nhà khoa học xã hội làm việc với các tài liệu cần số hóa chỉ có thể nghiên cứu những gì mà máy móc có thể đọc. Trên thực tế, điều đó có nghĩa là các tài liệu in bằng chữ cái Latin từ các kho lưu trữ được tài trợ tốt. Trong một bài báo làm việc mới, tôi chỉ ra rằng các Mô hình Ngôn ngữ Hình ảnh sử dụng phương pháp không cần huấn luyện (zero-shot) vượt trội hơn mọi hệ thống OCR hiện có trên mọi loại chữ đã được đánh giá, và tôi đề xuất một quy trình để triển khai chúng trên các bộ sưu tập mới. Tôi áp dụng nó cho sáu bộ sưu tập lưu trữ trải dài 1,8 triệu trang ở sáu quốc gia với chi phí dưới 1.900 đô la.