Naukowcy społeczni pracujący z materiałami wymagającymi cyfryzacji mogą badać tylko to, co maszyny potrafią odczytać. W praktyce oznacza to drukowane dokumenty w alfabecie łacińskim z dobrze finansowanych archiwów. W nowym artykule roboczym pokazuję, że modele językowe wizji używane w trybie zero-shot przewyższają wszystkie istniejące systemy OCR we wszystkich ocenianych skryptach, a także proponuję pipeline do ich wdrażania na nowych zbiorach. Zastosowałem go do sześciu zbiorów archiwalnych obejmujących 1,8 miliona stron w sześciu krajach za mniej niż 1 900 dolarów.