デジタル化が必要な資料を扱う社会科学者は、機械が読み取れるものしか研究できません。実際には、資金の充てられたアーカイブからラテン文字の印刷文書を用いることを意味します。新しいワーキングペーパーでは、ビジョン言語モデルがゼロショットを用いたすべての既存のOCRシステムを評価したすべてのスクリプトで優れていることを示し、新しいコレクションに展開するためのパイプラインを提案しました。私はこれを6か国、180万ページに及ぶ6つのアーカイブコレクションに適用し、価格は1,900ドル未満です。