從事數位化材料的社會科學家只能研究機器能讀取的內容。實際上,這意味著來自資金充足的檔案館的印刷拉丁字母文件。在一篇新的工作論文中,我展示了使用零樣本的視覺語言模型在所有評估的字母系統中超越了現有的每一個OCR系統,並提出了一個在新收藏品上部署它們的流程。我將其應用於六個檔案收藏,涵蓋六個國家的180萬頁,花費不到1,900美元。