从事数字化材料研究的社会科学家只能研究机器能够读取的内容。实际上,这意味着来自资金充足档案馆的印刷拉丁文文件。在一份新的工作论文中,我展示了使用零样本的视觉语言模型在评估的每种脚本中都超越了现有的每个OCR系统,并提出了一种在新收藏品上部署它们的流程。我将其应用于跨越六个国家的六个档案馆收藏,总计180万页,费用不到1900美元。