Samfunnsvitere som arbeider med materialer som krever digitalisering, kan bare studere det maskiner kan lese. I praksis betyr det trykte latinske dokumenter fra godt finansierte arkiver. I et nytt arbeidspapir viser jeg at Vision Language Models brukte zero-shot overgår alle eksisterende OCR-systemer på tvers av alle evaluerte skript, og jeg foreslår en pipeline for å distribuere dem på nye samlinger. Jeg bruker det på seks arkivsamlinger som dekker 1,8 millioner sider i seks land for under 1 900 dollar.