关于METR图表的三件事: 1)它测量了与编码能力相关的真实内容,但也并不完全是它声称要测量的内容 2)许多其他基准与之高度相关,并且正在呈指数增长 3 AI在一些关键方面仍然不稳定,难以测量