關於 METR 圖表的三件事: 1) 它測量了與編碼能力相關的某些真實內容,但也不完全是它聲稱要測量的內容 2) 許多其他基準與其高度相關,並且正在指數增長 3 AI 在一些關鍵方面仍然不穩定,這些方面很難測量