Три речі про граф METR: 1) Він вимірює щось реальне у здібностях кодування, але не зовсім те, що заявляє, що вимірює 2) Багато інших бенчмарків дуже сильно корелюють з цим і зростають експоненціально 3 Штучний інтелект залишається нерівним у ключових аспектах, які важко виміряти