Ученые разработали академический экзамен, который не смог сдать ни один ИИ

Международная команда почти из 1000 ученых и специалистов из более чем 500 организаций в 50 странах создала новый тест для проверки искусственного интеллекта — и ни одна из существующих моделей не смогла пройти его даже наполовину. Тест получил название «Последний экзамен человечества» (Humanity’s Last Exam, HLE) и претендует на роль нового стандарта оценки реальных возможностей ИИ.

Причина появления HLE — стремительный прогресс языковых моделей. Современные системы ИИ начали набирать почти максимальные баллы в стандартных академических тестах, в частности в широко используемом Massive Multitask Language Understanding (MMLU). Это поставило исследователей перед очевидным вопросом: если модель набирает 90%+ в тесте, означает ли это, что она действительно понимает предмет — или просто научилась распознавать шаблоны?

Вывод оказался неудобным: старые тесты больше не позволяют точно оценить возможности ИИ. Нужен был экзамен принципиально другого уровня.

2500 вопросов, на которые нет готового ответа в интернете

В финальный экзамен вошло 2 500 вопросов из самых разных областей знаний:

Каждый вопрос имеет один точный проверяемый ответ. При этом задания были составлены так, чтобы исключить возможность найти решение простым поиском в интернете. Некоторые задачи требуют перевода древних пальмирских надписей, определения мелких анатомических структур птиц или анализа особенностей произношения библейского иврита.

Методология отбора вопросов тоже нетривиальна: разработчики проверяли каждое задание с помощью современных систем ИИ. Если какая-либо модель давала правильный ответ, вопрос исключали из теста. В финальную версию попали только те задания, с которыми не справилась ни одна из существующих моделей. Всего в ходе отбора было зафиксировано более 70 000 попыток — и около 13 000 вопросов, с которыми модели не справились, перешли на этап экспертной проверки.

Чтобы привлечь к созданию теста ведущих специалистов, организаторы сформировали призовой фонд в $500 000: авторы лучших 50 вопросов получали по $5 000, следующие 500 участников — по $500 каждый.

Источник: https://hashtelegraph.com/uchenye-razrabotali-akademicheskij-jekzamen-kotoryj-ne-smog-sdat-ni-odin-ii/

Наверх