ChatGPT набрал бы первые места на вступительных в Токийский и Киотский

Основные моменты

Как проходил эксперимент
Прорыв в математике и слабые места в сочинениях
Что это означает для системы оценки знаний
Реакция и дальнейшие шаги

TOKYO, 28 апреля — Искусственный интеллект ChatGPT показал результаты, которые позволили бы ему занять первые места на вступительных экзаменах двух ведущих японских вузов — Токийского и Киотского университетов, сообщила исследовательская компания Life Prompt.

Как проходил эксперимент

Life Prompt попросила ChatGPT решить вопросы вступительных экзаменов текущего года для обоих университетов. Искусственный интеллект набрал больше баллов, чем лучшие человеческие абитуриенты как на гуманитарном, так и на естественнонаучном профилях. По итогам тестирования ChatGPT оказался бы в числе поступивших и — по сумме набранных баллов — в верхней строчке рейтинга.

Прорыв в математике и слабые места в сочинениях

Наибольший прогресс зафиксирован в математике. Если год назад при аналогичной проверке по математике естественнонаучного направления Токийского университета ChatGPT набрал 38 из 120 баллов, то сейчас система показала идеальный результат, получив максимальную оценку.

Значительно хуже модель справилась с историей. В экзамене по всемирной истории Токийского университета ChatGPT получил 15 баллов из 60. Аналитики отмечают, что, несмотря на широкий объём знаний, нейросеть пока уступает людям в организации развёрнутых письменных ответов и в логике развертывания аргументов.

Что это означает для системы оценки знаний

Результаты Life Prompt ставят новые вопросы перед системами оценки и подготовки абитуриентов. Если автоматические модели уже способны показывать конкурирующий с лучшими людьми уровень на стандартизированных тестах, университетам придётся переосмысливать форматы отбора и способы проверки навыков, которые трудно симулировать с помощью ИИ — например, креативность, аргументация в развернутом письменном ответе и практические испытания.

При этом исследование подчёркивает не только прогресс, но и границы текущих моделей. Высокие баллы в математике демонстрируют способность ИИ решать чётко формализованные задачи, тогда как низкие результаты по истории указывают на проблемы с построением текста и интерпретацией сложных нарративных структур.

Реакция и дальнейшие шаги

Life Prompt опубликовала данные тестирования как часть своей работы по оценке возможностей больших языковых моделей в образовательном контексте. Информация об эксперименте также появилась в репортаже телеканала TBS. В публикации подчёркивается, что итоговые цифры дают повод для обсуждения роли ИИ в образовании и целях, которые ставят перед собой вузы при формировании конкурсных испытаний.

Пока что исследование ограничивается решением тестовых заданий и не говорит о возможностях ИИ в реальных условиях приёма студентов: устные собеседования, портфолио, творческие задания и другие элементы отбора остаются за пределами эксперимента. Тем не менее полученные результаты уже привлекли внимание преподавателей, администраторов и экспертов по образованию к вопросу адаптации экзаменационных процедур к эпохе, когда инструменты на базе нейросетей становятся всё более мощными.

Источник: TBS. Эксперимент проведён японской компанией Life Prompt и охватывает вступительные экзамены текущего года для Токийского и Киотского университетов.