Несмотря на серьезные успехи в обучении современных моделей ИИ, исследователи нашли серьезные пробелы в их знаниях.
Команда исследователей из США и Великобритании разработала новый эталонный тест под названием FrontierMath для проверки способностей систем искусственного интеллекта в решении сложнейших математических задач.
За последние несколько лет большие языковые модели (LLM), такие как ChatGPT, достигли значительного прогресса в обработке и генерации текста. Модели стали настолько продвинутыми, что их ответы иногда создают впечатление высокого уровня «интеллекта». Однако, как отмечают специалисты, решение сложных математических задач остается одной из слабых сторон современных моделей. Несмотря на серьезные успехи в обучении и способности решать математические задачи начального и среднего уровня, когда дело доходит до задач высшей математики, ИИ демонстрирует ограниченные возможности.
Для того чтобы оценивать прогресс языковых моделей, ученые используют различные эталонные тесты, или бенчмарки, которые позволяют измерить, насколько хорошо ИИ решает поставленные задачи. Среди самых популярных тестов на сегодняшний день MATH и GSM8K. На этих тестах многие передовые языковые модели уже показывают результаты, близкие к 90% правильных ответов. Однако, как подчеркивают авторы новой разработки, такие тесты имеют ограниченную сложность и не позволяют в полной мере оценить способности ИИ. Для выявления по-настоящему высокого уровня понимания математики исследователям понадобился более сложный бенчмарк. Так появился FrontierMath.
Подробнее https://hi-tech.mail.ru/news/117644-ii-vse-eshe-slab...