Как ИИ сдал экзамен по финансовому анализу и победил в математической олимпиаде — лучшие статьи декабря 2025.

К концу 2025 года ИИ-агенты перестали быть экспериментами «на посмотреть». Они уверенно решают задачи уровня профессиональных финансовых аналитиков, находят строгие доказательства для олимпиадных математических задач, собирают полноценные репозитории по научным публикациям и обнаруживают реальные уязвимости в продакшн-инфраструктуре.

Но самое интересное — прогресс идёт не за счёт роста моделей. Последние исследования всё чаще показывают: решающим фактором становится не размер LLM, а то, как именно она думает. Память, роли агентов, обратная связь, самопроверка и контроль ошибок оказываются важнее дополнительных миллиардов параметров.
Там, где архитектура рассуждений выстроена грамотно, агенты работают кратно эффективнее. Там, где её нет — масштабирование лишь увеличивает число ошибок и стоимость.

Мы собрали 10 самых показательных ИИ-исследований декабря, которые наглядно показывают, куда на самом деле движется индустрия.


1. Когда команда ИИ-агентов помогает — и когда мешает
Идея «коллективного разума» звучит красиво, но на практике команды агентов часто дают худший результат, чем один сильный агент. Больше диалогов, больше токенов, больше расфокуса. Выигрыш появляется только в задачах, которые можно чётко декомпозировать и перепроверить. В линейных рассуждениях мультиагентность скорее размывает ответственность.

Главный вывод: прежде чем строить команду, нужно убедиться, что одиночный агент не справляется сам.

Масштабирование агентов по уровню интеллекта модели и архитектурам систем: видно, как меняется результативность SAS и разных вариантов MAS при росте возможностей LLM.

2. DeepCode: как ИИ собирает рабочий проект по научной статье
Писать отдельные файлы ИИ умеет давно. А вот собрать проект так, чтобы он запускался, — совсем другой уровень сложности. DeepCode решает проблему не «умнее моделью», а жёстким управлением вниманием и памятью.
Агент сначала строит структурный план, затем работает с репозиторием как с системой контрактов и постоянно проверяет себя реальным запуском кода. В результате он стабильно собирает проекты на уровне опытных разработчиков.

От проблемы к решению DeepCode: где не справляются текущие агенты и какие четыре операции помогают удержать полезный сигнал в ограниченном контексте.

3. ИИ против людей в реальном пентесте
Большинство тестов по кибербезопасности проходят в лабораторных условиях. Здесь же исследователи создали живую инфраструктуру со всеми типичными проблемами.
Мультиагентная система ARTEMIS показала, что при правильной архитектуре ИИ способен работать почти на равных с сильными пентестерами — но быстрее, стабильнее и дешевле. Решает не модель, а организация процесса.

ARTEMIS — сложный мультиагентный фреймворк, включающий высокоуровневого супервайзера, неограниченное число субагентов с динамически создаваемыми промптами экспертных систем. Он предназначен для выполнения длительных и сложных задач по тестированию на проникновение на реальных производственных системах.

4. DataFlow: новый взгляд на подготовку данных для LLM
Подготовка данных для ИИ давно перестала быть «одним скриптом». Это циклы генерации, проверки и улучшения. DataFlow предлагает относиться к данным как к управляемому пайплайну — по аналогии с PyTorch для моделей.
Результат — воспроизводимые, проверяемые и масштабируемые датасеты для агентных систем.

Высокоуровневая архитектура DataFlow. Система включает ядро движка выполнения (хранилище, операторы, шаблоны и обслуживание LLM), переиспользуемые пайплайны, пользовательские слои управления (CLI и агент) и расширяемую экосистему для специализированных по доменам рабочих процессов. DataFlow создаёт высококачественные, согласованные с задачами датасеты, которые используются последующими приложениями LLM.

5. Как измерить научный интеллект у ИИ
SGI-Bench оценивает не отдельные навыки, а полный научный цикл: чтение, формулировку гипотез, эксперимент и выводы. Итог показателен: модели умеют делать отдельные шаги, но пока плохо собирают исследование в цельную работу. Следующий барьер — умение проверять и связывать результаты.

Пайплайн SGI-Bench: четыре стадии научного цикла — размышление, концепция, действие и восприятие — и соответствующие им типы задач.

6. Экономика без текста больше не работает
Экономические ИИ-модели долго игнорировали язык: новости, заявления, соцсети. Новый подход показывает, как встроить текстовые сигналы в обучение так, чтобы они реально влияли на решения. Итог — более устойчивые модели, особенно в кризисных сценариях.

Сравнение предыдущих исследований и цели: неструктурированные языковые сигналы наряду со структурированными числовыми данными критически важны для принятия экономических решений.

7. Когда тестов нет, но баги чинить надо
InfCode превращает тестирование в активного участника процесса. Один агент усиливает проверки, второй генерирует патчи, третий отбирает устойчивые решения. Надёжность снова рождается не из размера модели, а из замкнутого цикла обратной связи.

Обзор InfCode для автоматизированной генерации и отбора исправлений (патчей) кода.

8. ИИ на международной олимпиаде по математике
Олимпиадные задачи требуют возврата к промежуточным идеям и накопления знаний. Агентная система с библиотекой проверенных лемм позволила ИИ взять серебро на международной олимпиаде. Ключ — в умении хранить и переиспользовать проверенные шаги рассуждений.

По мере роста сложности задач резко растут и человеческое время размышлений, и расход токенов у моделей.

9. ИИ и экзамен CFA
Рассуждающие модели уверенно проходят все три уровня CFA, показывая результат на уровне сильных кандидатов. Ошибки остаются — в этике и интерпретации сложных кейсов. Это ещё раз подчёркивает: ИИ нужен контроль там, где цена ошибки высока.

Примеры того, как устроены пробные вопросы CFA по уровням: от коротких тестов до кейсов с большим контекстом.

10. Почему бытовые задачи оказались самыми сложными
Парадоксально, но в простых повседневных задачах ИИ ошибается чаще всего. Тесты показывают: даже лидеры рынка справляются лишь примерно в половине случаев и склонны к уверенным галлюцинациям. Надёжность рядом с человеком — следующий ключевой вызов.

Таблица лидеров ACE.

Итог
Современные исследования сходятся в одном: будущее ИИ — не в росте моделей, а в инженерии мышления. Память, роли, проверяемость и архитектура рассуждений дают больший эффект, чем дополнительные параметры.
Агенты уже конкурируют с людьми в сложных задачах, но выигрывают только там, где заданы чёткие правила. Следующий этап — создание надёжных интеллектуальных систем, которым можно доверять реальные решения.