В интернете появились предполагаемые данные технического отчёта DeepSeek V4 — таблица с результатами на 12 популярных бенчмарках. Пользователь @xiangxiang103 опубликовал скриншоты, где новый флагман китайской компании сравнивается с моделями Gemini 3.1 Pro, GPT-5.3, Opus 4.6 и GPT-4.1. Несмотря на отсутствие официального подтверждения, если цифры верны, DeepSeek V4 занимает лидирующие позиции по всем направлениям.
На тесте MMLU-Pro, измеряющем междисциплинарные экспертные знания, DeepSeek V4 набирает 91,2 балла, опережая Gemini 3.1 Pro с 90,0, GPT-5.3 — 88,4 и Claude Opus 4.6 — 86,7. В математическом бенчмарке AIME 2025 DeepSeek V4 показывает 96,4, чуть превосходя Gemini 3.1 Pro (95,0) и GPT-5.3 (94,6). Это говорит о том, что математика перестала быть слабой стороной топ-моделей.
В соревнованиях по программированию на платформе Codeforces DeepSeek V4 достигает 2767 рейтинговых баллов — уровень сильного человеческого гроссмейстера. Однако при исправлении реальных ошибок в коде (SWE-bench Verified) модель достигает 59,6%, что выше других, но демонстрирует, что задача остаётся сложной.
На WebArena, где требуются многошаговые действия в интернете, DeepSeek V4 набирает 58,7%, уступая лишь немного, а GPT-4.1 — 44,8%.
Если утечка окажется достоверной, DeepSeek V4 станет абсолютным лидером по всем 12 тестам, значительно опережая Gemini 3.1 Pro и другие модели. Агентные задачи продолжают оставаться главным вызовом для индустрии в ближайшие годы.
Официальный анонс DeepSeek ожидается, и в случае подтверждения данных китайская модель может изменить расстановку сил на рынке больших языковых моделей, закрепив за собой лидирующие позиции.
