DeepSeek V4 опережает конкурентов по 12 бенчмаркам

В интернете появились предполагаемые данные технического отчёта DeepSeek V4 — таблица с результатами на 12 популярных бенчмарках. Пользователь @xiangxiang103 опубликовал скриншоты, где новый флагман китайской компании сравнивается с моделями Gemini 3.1 Pro, GPT-5.3, Opus 4.6 и GPT-4.1. Несмотря на отсутствие официального подтверждения, если цифры верны, DeepSeek V4 занимает лидирующие позиции по всем направлениям.

На тесте MMLU-Pro, измеряющем междисциплинарные экспертные знания, DeepSeek V4 набирает 91,2 балла, опережая Gemini 3.1 Pro с 90,0, GPT-5.3 — 88,4 и Claude Opus 4.6 — 86,7. В математическом бенчмарке AIME 2025 DeepSeek V4 показывает 96,4, чуть превосходя Gemini 3.1 Pro (95,0) и GPT-5.3 (94,6). Это говорит о том, что математика перестала быть слабой стороной топ-моделей.

В соревнованиях по программированию на платформе Codeforces DeepSeek V4 достигает 2767 рейтинговых баллов — уровень сильного человеческого гроссмейстера. Однако при исправлении реальных ошибок в коде (SWE-bench Verified) модель достигает 59,6%, что выше других, но демонстрирует, что задача остаётся сложной.

На WebArena, где требуются многошаговые действия в интернете, DeepSeek V4 набирает 58,7%, уступая лишь немного, а GPT-4.1 — 44,8%.

Если утечка окажется достоверной, DeepSeek V4 станет абсолютным лидером по всем 12 тестам, значительно опережая Gemini 3.1 Pro и другие модели. Агентные задачи продолжают оставаться главным вызовом для индустрии в ближайшие годы.

Официальный анонс DeepSeek ожидается, и в случае подтверждения данных китайская модель может изменить расстановку сил на рынке больших языковых моделей, закрепив за собой лидирующие позиции.

DeepSeek V4 опережает конкурентов по 12 бенчмаркам — утечка данных

Redactor

Related Posts

Коммерческие выставки: техническая сторона без прикрас

Выбор надежных сервисов для CPA-арбитража: роль народных рейтингов и мнения специалистов

You Missed

Коммерческие выставки: техническая сторона без прикрас

Выбор надежных сервисов для CPA-арбитража: роль народных рейтингов и мнения специалистов

Особенности разработки корпоративных сайтов: этапы, основные задачи и важность SEO

Новые рендеры Sony Xperia 1 VIII раскрывают обновлённый дизайн и характеристики

В Саратовской области сбиты украинские беспилотники

Обзор Samsung Galaxy S26 Ultra: эволюция без революции