DeepSeek V4 опережает конкурентов по 12 бенчмаркам — утечка данных

В интернете появились предполагаемые данные технического отчёта DeepSeek V4 — таблица с результатами на 12 популярных бенчмарках. Пользователь @xiangxiang103 опубликовал скриншоты, где новый флагман китайской компании сравнивается с моделями Gemini 3.1 Pro, GPT-5.3, Opus 4.6 и GPT-4.1. Несмотря на отсутствие официального подтверждения, если цифры верны, DeepSeek V4 занимает лидирующие позиции по всем направлениям.

На тесте MMLU-Pro, измеряющем междисциплинарные экспертные знания, DeepSeek V4 набирает 91,2 балла, опережая Gemini 3.1 Pro с 90,0, GPT-5.3 — 88,4 и Claude Opus 4.6 — 86,7. В математическом бенчмарке AIME 2025 DeepSeek V4 показывает 96,4, чуть превосходя Gemini 3.1 Pro (95,0) и GPT-5.3 (94,6). Это говорит о том, что математика перестала быть слабой стороной топ-моделей.

В соревнованиях по программированию на платформе Codeforces DeepSeek V4 достигает 2767 рейтинговых баллов — уровень сильного человеческого гроссмейстера. Однако при исправлении реальных ошибок в коде (SWE-bench Verified) модель достигает 59,6%, что выше других, но демонстрирует, что задача остаётся сложной.

На WebArena, где требуются многошаговые действия в интернете, DeepSeek V4 набирает 58,7%, уступая лишь немного, а GPT-4.1 — 44,8%.

Если утечка окажется достоверной, DeepSeek V4 станет абсолютным лидером по всем 12 тестам, значительно опережая Gemini 3.1 Pro и другие модели. Агентные задачи продолжают оставаться главным вызовом для индустрии в ближайшие годы.

Официальный анонс DeepSeek ожидается, и в случае подтверждения данных китайская модель может изменить расстановку сил на рынке больших языковых моделей, закрепив за собой лидирующие позиции.

  • Related Posts

    Коммерческие выставки: техническая сторона без прикрас

    Участие в выставке — это важнейшая возможность продемонстрировать продукцию, наладить деловые связи и заявить о себе на рынке. Однако за привлекательными и запоминающимися стендами скрывается огромная техническая работа, которая часто…

    Выбор надежных сервисов для CPA-арбитража: роль народных рейтингов и мнения специалистов

    Арбитраж трафика представляет собой одно из самых динамичных направлений в сфере цифрового маркетинга. Ежедневно тысячи специалистов по привлечению аудитории ищут оптимальные площадки для монетизации своих усилий. В условиях перенасыщенного рынка…

    You Missed

    Коммерческие выставки: техническая сторона без прикрас

    • От Redactor
    • 30 апреля, 2026
    • 7 views

    Выбор надежных сервисов для CPA-арбитража: роль народных рейтингов и мнения специалистов

    • От Redactor
    • 28 апреля, 2026
    • 13 views

    Особенности разработки корпоративных сайтов: этапы, основные задачи и важность SEO

    • От Redactor
    • 26 апреля, 2026
    • 14 views

    Новые рендеры Sony Xperia 1 VIII раскрывают обновлённый дизайн и характеристики

    • От Redactor
    • 20 апреля, 2026
    • 12 views

    В Саратовской области сбиты украинские беспилотники

    • От Redactor
    • 20 апреля, 2026
    • 9 views

    Обзор Samsung Galaxy S26 Ultra: эволюция без революции

    • От Redactor
    • 20 апреля, 2026
    • 8 views