Бесплатные модели DeepSeek меняют расстановку сил в гонке ИИ

ИИ By Mattias Risberg Дек 02, 2025 08:51

Китайский стартап DeepSeek выпустил две новые открытые модели, которые, по заявлениям разработчиков, обладают способностями к рассуждению уровня GPT-5 и поддержкой длинного контекста при радикальном снижении затрат на вычисления. Этот шаг ставит под сомнение доминирующие бизнес-модели и вызывает новые опасения со стороны регуляторов.

Что произошло

На этой неделе DeepSeek, ИИ-стартап из Ханчжоу, ставший вирусной сенсацией в начале 2025 года, выпустил две новые модели — DeepSeek-V3.2 и вариант для глубоких рассуждений под названием DeepSeek-V3.2-Speciale — и сделал их веса и код широко доступными под разрешительной лицензией с открытым исходным кодом. Компания позиционирует эту пару как модели, оптимизированные для работы с длинными документами и многошагового решения задач; в публичных бенчмарках и симуляциях соревнований она заявляет о производительности, сопоставимой с новейшими проприетарными передовыми системами.

Это не просто минорные обновления. DeepSeek описывает их как качественный скачок в эффективности работы с длинным контекстом и агентном использовании инструментов. Компания опубликовала карточки моделей, технический отчет и доступные для скачивания веса, чтобы разработчики и исследователи могли начать эксперименты.

Как работают модели — и почему их эксплуатация стоит дешевле

Главная инновация, которую выделяет DeepSeek, — это форма разреженного внимания, которую они называют DeepSeek Sparse Attention (DSA). Механизмы внимания — это часть больших языковых моделей, которая позволяет им определять, какие слова и пассажи имеют значение для данного ответа. Традиционное внимание плохо масштабируется с увеличением длины входных данных — вычислительные затраты растут примерно пропорционально квадрату количества токенов — поэтому обработка тысяч или десятков тысяч токенов становится непомерно дорогой.

Бенчмарки, соревнования и реальные задачи

DeepSeek опубликовала сочетание стандартных бенчмарков и более впечатляющих оценок в стиле соревнований. Вариант Speciale представлен как движок для глубоких рассуждений, настроенный с помощью обучения с подкреплением и специализированных режимов тренировки; согласно отчетам компании, модель достигает уровня золотых медалей на нескольких элитных соревнованиях по программированию и математике, а также демонстрирует конкурентные результаты в бенчмарках на кодинг и логику, которые обычно используются для сравнения передовых моделей.

Результаты этих соревнований на бумаге выглядят поразительно: материалы DeepSeek сообщают о высоких баллах в задачах олимпиад по математике и информатике, решенных в условиях, приближенных к тестовым, а также о сильных показателях в бенчмарках рабочих процессов программирования. Если эти цифры подтвердятся в ходе независимой проверки, это будет означать, что точечные архитектурные изменения и целевое обучение могут обеспечить прирост в логических способностях без бесконечного масштабирования вычислений.

Агентное «мышление с инструментами»

Второе практическое достижение, на котором акцентирует внимание DeepSeek, — сохранение внутренних рассуждений при взаимодействии модели с внешними инструментами: поиском, выполнением кода, редактированием файлов и так далее. Более ранние модели имели тенденцию терять внутреннюю цепочку мыслей при каждом вызове внешнего API; команда DeepSeek объединила это с конвейером обучения на синтетических многошаговых задачах, чтобы модель училась поддерживать и развивать частичные планы во время обращения к инструментам. Это делает многошаговые рабочие процессы — отладку сложного кода, планирование логистики с меняющимися ограничениями или проведение исследований по множеству документов — гораздо более плавными на практике.

Описанный DeepSeek режим обучения включает тысячи синтетических сред и вариаций задач, призванных научить модель обдумывать действия и действовать одновременно. Для разработчиков, создающих автономных агентов или рабочие процессы для помощников, эта способность важна не меньше, чем «сырые» баллы в бенчмарках: она снижает инженерное трение при связке инструментов и моделей.

В отличие от большинства компаний, которые держат свои крупнейшие модели за платными API, DeepSeek выпустила веса моделей и код под лицензией типа MIT и опубликовала примеры интеграции для популярных сред исполнения. Этот шаг снижает барьер для развертывания: предприятия могут запускать модели на собственных мощностях, исследователи могут изучать логиты и режимы отказов, а стартапы могут создавать агентов, не опасаясь привязки к конкретному поставщику.

Сочетание открытых весов и повышения эффективности имеет важное коммерческое значение: снижение затрат на инференс и возможность самохостинга меняют как юнит-экономику, так и расчет рисков для клиентов, которым требуется интенсивное использование логики в длинном контексте (юридическая проверка документов, анализ программного кода, обзор научной литературы). В то же время, открытие исходного кода передовых моделей ускоряет эксперименты способами, которые проприетарные вендоры не могут легко контролировать.

Регуляторная напряженность и геополитическое трение

Все эти технические и коммерческие сдвиги пересекаются с политикой. Несколько регуляторов и правительств уже обратили внимание на методы обработки данных DeepSeek и ее профиль в области национальной безопасности. Европейские власти провели расследования и в некоторых случаях распорядились о временной блокировке или удалении приложений, а ряд правительств рекомендовали проявлять осторожность или ограничили использование на официальных устройствах. Эти действия усложняют внедрение в регулируемых секторах и подчеркивают, что открытая доступность весов не снимает опасений по поводу потоков данных или доступа со стороны иностранных правительств.

Компаниям, планирующим внедрение этих моделей, необходимо учитывать вопросы локализации данных, соответствие местным правилам конфиденциальности и происхождение цепочки поставок для оборудования обучения и инференса — вопросы, которые теперь являются центральными для закупок и оценки рисков, а не техническими дополнениями.

Что это значит для ландшафта ИИ

Можно выделить три основных вывода. Во-первых, архитектурная эффективность (а не только грубая сила масштабирования) способна двигать технологический рубеж, особенно в задачах с длинным контекстом и агентных функциях. Во-вторых, открытый выпуск высокопроизводительных моделей заставляет действующих лидеров рынка пересматривать ценообразование и стратегию продуктов: у правительств, предприятий и разработчиков теперь есть альтернатива, которую проще разместить на своих мощностях. В-третьих, политика и доверие остаются сдерживающими факторами — один лишь технический прогресс не определит, кто победит и насколько широко будут внедрены эти системы.

Для европейских и американских организаций, в частности, задача носит прикладной характер: сбалансировать операционные и стоимостные выгоды бесплатной и эффективной модели с нерешенными вопросами управления данными, стороннего аудита и регуляторных рисков. Следующие несколько месяцев станут «живым экспериментом» того, как адаптируются рынок, регуляторы и поставщики услуг.

За чем я буду следить

Независимые аудиты и репликация заявленных DeepSeek результатов в бенчмарках.
Корпоративные соглашения, показывающие, кто решит размещать эти веса на своих мощностях и с какими мерами предосторожности.
Решения регуляторов, разъясняющие, как правила защиты данных применяются к зарубежным модельным сервисам и открытым весам.
Реакция крупнейших облачных провайдеров и производителей чипов — как техническая (поддержка в средах исполнения, оптимизированные ядра), так и коммерческая (ценообразование, партнерства).

Релиз DeepSeek является напоминанием о том, что гонка ИИ теперь идет по нескольким направлениям — архитектура, данные, инструменты, дистрибуция и регулирование, — а не только по количеству вычислений. Для инженеров, менеджеров по продукту и политиков эта сложность является характерной чертой: она создает как возможности, так и множество трудных вопросов, на которые нужно ответить, прежде чем эти возможности станут фундаментальной инфраструктурой.

— Маттиас Рисберг, Dark Matter

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers Questions Answered

Какие модели выпустила DeepSeek и для чего они предназначены?

DeepSeek выпустила две открытые модели: DeepSeek-V3.2 и вариант с расширенными возможностями рассуждения под названием DeepSeek-V3.2-Speciale. Веса и код находятся в открытом доступе под лицензией типа MIT; модели предназначены для работы с длинными документами и многоэтапного решения задач. В публичных тестах и симуляциях соревнований DeepSeek заявляет о производительности, сопоставимой с новейшими проприетарными передовыми системами.

Что такое DeepSeek Sparse Attention и почему это важно?

Ключевым новшеством является DeepSeek Sparse Attention (DSA) — форма разреженного внимания, которая повышает эффективность при работе с длинным контекстом за счет снижения вычислительных затрат по сравнению с квадратичной зависимостью в традиционных механизмах внимания. Компания заявляет, что это позволяет обрабатывать тысячи токенов и поддерживает использование инструментов агентами, сохраняя внутреннюю логику рассуждений при вызовах внешних инструментов.

Как открытое лицензирование влияет на развертывание и эксперименты?

Выпуская веса и код моделей под лицензией типа MIT и предоставляя примеры интеграции, DeepSeek снижает барьеры для развертывания: предприятия могут размещать модели на собственных мощностях, исследователи могут изучать логиты и режимы сбоев, а стартапы могут создавать агентов без привязки к конкретному поставщику, что потенциально снижает затраты на инференс и расширяет инструментарий для работы с длинным контекстом.

Какие регуляторные и геополитические проблемы связаны с этими моделями?

Регуляторы обратили внимание на методы обработки данных и профиль национальной безопасности DeepSeek; европейские власти проводят расследования и в ряде случаев блокируют или удаляют приложения. Правительства советуют проявлять осторожность, а решения о развертывании должны учитывать местонахождение данных, соблюдение местных правил конфиденциальности и происхождение цепочки поставок оборудования для обучения и инференса, что влияет на закупки и оценку рисков в регулируемых секторах.

Каковы более широкие последствия для ландшафта ИИ?

Можно выделить три основных вывода: архитектурная эффективность может расширить возможности передовых систем в задачах с длинным контекстом; открытые релизы заставляют крупных игроков пересматривать ценообразование и варианты локального хостинга; а политика и доверие остаются сдерживающими факторами, где практические вопросы управления данными, стороннего аудита и регуляторных рисков определяют внедрение технологий в Европе и США.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!