发生了什么
本周,在2025年初走红的杭州AI初创公司DeepSeek发布了两款新模型——DeepSeek-V3.2和名为DeepSeek-V3.2-Speciale的高推理变体——并根据宽松的开源许可证广泛提供了权重和代码。该公司将这两款模型定位为针对长文档和多步问题解决进行了优化的模型;在公开基准测试和竞赛模拟中,它声称其性能可与最新的闭源前沿系统相媲美。
这些并非小规模更新。DeepSeek将其描述为长上下文效率和智能体工具调用方面的阶跃式进步,并且该公司已经发布了模型卡片、技术报告以及可供开发者和研究人员实验的下载权重。
模型工作原理——以及为何运行成本更低
DeepSeek强调的核心创新是一种被称为DeepSeek 稀疏注意力 (DSA) 的稀疏注意力机制。注意力机制是大语言模型中让其权衡哪些词语和段落对给定答案至关重要的部分。传统注意力机制的扩展性较差——计算成本大致随词元(token)数量的平方增长——因此输入数万个词元的成本变得高昂得令人望而却步。
基准测试、竞赛和现实任务
DeepSeek发布了一系列标准基准测试和更具挑战性的竞赛式评估。Speciale变体被呈现为一个通过强化学习和专门训练方案调优的深度推理引擎;根据该公司报告的数据,它在多项顶级编程和数学竞赛中达到了金牌级表现,并在通常用于比较前沿模型的编码和推理基准测试中取得了具有竞争力的结果。
这些竞赛结果在纸面上非常惊人:DeepSeek的资料显示,在模拟测试约束下的数学和信息学奥林匹克竞赛题目中,它获得了高分,并在编码工作流基准测试中表现强劲。如果这些数据在独立审查中得以维持,则表明较小规模的架构演进和针对性训练可以带来推理能力的提升,而不仅仅是永无止境地扩大计算规模。
智能体的“工具思考”
DeepSeek强调的第二个实际进展是在模型与外部工具(搜索、代码执行、文件编辑等)交互时保留内部推理。早期的模型在每次调用外部API时往往会丢失其内部思维链;DeepSeek通过合成多步任务的训练流水线解决了这一问题,使模型在查询工具的同时学会维持并推进部分计划。这使得多步工作流——如调试复杂代码、处理约束不断变化的物流规划,或跨多个文档进行研究导航——在实践中变得更加顺畅。
DeepSeek描述的训练方案包括数千个合成环境和任务变体,旨在教导模型如何同步进行深思熟虑和行动。对于构建自主智能体或助手工作流的开发者来说,这种能力与原始基准测试分数一样重要:它减少了将工具和模型缝合在一起的工程摩擦。
与大多数将最大模型置于付费API之后的公司不同,DeepSeek根据MIT风格的许可证发布了模型权重和代码,并发布了热门运行环境的集成示例。此举降低了部署门槛——企业可以在本地运行模型,研究人员可以检查logits和故障模式,初创公司可以构建智能体而无需担心供应商锁定问题。
权重开放加上效率提升在商业上具有重要意义:对于需要大量使用长上下文推理(法律调查、软件代码读取、科学文献检索)的客户,更低的推理成本和自托管选项改变了单位经济效益和风险评估。与此同时,开源前沿模型加速了实验进程,这是闭源供应商难以轻易控制的。
监管紧张局势与地缘政治摩擦
所有这些技术和商业转变都与政策交织在一起。一些监管机构和政府已经对DeepSeek的数据处理和国家安全概况提出了警示。欧洲当局已展开调查,并在某些情况下下令临时封锁或下架应用程序,一系列政府也建议谨慎使用或限制在官方设备上使用。这些行动使受监管行业的采用变得复杂,并凸显出开放权重并不能消除对数据流或外国政府访问的担忧。
考虑部署这些模型的公司需要思考数据驻留、遵守当地隐私规则以及训练和推理硬件的供应链溯源等问题——这些问题现在已成为采购和风险评估的核心,而不再是技术上的细枝末节。
这对AI格局意味着什么
这里有三个广泛的结论。首先,架构效率(不仅仅是算力堆砌)可以推动前沿发展,尤其是在长上下文和智能体任务方面。其次,高能力模型的开源发布迫使现有厂商重新思考定价和产品策略:政府、企业和开发者现在有了一个更易于自托管的替代方案。第三,政策和信任仍然是关键限制因素——技术进步本身并不能决定谁会胜出,也不能决定这些系统的部署广度。
特别是对于欧洲和美国的组织而言,挑战是现实的:如何在平衡免费、高效模型带来的运营和成本优势的同时,处理有关数据治理、第三方审计和监管风险的未决问题。接下来的几个月将是一场关于市场、监管机构和供应商如何适应的实况实验。
我将关注的重点
- 独立审计以及对DeepSeek基准测试声明的复现。
- 显示谁选择自托管这些权重以及在何种保护措施下运行的企业条款清单。
- 澄清数据保护规则如何适用于境外托管模型服务和开源权重的监管裁决。
- 主要云服务和芯片供应商的反应——包括技术层面(运行环境支持、优化内核)和商业层面(定价、合作伙伴关系)。
DeepSeek的发布提醒我们,AI竞赛现在涉及多个杠杆——架构、数据、工具、分发和监管——而不仅仅是原始算力。对于工程师、产品负责人和政策制定者来说,这种复杂性是一个特征:它既创造了机遇,也带来了一系列在这些能力成为基础架构之前需要回答的难题。
— Mattias Risberg, Dark Matter
Comments
No comments yet. Be the first!