DeepSeek—— 对人工智能市场的影响
Read Time: 8 Minutes
想与 Willian Fong 博士或其他相关领域的行业专家交流?
在全球各公司竞相跟上人工智能最新发展步伐之际,中国公司 DeepSeek 于 1 月 23 日推出其 “R1” 大语言模型(LLM),震撼了整个行业,在市场上引起轩然大波。
为了解 DeepSeek – R1 推出所带来的广泛影响,GLG 的 Evan Moore 与行业资深人士William Fong 博士进行了交流。 Willian 在微软工作超过 26 年,曾领导该公司的人工智能和数字化转型工作。
以下是此次对话的关键要点总结:
你能详细解释一下 DeepSeek 所采用的 “专家混合” 方法吗?与传统大语言模型相比,它有哪些优势和缺陷?
一般来说,先训练一个较小的语言模型,使其成为某一领域的专家(比如数学家),然后当你有相关领域问题时,就去找这个特定的小语言模型。但 DeepSeek 在他们发布的大模型中实现了这一点。在其 6710 亿个参数中,包含了多种类型的 “专家”。这对用户来说是个优势,因为无需使用多个模型,在这一个模型中就能获得非常高质量的结果。
它还有其他优势。当调用模型中的某个 “专家” 时,无需使用全部参数,仅需使用该 “专家” 所在的部分参数。这样一来,延迟、推理成本都会降低。你无需使用高性能芯片在 6710 亿个参数中盲目尝试。因为模型能精准识别你的问题,你也能准确找到对应的 “专家”。
不过,这种方法也存在一些缺陷。随着模型中 “专家” 数量不断增加,计算会变得复杂、昂贵且容易出现拥堵。因为多个 “专家” 同时处理任务,而且由于并非只为一个用户服务,众多参数会同时被调用。要知道,模型要为任何时刻在服务器上进行推理的用户服务。如果多个 “专家” 同时工作,管理和协调工作会变得非常困难。
这需要权衡。DeepSeek 的模型具有灵活性和适应性,一个模型就能处理多种任务,特别是在训练了多个特定 “专家” 的情况下。但模型的维护难度较大。而且,随着 “专家” 数量的增加,计算量和流量控制也会变得棘手。不过总体而言,在我看来,他们的成果绝对是一大进步。
你认为 DeepSeek 的成本效益会如何影响生成式人工智能的支出水平、模型 API 的收入以及芯片需求?
我对他们提到的成本持怀疑态度,我认为这与公司的资本支出并不等同。他们只是公布了 “计算成本”,这仅包括整理训练材料、对材料进行预训练并融入模型以及微调的成本。
他们并未透露获取数据的成本,而数据成本高昂,且与之相关的其他成本也未披露。关键在于:即便总成本(包括数据成本、管理费用等)是公布成本的 4 – 5 倍,OpenAI 的 Operator 目前向用户每月收取 200 美元,未来定价也必然会改变,因为继续维持这个价格难以为继。
DeepSeek 可以推出比 OpenAI 的 Operator 价格低得多的产品。公平地说,OpenAI 的 Operator 功能更先进,它能实现屏幕共享、浏览等功能。但可以预见,未来六个月内,DeepSeek 很可能也会推出类似产品,而且可能每月每用户只收取 5 美元。比如,DeepSeek 的数学 “专家” 服务,每月收费可能是 5 美元甚至 2 美元。
以 Copilot 为例,最初每月每用户收费 30 美元,企业用户目前仍维持这个价格,因为该服务能在防火墙后保护用户隐私和数据安全。但其他用户现在每月只需额外支付 3 美元。如果你使用 Office 365,每月多付 3 美元就能获得整套 Office 365 Copilot 服务。未来,产品价格将越来越亲民。
在定价方面,另一个问题是 GPU(图形处理单元)。我认为 DeepSeek 并未进行前沿研究,他们只是借鉴了很多超大规模云服务提供商和 Llama 3 使用的技术,并高效地组织了训练过程。至于他们使用的是 H800,还是将 GPU 作为一种服务(比如 H100),这并不重要。关键在于,他们实现了训练的高效优化。
未来,或许不再需要 H100 芯片。使用旧款 GPU 也能完成同样的任务,只是可能耗时稍长。或者,你无需花费 5 万美元购买 Blackwell 芯片,只需购买 3000 美元、内置 Grace Blackwell 10 的英伟达 DIGITS 设备,并将它们组合使用即可。黄仁勋(Jensen)刚刚宣布了这一消息。真的每个人都需要 H100 芯片吗?我认为并非如此。展望未来,如果 DeepSeek 公布的信息真实、准确且完全透明,利用他们在白皮书中公开的技术,人们能用更低的成本实现更多目标。
其他模型大概需要多久才能赶上 DeepSeek,或者超越 OpenAI 的 o1 模型?
会很快。这并非因为其他公司已经具备类似技术,实际上他们还没有。关键在于,DeepSeek 的基础模型本身就与众不同,它基于 “专家混合” 构建,并非单一的大型基础模型,而是多个模型的融合。其基础架构经过修改,是在 Llama 模型的基础上进行的改进。任何其他公司,尤其是闭源公司,都能借鉴这种做法。
我感觉,很快 o3、o4、Gemini 2、2.1 等模型都会融入这些特性。如果前沿模型不提供 “专家混合” 功能,不进行计算的精准优化,也不具备多头潜在注意力等技术,那么在闭源模型市场中,它将失去很大一部分业务。我推测,即使不是明天,在未来几周或几个月内,这些模型的更新版本中也会加入这些特性。
本文改编自 2025 年 1 月 28 日GLG 举办的电话会议 “DeepSeek 对生成式人工智能模型市场和超大规模投资的挑战”。如果您希望获取完整文字记录,或与相关领域的行业专家交流,请联系我们。
关于 William Fong
William Fong 博士是微软前人工智能数字转型全球解决方案战略总监,于2022年9月离职。 任职微软期间,Fong 博士领导了云解决方案、人工智能驱动的客户解决方案以及Modern Workplace 市场战略等的创新和孵化工作,为微软企业客户的人工智能和数字化转型工作流程提供支持。 在此之前,Fong 博士在微软工作了26年,担任过多个高级职位。 他目前是人工智能和数字化转型领域的独立顾问。
本文编译自 GLG 格理集团2025年1月28日举办的电话会议 “DeepSeek对生成式人工智能模型市场和大规模投资的挑战”。 如果您想获取完整的会议纪要,或者与 William Fong 博士或其他行业专家交谈,请在下方填写详情与我们取得联系。
订阅 GLG 洞见趋势月度专栏
输入您的电子邮件,接收我们的月度通讯,获取来自全球约 100 万名 GLG 专家团成员的专业洞见。