发布日期:2025-03-06 09:53 点击次数:97
文 | 伯虎财经,作者 | 森系
中美大模型的差距在 1-2 年。起码在今年春节之前,这还是一个获得普遍认同的观点。
直到中国科技公司深度求索发布了推理模型 DeepSeek-R1,用不到 GPT 二十分之一的成本,获得了和 OpenAI 的顶尖推理模型 o1 相当的能力。
DeepSeek 的影响很快扩散到大洋彼岸。
1 月 27 日,美国科技股遭遇"黑色风暴",费城半导体指数(SOX)狂泻 9.2%,创下 2020 年 3 月以来的最大单日跌幅。英伟达股价重挫近 17%,市值一夜之间蒸发近 6000 亿美元,创下美股历史上最大的单日市值缩水规模。博通、台积电、ASML、Google 和微软等科技巨头也未能幸免,股价分别下跌 17.4%、13%、7%、4% 和 2.14% 。
与此同时,欧洲科技股市场同样哀鸿遍野,各类科技股惨遭抛售。
引发全球资本市场"强烈地震"的幕后主角—— DeepSeek,不是任何发力大模型的大厂,或者创业明星,而是一家此前名声不显的小型科技初创公司。它由幻方量化创始人梁文锋一手创办,成立仅一年多。
最能唤醒读者记忆的,可能是去年 8 月,DeepSeek 率先宣布其 API 价格大幅下调,输入费用调整为 0.1 元 / 百万 tokens,输出费用为 2 元 / 百万 tokens,随后各家大厂纷纷跟进。大模型价格战也就此打响。
实际上,DeepSeek 的创始人梁文锋或许是最早把目光投向 AI 的那批人。不仅仅是他创立了量化基金,更有意思的例证是,在算力紧缺的 2023 年,国内只有五家公司拥有万块规模的显卡,前四位是阿里巴巴、腾讯、百度和字节跳动,剩下的那个就是幻方量化。
开源、创新、成本。在硅谷,DeepSeek 被称作"来自东方的神秘力量"。他们一面跟随,推出类似的推理模型,一面攻击,要求对其进行封杀甚至算力封锁。
1 月 28 日,DeepSeek 曾连续发布两条公告称,DeepSeek 线上服务受到大规模恶意攻击。
客观来讲,从产品实际表现来看,DeepSeek 目前只是跻身行业第一梯队,尚未实现对市面上现有产品的全面超越,也并非在技术底层实现了范式创新。
但 DeepSeek 确实为全球 AI 行业的长期发展探索出了新的模式,也让长期被硅谷霸占话语权的 AI 行业出现了一些不一样的声音。正如 AI 领域泰斗吴恩达所言:" DeepSeek 的创新表明,中美在生成式 AI 领域的差距正在迅速缩小,在某些领域中国已现领先迹象。"
01 DeepSeek,破了谁的金身?
去年 12 月,36 氪旗下的暗涌账号采访了 DeepSeek。采访中提到了去年 8 月由 DeepSeek 发起的价格战,原因指向了一个事实——与很多大厂烧钱补贴不同,DeepSeek 是有利润的。
早在去年 5 月,DeepSeek 发布的 DeepSeekV2 模型,就展现了他们非凡的效率:推理成本被降到每百万 token 仅 1 块钱,约等于 Llama370B 的七分之一,GPT-4Turbo 的七十分之一。
并且相较于 OpenAI 公司来自全球顶尖学府几千人的大公司人力成本,DeepSeek 公司只有寥寥几百人,也没有全球前 50 的人才密度,聚集的是国内一众大学相关学科的博硕精英人才。
更加难能可贵的是,DeepSeek-V3 在训练时使用的 GPU 是英伟达的 H800,一款在性能上被阉割的特供 AI 芯片。相比之下,GPT-4o 使用的是上万块英伟达 H100 芯片(性能优于 H800)。
这和我们过去的认知是不同的。
英伟达及美股大跌的原因直指 DeepSeek,原因在于 DeepSeek 的成功打破了 AI 大模型领域"拼投入"的惯常逻辑。AI 大模型只有砸钱、砸算力才能做出来的观念在行业中深入人心。
2023 年,OpenAI 的 CEO 奥特曼(SamAltman)曾经访问印度,他对印度团队能否凭借仅 1000 万美元的预算,在 AI 领域构建出具有实质性成果的模型表示怀疑。
在他看来,如果没有上亿美元的训练成本,是炼不出好的大模型的。毕竟作为 AI 行业的领军企业 OpenAI 至今都尚未实现盈利,很大一部分原因在于尖端 AI 模型的训练耗资惊人,运行成本也十分高昂。据测算,仅维持 ChatGPT 的运营,每天成本就高达 70 万美元。奥特曼则表示,未来的 AI 模型成本预计将超过 10 亿美元。
高昂的成本也让后来者纷纷以 OpenAI 为标杆加大投入。马斯克旗下的 xAI,其超级计算数据中心装配了 10 万颗英伟达 H100 GPU 芯片,成为全球最强大的 AI 训练集群之一。特朗普上台后,宣布投资 5000 亿美元启动"星际之门"项目,试图凭借巨额资金与强大算力,巩固美国在 AI 领域的霸权地位。
其他科技巨头们也在积极布局。过去一年,微软和谷歌的资本支出均超过 500 亿美元,其中大部分资金用于 AI 相关的基础设施建设,并且计划在 2025 财年将这一投入提升至 700 - 800 亿美元。国内方面,根据浙商证券的分析,2024 年字节跳动的资本开支约为 800 亿元,预计 2025 年将达到 1600 亿元,其中约 900 亿元将用于 AI 算力的采购,700 亿元用于 IDC 基建以及网络设备。
DeepSeek 并非是拥有什么降本魔法,而是摸索出了一条不一样的道路。DeepSeek 的研究员提出了一种新的 MLA(一种新的多头潜在注意力机制)架构,与 DeepSeek MoESparse ( 混合专家结构 ) 结合,这种架构的优势是显存占用仅为常用 MHA 架构的 5%-13%。
与此同时,和行业惯常的用数万亿 token(文本单位)训练模型不同,而是选择通过"数据蒸馏",降低了数据计算程度,从而实现降本。
正因为如此,DeepSeek 也有了" AI 届的拼多多"之称,尽管这种表述可能并不完全准确,但也基本表达了 DeepSeek 对当前主流 AI 的冲击。通过这一低成本模式使得 DeepSeek 能够更快速地推出新产品和服务,并极大地降低了其市场进入门槛,可以吸引了更多企业和机构参与到 AI 研发中来。
02 开源会是更好的选择?
当然,DeepSeek 对 AI 的冲击还不止于此。
作为一家中国公司,DeepSeek 表现出了前所未有的自信,对产品实施开源策略,也就是公开模型的代码和架构等等,允许公众查看、使用和修改。这就意味着,很多中小企业可以直接使用其模型,极大降低了很多企业的研发成本。
相比之下,OpenAI 和谷歌等旗下的 AI 产品都是闭源,DeepSeek 的开源和低价策略,对于国际上那些依靠高收费的主流 AI 工具,也将带来巨大冲击。
DeepSeek 并不是个例,在开源浪潮席卷全球的时代,Meta 的 LLaMA、阿里的通义千问,都在试图证明"开放才能赢未来"。甚至就连马斯克也是开源技术的支持者,此前曾批评 OpenAI 走向闭源,称其为" CloseAI ",并指责其违背了最初的开源初衷而奥特曼则是埋头向前,继续闭源。这个争议还不仅是打口水仗,还曾对薄公庭。
但尽管如此,依然也有不少业内人士对此嗤之以鼻。
去年,有行业人士表示:闭源大模型,才是 AI 商业化的最优解。
究其原因,开源模型仍有致命伤:"所谓模型开源,往往只提供了模型的大量参数。但想要有效应用这些模型,还需要进行很多后续工作。"即便公布参数,开发者仍难窥见参数的生成过程和数据源等核心"配方"。这种半透明状态,导致二次开发如同盲人摸象。
"由于不了解这些参数的生成过程和数据源,难以直接实现‘众人拾柴火焰高’的协同效应。即使获取了模型源代码,也可能不清楚训练这些参数所使用的具体数量和比例。因此,拿到这些开源资料,并不足以让人直接站在巨人的肩膀上轻松进行迭代与开发。
这也是为什么 OpenAI 能够通过闭源在一定时间内保持了技术的领先性和独特性,构建了自己的商业生态的原因之一。
另外,在医疗、金融等高敏感领域,闭源优势还可以在保护技术和商业利益方面有其独特作用,能保障知识产权安全,防止技术滥用。
但不可否认的是,DeepSeek 的确迎来了填补生态位的绝佳机会。
在和暗涌的采访里,梁文锋就表示,长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在 DeepSeek 的基础上构建 toB、toC 的业务。
用户无需付费即可享受强大 AI 推理能力,推动 AI 技术普及,让普通用户在日常工作生活中体验前沿科技的便利。在开源生态上,它已吸引大量开发者,形成了蓬勃发展的社区。随着越来越多的开发者和企业认可开源模式,DeepSeek 有望进一步扩大其影响力,重塑 AI 产业格局。
03 一场 DeepSeek 风暴,揭开中美 AI 叙事重心的摇摆
实际上,在全球瞩目的目光聚焦于 DeepSeek 出圈的背后,从技术领域、产业范畴到资本市场,DeepSeek 都以非凡之势打破了人们对 AI 发展的固有认知,掀起了一场前所未有的技术变革浪潮,在某种程度上预示着算力军备竞赛的终结。
长期以来,AI 行业形成了一种依赖大规模算力与巨额资金投入的研发模式。以 OpenAI 等公司为例,它们在模型训练上动辄投入数亿美元,大规模采购英伟达最顶尖的 GPU 芯片,致力于构建庞大的数据中心。英伟达凭借早期卖显卡的业务基础,顺势踏上 AI 算力的发展大潮,缔造了算力芯片领域的商业神话。一时间,谷歌、OpenAI、苹果等各路科技巨头纷纷排队向英伟达输送资金,使其在 AI 算力市场占据了主导地位。
然而,DeepSeek 却以颠覆性的创新打破了这一格局。它仅使用 2000 块芯片,投入不到 600 万美元,就实现了与行业巨头相媲美的性能。这一成果引发了行业的深刻反思:"如果 DeepSeek 的创新是真实有效的,那 AI 公司真的还需要如此大量的显卡吗?"当英伟达还在为每秒 200TB 的显存带宽而自鸣得意时,DeepSeek 用一行开源代码有力地证明了:真正的人工智能不应被算力所束缚。
根据全球半导体观察的不完全统计,目前已有包括英伟达、AMD、微软、亚马逊云科技、英特尔等国外巨头,沐曦、天数智芯、摩尔线程、海光信息等国内 GPU 企业,华为云、腾讯云、天翼云、阿里云、百度智能云、火山引擎等云计算大厂,以及无问芯穹、壁仞科技、硅基流动、PPIO 派欧云、云轴科技等共计 20 家企业宣布适配及上架 DeepSeek 模型服务。随着多家国内外知名云平台和科技企业相继上线 DeepSeek 大模型,AI 市场迎来了新一轮的变革浪潮。
从另一方面看,英伟达股价的大幅下跌恰恰而言折射出的是在经受 DeepSeek 风暴冲击下其 AI 芯片霸权的逐渐被终结。正如塔勒布现任对冲基金 Universa Investments 的顾问的警告,当英伟达把一切都建立在人们会使用你的芯片的希望之上,希望需求持续增加,同时假设不会出现软件上的革命性改进或其他创新方法。而现在,这些假设受到挑战,未来或将出现数倍于当前跌幅的回调。
值得关注的是,DeepSeek 带来的这种技术路径的转变,不仅是对美国科技霸权的有力回击,也让全球开发者重新认识到中国 AI 的巨大潜力。在美国不断通过各种限令限制中国 AI 和芯片发展的背景下,这场由中国团队发起的"效率革命",或许将重现电动车颠覆燃油车的精彩历程——以更低的成本、更开放的生态,让 AI 从"美国巨头的专属玩具"转变为"全民普惠的实用工具"。
正如 DeepSeek 技术白皮书扉页所写:"我们并非在追赶 GPT,而是在证明:通向 AGI 的道路,绝不止硅谷这一种走法。"从产业发展的角度来看,随着 DeepSeek 不断发展壮大,未来将逐步采用更多国产芯片,有效降低产业链风险。在 DeepSeek 的引领下,国产芯片有望逐步从中低端迈向高端,最终摆脱对美国芯片的依赖,在全球 AI 产业中占据更为重要的地位。
上一篇:重庆各地多彩活动庆新春
Powered by 排列三050期单挑最准确的一注 @2013-2022 RSS地图 HTML地图