梁文锋现身背后,DeepSeek如何加速国产算力进程?
出品 | 搜狐科技
作者 | 梁昌均
编辑 | 杨锦
过去一段时间,业界对DeepSeek的讨论,不再局限于其技术创新带来的对大模型发展范式的改变。更重要的是,它还以一己之力,带动了中国AI生态圈的广泛参与。
从底层算力、云平台等基础设施,到中间层的infra厂商,再到下游应用,包括互联网、汽车、智能硬件/智能家居、金融、教育、医药、传媒等领域企业,从巨头到创业公司,DeepSeek朋友圈持续扩大。
据不完全统计,目前与DeepSeek合作的企业已有百余家。2月17日,DeepSeek创始人梁文锋还出席了民营企业座谈会,这是他近期第二次现身国家高规格会议。
DeepSeek的热潮能否持续?它的技术创新对AI技术发展会带来什么影响?国产算力会加快诞生中国版英伟达吗?
近日,在搜狐科技《AI十二谈》沙龙中,燧原科技首席生态官李星宇、并行科技AI云事业部总经理赵鸿冰、昊问大模型CEO穆泽林、中科加禾CTO陈龙、鼎兴量子主管合伙人陈大志、清昴智能市场合伙人何逸豪,围绕这些问题进行了深入探讨。
试解DeepSeek突围密码
谈及DeepSeek的爆火,嘉宾们对它的推理能力、理解能力、深度思考能力、输出详尽程度和流畅程度,以及推理过程的透明度、多轮对话能力等方面的表现印象深刻。
这背后则是DeepSeek在训练、架构、算法等多个层面上的技术创新,并借此形成低成本、高性能的高性价比优势。
李星宇强调,DeepSeek的创新体现在工程化方面,它并没有在底层架构上发生变化,包括OpenAI在内,都是工程创新的典范。
展开全文
他认为,渐进式的工程化创新,符合技术周期的发展节奏,通过接力的方式,能够持续不断地把新技术推进到商业化的进程里去。
穆泽林也提到,DeepSeek所做的工程化创新,能够解决应用最后100米的问题。“这能让整个中国的AI产业拥有更持久的生命力,让AI更快走到应用,产生持续的商业模式。”
在陈龙看来,DeepSeek能够把训练成本大幅压缩,经过了前期版本的深厚积累和迭代优化。他同样强调,工程化创新在计算机领域也非常重要,大量的工程实践会催生技术的进步。
赵鸿冰表示,DeepSeek可能达到了颠覆性——它不仅实现了AI能力等级的提升,同时加速了AI的普及,达到1亿用户用了最短的时间。
不过,何逸豪认为,在技术和工程方面,DeepSeek确实有创新,但可能还达不到其所认为的颠覆性。“创新通常包括破坏式创新和延续性创新,DeepSeek更多是延续性创新。”
无论如何,DeepSeek的成功,一定程度代表中国AI有实现反超甚至引领的机会。
在赵鸿冰看来,DeepSeek的出圈离不开三个因素:高人才密度,有理想,不差钱。陈大志则认为,DeepSeek有两个特点可能是成功的重要因素,一是资金的属性是自有资金,具有更高的灵活性和自由度;二是其不拘一格的用人理念。
“这使得DeepSeek的可复制性不强。”陈大志认为,如果按DeepSeek的模式再去找同样的企业,不一定能找得到第二家,即便找到,也不一定能达得到DeepSeek这样的高度。
在李星宇看来,DeepSeek现象级的成功,给中国创业者带来非常有意义的启发。一是要使命愿景驱动;二是要扎扎实实,坚持长期主义;三是反共识的思考;四是开放共赢的心态。
开源,还是闭源?DeepSeek肯定还有后招
DeepSeek的成功,还离不开它的开源策略。除了数据,它将模型代码、参数权重、算法架构等重要指标都对外公布,并采用了相对宽松的商业化开源协议。
这也使得多家公司纷纷反思或调整起自己的策略,比如山姆·奥特曼认为OpenAI可能站在了历史错误的一边,百度则迅速宣布文心一言免费,并计划开源下一代模型。
陈大志从市场的角度谈到,未来开源更有优势。“做大模型的目的最终是啥?是拿到用户,因此开源具有不可比拟的优势。”首先要让客户使用起来,才能让更多的人参与进来共同完善生态。
陈龙则判断,开源和闭源将是共存的局面。但从整个社会效益或大众受益程度上讲,开源共享程度更高,间接降低重复开发的整体社会成本。
“不管是开源还是闭源,核心问题还是怎么能够形成一个良好的商业闭环,包括如何间接去推动算力等整个产业链良性运转起来。”陈龙说。
从IT发展历史看,开源和闭源共存是主流。李星宇认为,技术开源的意义在于击败竞争对手,而商业上闭源的意义在于形成完整的商业模式,可以同时存在,比如安卓开源、GMS闭源,就采取了这样的策略。
他判断,未来开源是一种基础性的保证,在开源基础上,会有大量增值的商业模式构建出来,从而能够有双赢的效果。
赵鸿冰则表示,开源闭源各有优劣,OpenAI是否会再次开源,仍有非常大的不确定性。
何逸豪对开源的理解是——技术上的秀肌肉,不怕别人抄。“DeepSeek敢开源,说明肯定有后招,我觉得没有谁会一上来把自己的全部武器都掏出来。”
他认为,开源能够更好地去促进整个市场和技术的发展,也会刺激闭源,刺激技术的提升,这是良性的市场竞争。
巨头囤算力没有意义了?相反!
DeepSeek的低成本,还引发了对大模型发展法则——Scaling Law的质疑。通过堆算力的方式,对大模型技术发展来说是否还具备可持续性?
在李星宇看来,DeepSeek对Scaling Law不是颠覆的关系,而是相辅相成的关系。
“Scaling Law有点像武侠里面的气宗,而DeepSeek有点像剑宗。哪个更重要?实际上都重要,侠之大者是剑气合一,才能问鼎华山之巅。从这个意义上来讲,DeepSeek给大模型技术发展开辟了第二战场。”
他认为,DeepSeek的出现直接改变的是算力结构,并判断2025年推理算力会反超训练算力。这并不意味着训练算力会萎缩。虽然堆算力带来的边际效应在递减,但随着解锁更多应用以后,还会把训练需求再次拉起来。
“只不过,推理算力的增长可能是十倍级别,更夸张。”李星宇认为,“算力的高速增长还会带来单价的下降,能够解锁更多的应用,从而进入良性循环,所以我们真的是迎来了算力和模型应用的黄金时代。”
陈龙同样认为,算力需求会从训练侧往推理侧转移,而且推理侧的算力需求,可能比训练侧将是数量级以上的提升。这会促进对算力多样性的要求,并催生应用、算力运营、算力优化、算力集成等相关产业发展,推动行业分工越来越细。
对于训练侧算力不会萎缩的原因,陈龙解释到,大模型的能力还没有达到人们预想的天花板。“我认为,企业能拿到越多的算力越好,算力需求可能还会持续。”
此外,李星宇强调,这并不意味着巨头囤算力这事儿没有意义,反而DeepSeek进一步刺激了巨头通过算力优势,去重新夺回领导权的冲动。
这或许可以很好解释,为什么科技巨头,包括微软、谷歌、亚马逊、Meta的CEO都对DeepSeek表示震惊,也都纷纷表示,将在今年加大对AI、数据中心等基础设施的资本投入。李彦宏也放话称,不会停止对AI的投资。
某种程度上,DeepSeek的成功刺激了巨头们通过加强投入来保持领先的决心。但它对很多创业公司而言,则提供了一个值得借鉴的发展样本。
李星宇就提到,DeepSeek使得算法平权以后,更多的小型玩家可以在市场上立足。陈龙则呼吁,“我们不能人为给自己加枷锁,觉得自己受限,就不往更大更强的方向去发展。”
中国版英伟达或将加快诞生
随着DeepSeek的爆火,国内十多家国产芯片厂商,纷纷去做适配。燧原科技在春节假期后第二天就上线了DeepSeek全量模型的适配,并联合并行科技、中科加禾等合作伙伴,持续推进DeepSeek模型的系统级优化。
被寄予厚望的国产算力站到聚光灯下,华为、燧原科技等国产芯片厂商能否借此加快突破,成为业内关注焦点。
谈及为何要去做适配DeepSeek,李星宇解释道,这是国产算力在技术层面第一次有了一个可以不用跟随英伟达的理由,而是可以跟随DeepSeek深度进行软硬协同的设计。这使得国产算力有信心能够走出一条独立发展的技术道路,而不是完全cosplay英伟达。
“国产算力最大的挑战是商业化落地很困难,并不是技术。”李星宇认为,国产算力跟英伟达算力的差距,并不在于性能,而是国产算力没有建立一个很好的算法生态。这在过去两年时间里面,成为整个国产GPU行业最大的难题。
“DeepSeek的出现极大带动了国产算力的商业化进程,且下游应用也已经呈现井喷式的发展,可以说国产算力真正的春天来了。”李星宇说。
“这是国产算力第一次被广泛接受,它解锁了国产算力导入到创新领域的大门。”李星宇认为,未来会看到越来越多的创新公司,采用国产算力去做后训练,去做思维链,去做各种垂类模型应用,这对国产算力和国产模型玩家来讲都是双赢的事情。
他进一步表示,现在模型已经透明化,国产算力未来优化之路会比原来要平坦很多。从这个意义上,它一定会缩短跟国外算力上的差距。
对是否会有中国版英伟达的出现,陈龙的看法是,国内有足够多的数据,也有足够大的市场,要借鉴英伟达崛起的启示,首先把算力做上来,然后尽量开放。
“广大的数据、用户、应用市场一起驱动,可以极大激发行业围绕国产算力去做优化的热情,从而把整个生态丰富完善起来。”
穆泽林对此表示,在训练方面还是会倾向英伟达,但中国百分百可以出现一个端侧英伟达。“推理芯片国内外差别已经不是很大,而且中国的生态,对国内做推理芯片的企业有很大机会。”
李星宇显得更加乐观。“只要在端上成为王者以后,自然会往通用领域挺进,最终成为通用王者。”这也正是英伟达所走的路。
评论