万事达香港:李开复:相信很多中美公司都在往o1方向狂奔,包括零一万物 · 科技-万事达

MasterCard

在外界对大模型开始失去信心的情况下,国内大模型创业公司“六小虎”均受到不同程度的质疑,零一万物更是在行业传闻中被直指放弃了预训练。

作为创始人兼CEO,李开复在微信朋友圈发文辟谣称,零一万物一直在做预训练,当公司新的预训练模型推出时,这番谣言会不攻自破。

10月16日,零一万物正式发布最新旗舰模型Yi-Lightning,继续向大模型的更高性能发起冲击。

LMSYS盲测竞技场总榜(用户对一组大模型回答进行盲投)上,Yi-Lightning位列第六,仅次于OpenAI的GPT-4o、o1系列,以及Google的Gemini 1.5 pro系列,并且与马斯克xAI旗下Grok-2打平。这是中国大模型厂商目前在该榜单上取得的最好成绩。 

单项能力上,Yi-Lightning的中文能力和多轮对话分别与其他模型并列分榜第二和第三,数学和代码能力并列分榜第三和第四,在艰难提问和长提问两个分榜上也是并列第四。

万事达香港:李开复:相信很多中美公司都在往o1方向狂奔,包括零一万物 · 科技-万事达

此次,零一万物格外强调Yi-Lightning在推理速度上的提升。据其提供的内部评测数据,在 8xH100算力基础下,以同样的任务规模进行测试,Yi-Lightning的首包时间(从接收到任务请求到系统开始输出响应结果之间的时间)为Yi-Large的一半,最高生成速度提升了近四成。

这一方面是基于团队此前在AI Infra层的投入,另一方面是由于其模型从Dense Model(稠密模型)架构改为采用MoE(Mixture of Experts/混合专家模型)架构。而这种架构是大模型行业在提升模型速度时的共识性选择。

不过,MoE架构通常存在激活参数规模与推理速度及成本的平衡问题。为此,零一万物在Yi-Lightning的架构中引入了三种技术思路,分别是混合注意力机制、动态ToP路由以及多阶段训练。

其中,混合注意力机制指的是在模型的部分层次中将传统的全注意力(Full Attention)替换为滑动窗口注意力(Sliding Window Attention),平衡模型在处理长序列数据时的性能和计算资源消耗;动态ToP路由的作用在于灵活根据任务的难度调整激活的专家网络数量;多阶段训练则是在不同训练阶段,有侧重地搭配训练数据类型,进行针对性强化。

目前,公司将Yi-Lightning定价在0.99元/百万tokens,李开复对此表示,这并不是一个亏本的价格,公司仍有相对理想的利润空间。 

另外,在ToB(企业端)战略下,零一万物首次发布了针对零售和电商等场景的行业应用产品AI 2.0数字人,并已在弹幕互动、商品信息提取、实时话术生成等环节接入了Yi-Lightning。

尽管没有直接提及“开箱即用”这个概念,但李开复表示,目前这一数字人产品已相对完善,在没有大模型专家或系统集成商帮助的情况下,具备一定IT能力的客户可以相对高效完成部署。

据零一万物披露,公司已有合作案例涉及餐饮连锁、酒旅类客户、水果连锁店等,其中某头部酒旅企业在接入该数字人产品后,直播GMV较此前上升170%。

零一万物目前已形成有鲜明差异的海内外商业布局。其ToC(用户)业务选择在国外,因为用户成本更低、变现能力更高,以Pop AI为代表的产品在海外已有正向收入,国内的机会还要根据用户成本等维度持续关注,公司目前将继续维护AI工作平台“万知”的正常运营。

ToB业务则以国内为主,李开复表示,这类业务在海外对供应商本土化要求高,并不适合现阶段的零一万物,而公司当前在国内已找到一些破局空间(即电商、零售场景下的数字人解决方案)。在国内ToB业务产品矩阵上,除了已经发布的AI 2.0数字人、API之外,零一万物还有AI Infra解决方案、私有化定制模型等其他业务将在近期对外发布。

一个大模型公司同时做to B和to C是很辛苦的,因为两个团队的基因不一样,做事的方法和衡量KPI的方法也不一样,需要多元化的管理方式。”李开复说,“我在这两个领域有经验,也在试着做,但是也绝对不能什么都做。”

Yi-Lightning发布之际,李开复再次对“大模型行业将逐步放弃预训练”这一业界推测作出回应。 

他表示,做预训练通用大模型是一个系统性技术活,需要众多懂芯片、模型、推理、架构、算法的人才,做这件事的成本也非常高,不是每家公司都可以做成。“以后可能会有越来越少的大模型公司做预训练。”他判断称。 

不过李开复也表示,据他所知,“六小虎”均有足够的融资额度,都付得起预训练模型Production Run(投产运行)三四百万美金一次的训练成本,只要有足够好的人才和做预训练的决心,资金和算力资源不会是问题。

面对通用大模型的下一技术进程,OpenAI o1是一个绕不开的话题。

李开复直言,他预计五个月后就会有不少类似o1模型的能力出现在各个公司,包括零一万物。这基本代表了零一万物将要效仿o1范式继续推进模型性能的技术战略决策。“感谢OpenAI点醒我们这一点(指post-train同样重要),现在我相信很多中美公司都在往o1方向狂奔。” 

李开复还根据自己与OpenAI相关人员沟通得到的信息透露道,OpenAI目前仍对一些先进技术有所保留,不急于公布,要等到领先行业足够多、到一定的业务节点后才会释放。

事实上,追逐OpenAI是中国大模型公司共同的长线任务,而缩短中美大模型差距的技术时间差是一个直观的判断标准。以零一万物为例,Yi-Lightning追击GPT-4o性能水平的周期从上一代的六个月缩短到了五个月,但这个数字要如何继续缩小? 

李开复的看法是,国内大模型公司不需要具有这种焦虑,因为从算力基础、技术差距等维度来看,这种落后是客观事实,但国内公司凭借数据处理、训推优化等方法论已经有相对成熟的打法,而这套方法对于尽快了解新技术核心并复现在自己的产品中,能保持六个月左右的追赶周期已经是很好的结果。 

“我们千万不要认为落后六个月是一个很羞耻的事情,或者一定是要追赶的事情。”李开复说,“如果期待破局,可能需要一个前所未有的算法才有机会。”