智源研究院院长王仲远:GPT4不是国内大模型的尽头
出品|网易科技《态度AGI》栏目
作者丨丁广胜 杨霞清
6月14日,智源仲远“2023智源大会”巅峰对话环节,研究院院智谱AI CEO张鹏、长王南京市某某广告制造厂月之暗面创始人杨植麟、国内百川智能创始人王小川、大模面壁智能CEO李大海,智源仲远中国四大创业大模型CEO罕见同台,研究院院在最后都表达了对智源研究院的长王感谢!
智谱AI孵化于智源研究院,国内杨植麟创立月之暗面前是大模智源悟道大模型的主要研究员,面壁智能的智源仲远首席科学家刘知远是智源大模型团队的核心人员之一。国内大模型创业公司的研究院院技术,或多或少受益于智源研究院的长王开源。
这场巅峰对话的国内主持人王仲远,在2024年2月,大模从快手副总裁任上离职,从黄铁军手上接过智源研究院院长的接力棒,全面负责智源研究院的各项工作。
1985年出生的王仲远看起来很年轻,有着技术人员的简单直接。毕业于中国人民大学本硕博。最早在亚洲微软研究院工作6年,后加入Facebook(现Meta),回国后先后任职美团、快手等,从事AI相关研究和产业化15年。从研究机构到企业,再到研究机构,王仲远笑着说,智源研究院的目标是能够真正跟全世界最顶尖的研究机构掰掰手腕。
有别于体制内的研究机构,智源研究院以企业化的南京市某某广告制造厂方式来招聘和管理人员,王仲远称智源研究院的人员是以市场化的方式和薪酬来招聘的,包括他自己。
有别于大厂的技术部门,智源研究院着眼的是3-5年未来技术的研究,而大厂只能进行未来半年到1年的技术开发,或许还会因为业务的压力被随时砍掉。
从企业到研究机构,王仲远可以专注于技术的研究。2022年底ChatGPT的横空出世,让他笃定通用人工智能时代正在到来,应该专注和All in AI的研究。
在世界模型上,王仲远认为,人工智能感知、理解物理世界的终极技术路线不是以语言大模型为核心对齐和映射其他模态的技术路线,而是应该采取统一模型的范式,实现多模态的输入和输出,让模型具备原生的多模态扩展能力,向世界模型演进。
他表示,大模型将以数字智能体的形态与智能硬件融合,以具身智能的形态从数字世界进入物理世界,同时,大模型这一技术手段可为科学研究提供新的知识表达范式,加速人类对微观物理世界规律的探索与研究突破,不断趋近通用人工智能的终极目标。
智源研究院的大模型全家桶包括大语言模型系列、多模态大模型系列、具身智能大模型、生物计算大模型四大板块。
备受关注的是2024智源大会发布的原生多模态世界模型Emu 3。行业现有的多模态大模型多为对于不同任务而训练的专用模型,例如Stable Diffusion之于文生图,Sora之于文生视频,GPT-4V之于图生文。每类模型都有对应的架构和方法,例如对于视频生成,行业普遍参照Sora选择了DiT架构。但是现有模型的能力多为单一分散的能力组合,而不是原生的统一能力,例如目前Sora还做不到图像和视频的理解。
为了实现多模态、统一、端到端的下一代大模型,智源推出了Emu3原生多模态世界模型。Emu3采用智源自研的多模态自回归技术路径,在图像、视频、文字上联合训练,使模型具备原生多模态能力,实现了图像、视频、文字的统一输入和输出。Emu3从模型训练开始就是为统一的多模态生成和理解而设计的,具备生成高质量图片和视频、续写视频、理解物理世界等多模态能力。
简单来说,Emu3既统一了视频、图像、文字,也统一了生成和理解。Emu3在持续训练中,经过安全评估之后将逐步开源。
近日,网易科技独家对话智源研究院院长王仲远,谈及智源研究院的未来规划和大模型的发展等热门话题,以下为采访实录(略作修改):
智源对产业界最大的贡献:真开源
网易科技:为什么选择从企业高管加盟智源?未来智源研究院有哪些新规划?
王仲远:我从十多年前开始从事人工智能研究,所有做人工智能的人都在追逐AGI(通用人工智能),都希望机器有一天像人类一样拥有智能。ChatGPT、GPT3.5、GPT4正在逐渐实现大家的梦想。过去这一年我非常兴奋。2023年是一个分水岭,之前是弱人工智能时代,2023年后进入通用人工智能时代。这个转变的核心是大模型。从企业回到研究机构,能让我全身心投入人工智能技术研究和发展上。
智源研究院是最早研究大模型的机构之一。从2020年开始,组建了一个百人的技术攻关团队,开始研发悟道系列大模型。2021年3月份发布了悟道1.0,6月份发布了悟道2.0,创造了当时中国首个大模型等纪录,悟道2.0是当时全球最大参数的模型(1.75万亿参数)。中国现有的大模型大多得益于悟道系列大模型的开源技术。甚至“大模型”这个中文词汇,是智源研究院首先提出来。
未来,智源要继续做超前的3到5年的人工智能的研究。我们目前主要有大模型(多模态)、具身智能(具身智能大模型)、生命科学、系统工程、大模型安全等五个重点方向。
网易科技:智源这些研究成果,如何输送给产业界?
王仲远:最直接的输送方式是把我们所有的研究成果绝大部分都开源了。过去的一年,我们智源开源社区发布的模型超过七十余款,全球总下载量4700多万次,在国内各个科研机构中绝对领先。这就是我们对于开源社区以及产业界所做的重大贡献。
举个例子,我们的文本向量模型叫BGE( BAAI general embedding),针对语言模型解决了幻觉问题。BGE模型几乎是全球下载量最高的国产AI模型,火山引擎、百度、腾讯云、华为云,包括Azure都集成了BGE模型,成为他们云服务的一部分,并且对外提供商用。
我们这种贡献是公益性的,智源是非盈利性机构,在做公益性的贡献。智源研究院对整个产业界最大的贡献:真开源。
网易科技:不少大公司也在做大模型和AI相关的研究,智源的研究和字节、百度、阿里等公司相比,有什么不一样的地方?
王仲远:企业所期望的研究周期不可能是5到10年,企业的研究周期可能就是未来半年或者未来三个月就能够看到实际效果的技术。这种研究更像是应用的研究,是偏应用型的研究。
而智源依然会专注在最底层、最基础、最核心技术的突破性研究。我们能够接受研究的失败,我们也能够接受更长的研究周期,两年、三年乃至五年。
网易科技:这些研究目标很考验人才储备。相比大厂的高薪酬,智源如何招募最优秀的人才?
王仲远:智源是一个非常年轻有活力的机构,我们非常倡导青年人挑大梁,不论资排辈。这也是我们的用人理念,因为在人工智能领域,青年人依然是创新的主力军。
同时智源实行市场化的薪酬,意味着有着非常具备竞争力的薪酬体系。这也是北京市给智源这种新型研发机构一个独特的优势。
网易科技:智源目前的团队规模和建制是怎样的?
王仲远:基本上是以科研人员为主,会根据我们的研究方向,特别是重点的研究方向划分团队,最终让各个团队之间能够形成非常重要的协同效应。围绕定下来的一些战略性研究目标,一起齐心协力地往前走。
网易科技:您提到智源是用市场化的薪酬去吸引优秀的研究人员,但智源又是非盈利性组织,智源研究院的运营资金来源于哪里?
王仲远:智源是理事会领导下的院长负责制。理事会相当于企业里的董事会,院长相当于CEO。理事会有小米、百度、美团等来自于企业,也来自高校的像清华,中科院、北大等的理事。
大模型的研发是非常消耗资源,消耗算力的,所以希望有更多的支持,使得我们能够真正跟全世界最顶尖的研究机构掰掰手腕。希望产业界能够对类似智源的研究机构有更多的支持,或者有更多的联合研究的项目,最终这些研究也会反哺产业界。
GPT4仍不足出爆款应用
网易科技:AI的应用首先会在B端还是C端爆发?什么时候才能出现AI时代的“抖音”和“美团”?
王仲远:过去一年大家的感受是AI行业很热乎,媒体上也很热,但普通用户好像没那么多直接的感受,有很强的温差。
很重要的原因是,基础模型依然亟待突破,整个国内的大模型依然处在赶超GPT3.5的阶段。国内大模型在中文的语境下已经开始能够接近逼近GPT4,但是GPT4也在不断研发新版本,所以依然处于追赶的局面。
国内的大模型达到GPT4之后,我们才可以开始谈场景、谈应用、谈To B和C端。甚至达到GPT4在我看来依然不够,可能要到能够对标GPT下一代的模型能力,那个时候会看到应用加速发展。
而且,爆款应用需要一定的时间沉淀,要结合很多的因素,包括网络带宽、硬件的发展、平台的发展、用户的需求、社会智能化的水平等,是一个综合的因素。比如,移动互联网时代,2007年iPhone 出现,直到2011年iPhone 4发布, 大部分的知名应用才出现,美团和抖音等是2012年才产生的。
AI时代的爆款应用一定会出现,只是还没有到达那个爆发点。
网易科技:现阶段大模型最大的挑战是技术上的突破,还是推动应用落地?
王仲远:在不同的时间节点,目标肯定不一样。
去年最重要的是能够追上GPT-4,现阶段我们看到了一些希望,可能在中文场景是已经很接近GPT4了,但是我们肯定希望它是全面的,不加限定词的,全面的能够追上或者超过GPT4。
当大模型技术能力达到一定程度后,会分出两大方向。一个方向开始去跟产品结合,推动应用,发挥商业化的价值。另一方面,有少量的几家机构持续做最顶尖的大模型的迭代和优化。
所以,未来擅长做场景应用的、擅长做业务的,去做应用落地。少数几家有能力有实力的,不管是企业还是研究机构,应该继续去攻坚技术。
网易科技:您提到说国内很多大模型其实没达到GPT4的能力,但国内好多公司在去年就号称自己达到了GPT4的水平,您怎么看?
王仲远:这正是智源大模型评测榜单的意义所在。
网易科技:大模型评测备受关注,第一期发布之后有哪些反馈?
王仲远:还挺好。我们确实感谢各家企业的理解和包容。发布完之后,我们得到了大量正向的反馈,对于很多的企业而言,他们也想知道自己模型的效果,因为团队总是会说自己的模型效果好,这时候有一个权威的第三方中立机构,能够去科学权威的做模型评估,对于企业来讲非常重要。
网易科技:最近大模型公司都在打价格战,有些大厂模型直接免费,这是对整个行业是好事还是坏事?
王仲远:价格战有利有弊。有利的方面,价格降低有利于更多的企业和用户,或者开发者愿意尝试使用大模型。但是如果它低于实际的成本,使得各家大模型公司不堪重负,其实并不是一个好事情。因为大模型的发展还远没到尽头,依然需要投入大量的资源去做研发,GPT3.5、GPT4绝对不应该是国内大模型发展的尽头。我们应该去突破GPT4,需要继续投入十倍甚至于百倍的资源去发展。这就意味着需要一个良性的商业循环,才能促进整个产业界有更好的发展。
只有当企业有了足够充足的利润,他们才能更好的投入技术的研发和推动应用,也才能资助像智源这样的非盈利性机构做更好的研究。
关于《态度AGI》
网易科技重磅推出系列对话栏目《态度AGI》。过去三年,AI变革风起云涌,全球科技秩序正在重构,通往AGI的道路或许正在悄然临近。本栏目以AGI为题,将对话100位AI专家、企业家、投资人,试图拨开云雾,与大家一道见证AGI时代的到来。第四期对话智源研究院院长王仲远。
往期回顾:
《态度AGI》第一期:对话李开复:大模型创业狂奔一年 中美差距缩小 我十年不套现
《态度AGI》第二期:对话王小川:我们不跟进大模型价格战
《态度AGI》第三期:对话戴文渊:大模型价格战不解决核心问题
延伸阅读