AI大模型站在十字路口,持续突破or陷入低谷?

来源:六安市叶集区金利木业有限责任公司

文|白 鸽

编|王一粟

当普通人被AI轰炸的已经疲劳,应用落地也没有惊人地突破,AI大模型的发展似乎已经进入瓶颈期。

在云栖大会之前,业界弥漫着对AI的唱衰,似乎又到了一个历史的转折点。如2017年上一代深度学习AI一样,在经历了行业高光时刻后,大模型似乎进入了漫长的技术积累和落地应用阶段。

但AI大模型发展真的放缓了吗?

“技术的进步速度依然很快”、“落地中没觉得太多困难,反而全是机会”。在两天的交流中,大模型创业公司、云厂商、AI企业服务公司,行业里实打实做业务的所有公司都对光锥智能表达着,对AI前景的一片乐观。

“o1的推理能力确实上了一个很大台阶。”阶跃星辰创始人姜大昕在2024云栖大会上说道,“o1也第一次证明大语言模型可以拥有人脑慢思考能力,同时也带来Scaling Law的新方向。”

这也就意味着,随着OpenAI o1模型的发布,生成式AI从原本的预训练时代,迈入大规模推理时代。

不过,AI仍处于早期的发展阶段。

“如今我们还处于L2的发展早期,但AI仍在加速发展中,未来18个月甚至有可能出现L4级的突破——现在业界的对AI未来的整体预测,都过于保守了。”生数科技首席科学家朱军则如此说道。

阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在2024云栖大会上也表示:“过去22个月,AI发展速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。”

阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭

无疑,当前AI大模型的发展已经进入转折点,而未来18个月,也将是决定我们能否迈向AGI时代的关键。

大模型迈入推理时代,技术仍在大爆炸

类似于自动驾驶系统分级一样,此前OpenAI也将最终抵达AGI终点,划分了五大等级:

L1:聊天机器人,具有对话能力的AI。

L2:推理者,像人类一样能够解决问题的AI。

L3:智能体,不仅能思考,还可以采取行动的AI系统。

L4:创新者,能够协助发明创造的AI。

L5:组织者,可以完成组织工作的AI。

其中,以GPT为代表的大语言模型属于L1阶段,而以o1为标志,则开启了L2推理时代。

背后的逻辑在于,GPT的训练方式为Predict Next Token ,即预测接下来会出现的token是什么,即使GPT4能够把复杂的问题拆解成多个步骤再分布解决,但其还是属于一种直线型思维,没有反向推理、思考能力。

所以,GPT只能够实现类似于人脑中系统1的思考方式。这是我们的“快速思考”系统,更多依赖于人类身体的条件反射能力,而不是思考能力。

而o1则采用了强化学习的训练框架,这就使大模型具备了思考能力,也就是系统2,其与系统1最大的区别,就在于系统2能够探索不同的路径,并自我反思、纠错,然后不断试错,直到找到一个正确途径。

“这次的o1,是把以前的模仿学习和强化学习结合起来了,使得一个模型同时有了人脑系统1和系统2的能力,意义非常大。”姜大昕如此说道。

同时,他也表示:“o1并没有到一个很成熟阶段,只是开端,实际上OpenAI给我们找到了一条上限很高的路,能够不断走下去。”

业内也有观点认为,o1则暂时扭转了大模型已没有进步空间论调,为大模型 “泡沫” 续命。毕竟,此前大模型训练已经陷入原有Scaling Law的瓶颈,模型参数规模扩大后,性能提升逐渐放缓。

不过,在姜大昕、杨植麟、朱军等人看来,过去18个月中,大模型技术迭代并不慢,仍处于加速发展期。

“从广泛的角度来说,大家可能没感知到。单从技术来说,现在技术发展曲线是越来越陡峭的。”生数科技首席科学家朱军如此说道。

一方面,从大模型数量角度来看,现在每个月都会有新的模型、新的产品、新的应用涌现出来。

OpenAI在2月发布了Sora,5月发布了GPT-4o,上周发布的o1等,其对手Anthropic有Claude系列,谷歌有Gemini系列、LLaMA的系列等。

姜大昕表示:“原本OpenAI一家独大,今年也逐渐变成了群雄并起,你追我赶的局面,各家都在提速。”

另一方面,从大模型能力的角度来看,从单一模型,到多模态融合,从多模态理解到多模态生成,从模仿学习再到强化学习,可以看到大模型的能力正在纵向(理解多维物理世界)和横向(思考能力,即智商)双向发展。

在GPT-4o发布之前,OpenAI有单独的视觉理解模型GPT4V、视觉生成模型Sora、声音模型Whisper等,而随着GPT-4o发布,原本这些孤立的模型则全部被融合到一起。

为什么融合这件事非常重要?

“因为我们物理世界本身就是一个多模的世界,所以多模融合一定是有助于大模型更好的去为物理世界建模,能够更好的模拟世界。”姜大昕说道。

多模态融合能够让大模型更好的理解多模态的物理世界,o1的强化学习则可以让大模型能够自主思考物理世界中的事物发展逻辑。

同时,姜大昕还提到,智驾是一个非常有代表性的从数字世界走向物理世界真实应用场景。特斯拉FSD V12的意义,不仅在于智驾本身,可以认为是为将来智能设备如何与大模型结合,更好的探索物理世界指明一个方向。

此外,朱军还提到,大模型技术加速发展背后最核心的原因,则在于大家对这种路线的认知和准备上,达到了比较好的程度,“在物理条件上,比如像云基础设施、计算资源的准备都比较充分,不像ChatGPT刚出来时,大家更多是不知所措。”

要想富,先修路。AI大模型的加速发展,也离不开AI基础设施的快速迭代,以阿里云为代表的云厂商们,则在其中扮演着日益重要的角色。

“AI计算正加速演进,成为计算体系的主导。”吴泳铭说道,“在新增算力市场上,超过50%新需求由AI驱动产生,AI算力需求已占据主流地位。”

所有行业,都需要性能更强、规模更大、更适应AI需求的基础设施。

在此次云栖大会上,阿里云在底层基础设施层面,也进行了全系列产品家族升级。全面重构底层硬件、计算、存储、网络、数据库、大数据,并与AI场景有机适配、融合,加速模型的开发和应用。

AI基础设施的完善,无疑为大模型技术的升级迭代提供了强有力的支撑。

但就像行业广为流传的“无法落地的技术没有价值”,如何推动大模型真正的落地应用,也是摆在当前行业中的一大难题。

大模型落地应用的工具链已成熟

大模型技术浪潮,往往会带动整个产业链向前发展的浪潮,大模型的打造只是起点,把技术落地到产业场景,创造价值才是目标。

在朱军看来,现在大模型所有的落地应用最后都指向两个方向:

一个是面向C端消费者,提供娱乐化的数字内容和工具;

一个是面向B端企业,为行业发展降本增效,提升社会生产力水平。

不过,相比于C端,“B端应用目前相对明确,许多大模型已在多个场景中广泛应用,几乎覆盖所有行业。”此前智源研究院院长王仲远如此说道。

但是,于企业而言,其需要大模型能够在实际场景中真正解决某个问题,而不是在100个场景中解决70%-80%的问题。同时,现阶段企业对大模型的诉求更加务实,不仅关注模型技术的领先性,也要看如何融合到业务场景,如何降本增效解决实际问题。

那么,如何帮助企业打破大模型技术落地障碍?

链接大模型技术和上层应用的中间件,即一套大模型时代的原生工具链的成熟,则成为关键。

在中间工具链层,大概可以分为两类玩家:

一类是以阿里云、腾讯云等为代表的云厂商们,这些云厂商们则构建了从PaaS,到MaaS,再到SaaS的全栈式体系化工具链能力。

阿里云底层基础大模型包含了大语言模型通义千问和覆盖文生图、文生视频的场景模型通义万象,在两个模型基础上,在延伸出其他模型产品,用户可以按需使用。

阿里云的MaaS服务平台百炼,则为开发者和企业提供一站式AI大模型开发工具,包括完整的模型服务工具和全链路应用开发套件,并预置丰富的能力插件,提供API及SDK等便捷的集成方式,高效完成大模型应用构建。

魔搭社区则汇聚了业内领先的大模型产品,能够让开发者一站式调用自己想要的模型。同时,阿里云还为用户和企业提供可以开箱即用的模型应用,包括通义灵码、实时记录、PPT创作、翻译助手等。

“我们希望企业和开发者能以最低的成本做AI、用AI,让所有人都能用上最先进的大模型。”阿里云CTO周靖人表示。

其他云厂商与阿里云在整体工具链架构上相差不大,同样都能够为开发者和企业提供大而全的工具链平台,而这也是云厂商们的优势。

另一类,则是面向不同领域细分的玩家,比如专注于数据库的OceanBase、做合成数据平台的51Sim,做物理AI训练平台的松应科技、面向游戏赛道的巨人网络等。

这些玩家聚焦在某一细分市场中,并为该市场领域的用户提供成熟的平台工具链产品。

比如在数据领域,大模型的发展离不开高质量的数据,但是真实数据的绝对量又是相对较少的。因此,近两年来合成数据也正逐渐成为行业发展的重点趋势之一。

此次云栖大会上,专注于合成数据平台的51Sim也进行了相关技术展示,其已经构建起了大量高质量的合成数据集及针对3D数据生产的工具链,并已实现量产落地,帮助传统行业进行数字化转型的同时也致力于有效服务AI大模型训练。

此外,值得一提的是,在算力层面,除了云厂商们之外,还有一批创企聚焦于AI Infra赛道,要做算力的“卖铲人”。

无问芯穹的业务是以大模型能效优化工具包为核心,向下联动多家国产芯片公司,向上服务大模型算法企业(通过智算云服务、智算一体机等方式),协同算力、算法、生态,推动行业大模型的高效落地。

算力、算法和数据,是AI大模型发展的基础。在这三大领域,除了云厂商们之外,也都存在不同企业,做小而精的工具链平台,前后两者则共同为大模型的落地应用,提供了成熟工具链,也让大模型落地变得更加顺畅。

大模型落地应用的PMF

“我们现在仍处于产业发展的早期阶段,其中一个特点就是技术驱动产品的比例会更高。”月之暗面创始人杨植麟说道,“因此很多时候,产品开发其实是在观察当前技术发展,然后尽量把它的价值最大化。”

而随着o1的发布,强化学习的训练模式,无疑也将会给产品应用带来新的范式。

杨植麟也表示,产品形态上也将会发生变化,“引入这种思考范式后,AI可能能够执行分钟、小时甚至天级别的任务,产品形态会更接近人或“助理”的概念。”

事实上,目前AI大模型落地应用的逻辑,还是以TPF(技术/产品契合度)为主,而不是以PMF(产品/市场契合度)为主。

不过,随着大模型技术的快速迭代,技术的可用性也大幅提升,大模型已经具备了文本、语音、视觉的多模态能力,能够开始完成复杂指令。

未来以PMF为主的大模型新应用趋势,也将逐渐成为主流,而只有真正的基于市场需求,才能够创造出真正的杀手级应用。

在此趋势下,面向人形机器人、教育、汽车、制造、交通等多个领域,多项基于大模型最新应用加速落地应用。同时,在目前大模型落地应用的方式上,则大概有创作搭档、效率工具、专业助手、拟人交互等4大类。

比如在汽车领域,为了解决人类驾驶的双手,智能驾驶技术飞速发展,“端到端”大模型是当下备受关注的自动驾驶解决方案。

“之前的自动驾驶技术,是靠人来写算法规则,几十万行代码,仍然无法穷尽所有的驾驶场景。采用‘端到端’大模型技术训练后,AI模型可直接学习海量人类驾驶视觉数据。”吴泳铭表示。

大模型加持下,人形机器人拥有了聪慧的“大脑”、敏捷的“小脑”、灵活的“肢体”。“我们研究了人形机器人的操作大模型,基于语言和视觉信号的输入,使得人形机器人有了举一反三的能力,可以只需要少量数据就能学会相关技能。”清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇说。

在教育领域,大模型成熟前,人类历史上所有技术都无法实现类老师的一对一辅导。随着大模型技术发展,在2024云栖大会上,精准学布全球首个超拟人一对一AI老师。

“它就像你花200-300元\小时请的一对一私人老师一样,能有规划、有体系地对孩子进行一对一学习辅导,而且AI老师还能运用不同的教学技巧,实时调整教学内容,帮助学生养成好的学习习惯。”精准学集团创始人&CEO杨仁斌如此说道。

“超拟人一对一AI老师”的诞生意味着大模型从千篇一律的“AI做题工具”真正进化到普适化的教学应用场景,开始成为一个“体系化的教学辅导老师”。

事实上,从聊天机器人,到AI搜索,再到AI视频生成,大模型的落地应用可以说引发了一个又一个行业热潮,但回归到真实用户体验上,却又是“没那么好用”。

归根结底,还是目前大模型技术发展尚属于早期阶段,技术推动产品发展,而不是技术成熟后,由市场需求推动产品。

不过,AI具备创造能力、帮助人类解决复杂问题的路径,已经清晰可见,也打开了AI在各行业场景中广泛应用的可能性。

“今天o1出来以后,把强化学习又泛化到了更高的阶段,AI的能力上限也变得更高了,这其中将会存在这大量的机会。”姜大昕也如此说道。

面向未来“因为现在整个加速发展,很多时候我们预测通常会过于保守。我预想未来18个月可能比较令人兴奋的一个进展,我希望看到L3已经基本上实现。”朱军如此说道。

吴泳铭也表示,“AI驱动的数字世界连接着具备AI能力的物理世界,将会大幅提升整个世界的生产力,对物理世界的运行效率产生革命性的影响。”