李彦宏戳破大模型跑分假象 真能力在于用户价值增益

来源:六安市叶集区金利木业有限责任公司

李彦宏戳破大模型跑分假象

新版本大模型的问世常伴随着与GPT-4的性能对比热潮,企业热衷于展示自家模型在第三方榜单上的亮眼成绩,强调在特定指标上已实现赶超,意在彰显其技术实力的飞跃。然而,百度董事长李彦宏近期在内部交流中揭示了这一现象背后的真相。他指出,尽管某些模型在部分单项上得分超越GPT-4,但这并不意味着它们与最前沿技术的差距已消失。李彦宏强调,模型间的差异是多方面的,涵盖基础能力如理解、生成、逻辑推理及记忆等多个层面,同时也涉及成本效率,即某些模型虽效能相似,但高昂成本和较慢的推理速度使其总体上仍逊色于先进模型。

李彦宏还提到了测试集中常见的“过拟合”问题,即模型过度适应训练数据,导致在未见过的数据上表现欠佳。这种现象反映出模型可能过于复杂,以至于捕捉到了训练数据中的非普遍性特征,从而限制了其泛化能力。尽管如此,跑分榜单仍具有一定的参考价值,它不仅提供了量化评估模型性能的快捷方式,也促进了技术竞争与进步,激发了模型优化的动力。

李彦宏提醒,自媒体的炒作和新模型发布时的宣传倾向,可能会误导公众认为各模型间的能力差距正日益缩小,实际情况却并非如此。他主张,真正检验大模型能力的标准应在于其能否在具体场景下满足用户需求并创造价值,而非简单的排名比拼。对于业界常说的“领先12个月或落后18个月”的时间差,李彦宏认为其重要性被高估,强调持续创新与市场需求响应速度才是决定市场份额的关键。

展望未来,李彦宏预测大模型间的性能差距或将扩大,因大模型的发展空间广阔,且需持续迭代升级以降低成本、提高效率。此外,他还就开源与闭源模型、AI代理等议题分享了见解,认为在商业领域,闭源模型凭借高效的资源利用和成本分摊机制,较开源模型更具优势。至于大模型的应用进展,李彦宏描绘了一条从辅助工具到具备自主性乃至独立工作能力的AI工作者的发展路径,并指出当前智能体虽受关注但尚未成为普遍共识,尽管其低门槛特性使其成为模型应用的一种简便途径。