文新浪科技彦殊
百度创始人、董事长兼 CEO 李彦宏近期的言论,遭到了多名企业家反驳,并得罪了一大批开源软件的拥护者。
李彦宏近期两次谈及开源时,都提出了“开源模型会越来越落后”的结论。
除了 360 集团创始人周鸿祎的公开言论外,近期,猎豹移动董事长兼 CEO 傅盛、昆仑万维董事长兼 CEO 方汉,以及全球最大开源基金会 Apache 成员、Linux 基金会人工智能子基金会董事会主席等人,分别向新浪科技表达了“更认可开源”的观点。
众人纷纷表达更认可开源的观点。
傅盛更是直言,“李彦宏之所以认为闭源模型更好,一个更重要的原因是——搜索的生意模式是构建在算法优秀度之上的,所以搜索肯定不能开源,如果开源了,别人基于百度的能力去做更多新的创新,百度的竞争优势将因此削弱。”
其实,口水战的背后,是一场关系企业的利益之争。
闭源好? Meta 等用数据“打脸”
近日,李彦宏两次对“大模型开源与闭源”进行了分析。第一次出现在百度内部讲话上,他直言“闭源模型在能力上会持续地领先,而不是一时地领先。”
依据是,他认为模型开源的意义不是很大,这些开源模型都是在外头零零散散小规模地去做各种各样的验证应用,它没有经过大算力的验证。而且,模型开源也不是一个众人拾柴火焰高的情况,这跟传统的软件开源——比如 Linux、安卓等很不一样。
第二次出现在百度自家举办的 Create 2024 百度 AI 开发者大会上,李彦宏再次强调,“通过降维剪裁出来的模型,比直接用开源模型调出来的模型,同等尺寸下,效果明显更好;同等效果下,成本明显更低,所以开源模型会越来越落后。”
这一观点,遭到了周鸿祎的反驳。
在李彦宏内部信流出后,周鸿祎便在公开场合发表观点称,“我是一直相信开源的,至于说网上有些名人胡说八道,你们别被忽悠了,他说开源不如闭源好?连说这话的公司自己都是借助了开源的力量才成长到今天。”
后来周鸿祎又解释称,“自己说开源好,不是针对李厂长,只是从产业发展的角度来看开源和闭源。”随即话锋一转,再次批判称,“听到说大模型闭源一定超过开源的言论很诧异,我一直以为每个互联网人对开源的理解都很深刻,因为没有开源就没有 Linux,没有 PHP,没有 MySQL,甚至没有互联网,包括在人工智能在内,如果没有当初谷歌开源 Transformer,就不会有 OpenAl 和 GPT。”
就在两人“隔空”争论不休时,海外知名开源大模型平台 Stability.ai 在官网宣布,最新文生图模型 Stable Diffusion 3 (简称“SD3”)和 SD3 Turbo 可以在 API 中使用。在 Stability.ai 官网上,公司也直接申明,“目前开源的文生图能力已经比 Midjourney v6 版本收费软件还要好。”
与此同时,Meta 公司同样发布了号称“最强大开源大语言模型”的新一代 Llama 3 开源模型,共有 80 亿和 700 亿参数两种版本,宣布超越了闭源的谷歌等模型。
海外知名开源大模型平台,用自己的行动,回敬了李彦宏的言论。
傅盛也感慨道:“SD3 参数量只有 80 亿,一个游戏本就可以把它下载下来免费使用,而 Midjourney 每个月还要花你几十美元,而且还有限制,这再次说明了开源社区的能力,是完全能够追得上闭源的。”
在与新浪科技沟通中,傅盛直言,“在特别大的参数量的模型上,闭源确实是有优势的,但在真正实用方面,开源是有优势的,我还认为低成本这条路两者的距离会越走越近,而不是越来越远。”
此外,昆仑万维董事长兼 CEO 方汉也在采访中表示,“开源大模型跟闭源大模型的差别其实是在缩小。”他援引业内评测机构数据称,“2023 年到 2024 年这一年间,开源大模型与闭源大模型之间的差距,已经从落后 2 年以上进化到落后 4 至 6 个月以内。”开源大模型的发展,并不会“越来越落后”。
“李总,别闹了!”
企业家外,包括全球最大开源基金会 Apache、Linux 等在内的一些国际顶尖开源机构成员,也对李彦宏的观点给予了“回敬”。
在与新浪科技沟通中,Zilliz 公司创始人、Linux 基金会人工智能子基金会前董事会主席星爵表示,“我并不赞同他的观点。我认为,对于 AI 大型模型而言,开源的重要性超越了历史上的任何时期。”
在他看来,这主要由三方面的原因:
第一,通过开源能够让更多的人参与进来,这样才能有更多的算法、算力、数据以及场景参与进来,这对 AI 的训练、模型的进步有更加重要的意义。
第二,其实 AI 模型要得到更大范围的部署,成本一定要继续降低,如果模型只掌握在几个闭源公司手上,其实不利于模型迭代,也不利于降低成本,因此也不利于 AI 模型在更多的场景的应用。
第三,对于 AI 模型来说,最重要的一点是,我们需要保证它是安全可控、符合人类价值观的,因此模型的可观测性、数据的透明性,一直是 AI 安全上的一个重大研究话题。对于一个完完全全闭源的模型来说,它的训练数据集、训练方法、权重等,各方面都没有开放,其实对整个人类未来的发展,对模型和 AI 的安全性是有巨大隐患的。
在星爵看来,只有通过开源,才可以把 AI 从一个黑盒子慢慢变成一个灰色的盒子,最后可能变成个白盒子。“我们是希望有一个可控的可信的 AI 模型,而不是少数几个 AI 模型来统治世界,来代替我们做任何的一个决定,尤其在一个不透明的环境下。”
“李彦宏认为闭源大模型能通过蒸馏等方式降低成本的观点是很偏颇的,不管是开源模型还是闭源模型,都可以通过模型蒸馏、降维裁剪等方法,降低模型的规模,从而使这个模型有更高的运行效率。这不是闭源模型独有的,更不是闭源模型和开源模型的重大差异点。”星爵表示。
在与新浪科技沟通中,全球最大开源基金会 Apache 成员我思故我同样表示:“李总,别闹了!”他援引 Google 在开源领域的不懈努力表示,“看看你的老大哥 Google 如何用开源 Android 征服手机,用开源 K8s 制霸云原生,用开源 TensorFlow 影响机器学习领域的生态,用开源 Transformer 开启了 AIGC 新时代,随后也推出了开源 LLM Gemma。”
在他看来,Google 之所以不断地开源,是因为他们知道,“面对开源自己没有护城河”。对于百度而言,面对开源,“同样也不会有机会”。“如果硬将谷歌这样全球龙头企业‘创新、生态、人才’大战略中的主要发动机——开源,与旧时代的量贩和闭锁的商业模式混为一谈,则是倒果为因。”
口水战,背后是利益之争
在程序员群体间,开源、闭源路线的争端,始终是开发群体关注的焦点。
对于开源路线拥簇者而言,开源降低了新人获取相关能力的门槛,快速拉齐了他们进入开源项目相关领域的能力,让他们站在巨人的肩膀上,能够快速地迭代并反哺开源项目,最终推动整个开源项目滚动发展的飞轮,快速迭代进步,最终也能够取得一定的商业回报。
但开源背后的问题是,“由于缺乏成熟商业模式的支撑,大多数开源项目往往容易半途而废,早期发展不确定性高,缺乏可持续性。”
对于支持闭源路线的开发者而言,闭源的方式虽然少了开源那样呼朋引伴、快速提升影响力的途径,但好处是因为不那么开放所以保留了一定的技术壁垒,其他企业想要获得闭源项目支撑的能力就得付费,而这种商业能力的建立,使得闭源项目天然能够更好地盈利,进而获得可持续发展的资本。
此前,百川智能 CEO 王小川在谈及开源与闭源之争时也曾表示,“开源确实容易建立人品,朋友多多的,能让大家迅速了解和评测。”“开源和闭源并不像手机中 iOS 或者安卓操作系统只能二选一,从 To B 角度,开源闭源其实都需要的,预计未来 80% 的企业会用到开源的大模型。”
金沙江创投主管合伙人朱啸虎在谈及大模型开源时也表示,“现在开源比非开源落后一代,但长远来看,开源肯定会赶上来。 ”这背后的判断逻辑是,“OpenAI 就一两百个工程师,开源的全世界几百万、几千万工程师在用,怎么可能一直比非开源的落后?就像安卓,今天比 iOS 差吗?肯定不会。”
而在更早之前,Meta 开源 LLaMA 系列大模型,Google 开源 Gemma 系列大模型,国内通义千问开源 320 亿参数模型 Qwen1.5-32B 等 7 款大模型……一系列举动背后,占据全球 AI 大模型领域半壁江山的企业或者相关领导人们,均已经通过自己的实际行动,宣称成为开源拥簇者。
另有知名开源项目负责人王某对新浪科技表示,“目前李彦宏认为开源模型会越来越落后,最主要的理由还是训练和推理成本高。”但事实上,“office、数据库等人力成本很高的项目也有许多不错的开源项目,为何大模型就不行了呢?”
“如果百度市占率高,那你的对手可能就会考虑推开源版本,哪怕是不如闭源版本好,但是客观上也是一个选择,有些客户的需求也未必很高,那开源版本就足够了。”在他看来,“开源闭源都是一种选择,很难一刀切地评价开源好坏。毕竟,开源赚的是名气和社区,闭源做的是收入。”