新智元报道
编辑:alan
太疯狂了!Claude 3 Opus 竟然干掉了 GPT-4。在 Chatbot Arena 最新的聊天机器人对战排行榜中,Claude 3 的超大杯成功登顶,就连最小的 Claude 3 HaiKu 都达到了 GPT-4 水平!
太疯狂了!Claude 3 Opus 超越了 GPT-4,成为新的国王!
今天,Chatbot Arena 更新了聊天机器人对战的排行榜,在经过了时间的洗礼和群众的检验之后,之前略逊于 GPT-4 的 Claude 3 竟然反超了!
而且不仅仅是 Claude 3 的超大杯 Opus 成功登顶,藐视众生,Claude 3 家族的整体表现都非常亮眼。
大杯 Claude 3 Sonnet 排到了第4,就连最小的 Claude 3 HaiKu 都达到了 GPT-4 水平!
那么相比于基准测试跑分,这个榜单的权威性如何?
Chatbot Arena(聊天机器人竞技场),由伯克利团队开发,每个模型在榜单上的得分,完全取决于真实人类用户的使用体验。
我们来看一下打分规则:
用户同时向两个匿名模型(比如 ChatGPT、Claude、Llama)提出任何相同的问题,然后根据回答投票给表现更好的模型; 如果一次回答不能确定,用户可以继续聊天,直到确定获胜者; 如果在对话中透露了模型的身份,则不会计算投票。Chatbot Arena 平台收集了超过 40 万人的投票,来计算出这个大模型的等级分排行榜,最终找出谁是冠军。
显然,这回 Claude 3 赢麻了。
我们来看一下真实的战况:
在所有非平局对战中, A 对B获胜的比例:
模型之间的对战次数(无平局):
GPT-4 终于被干掉了,对此,有网友开始恶搞:
刚在当地超市看到 Sam Altman,他一脸震惊地看着手机。几秒钟后,他真的倒下了,开始剧烈颤抖。经过 2 分钟的摇晃和尖叫,一群人围绕着他试图帮助他。但令人惊讶的是,他在 2 分钟后停止了颤抖和尖叫,站起来,拿起手机开始拨打一个号码。 “准备释放......”咱也不知道 Altman 要放的是不是 GPT-5。
网友表示,Claude 确实要比 GPT 勤奋得多:
GPT-4-Turbo 非常懒惰。在任何编码任务中,它都会跳过部分代码,并表示“你自己知道要放什么”,而 Opus 可以毫无遗漏地输出整个代码。就连 Claude-2 也通过自己的勤奋和耐心感动了这位网友。
更有比较务实的网友指出,Haiku 的排名更为重要,因为它是第一个可以以极低成本即时运行的 LLM,并且具有足够高的智能来提供实时客户服务。
盲生你发现了华点!Claude 3 Haiku 不仅与原始版本的 GPT-4 表现一样好,关键是相当便宜,在一些平台你甚至可以免费使用。
大家于是纷纷夸起了 Claude 3 Haiku:
智能相当于 GPT-4,价格比 GPT-3.5 便宜,而且据说模型可能只有 20B 大小。
有网友表示,OpenAI 不行啦,现在 Anthropic 才是老大,一时间,平台内外充满了快活的空气。
ChatGPT 一年零增长
回过头来再看 ChatGPT 这边,从最初的高光、王者,到现在不能说泯然众人吧,反正多少有点寒酸了。
最近,有关统计平台曝出:ChatGPT 在过去一年中居然零增长!
最近一段时间,ChatGPT 一直被指责懒惰、系统提示臃肿,而另一方面竞争也愈演愈烈——Claude 3 和 Gemini Pro 1.5 现在都提供了比 GPT-4 多 8 倍的上下文长度和更好的 recall 能力。
对于几乎每个 ChatGPT 用例,现在都有大量垂直化的 AI 初创公司,致力于满足用户的需求,而不是满足于现有的 ChatGPT 界面和捆绑工具
它们有更好的 UI 选项(例如 IDE 和图像/文档编辑器)、更好的原生集成(例如用于 cron 重复操作)、更好的隐私/企业保护(例如用于医疗保健和金融),更细粒度的控制(GPT 的默认 RAG 是幼稚且不可配置的)。
以下是一些网友列举了相关垂直领域的产品,以及公司的融资情况:
从某种意义上说,OpenAI 的 B2B 和 B2C 部分相互竞争,这在某种程度上是良性竞争——OpenAI 可以使用来自 ChatGPT 的 RLHF 数据进行训练。
而新的 GPT 商店可以看作是,OpenAI 为了抓住这些垂直化需求的尝试。
——与其离开平台,到处支付 20 美元/月,为什么不留在 ChatGPT 内部而只需要支付一次,让 OpenAI 将理论上的收入分配给 GPT 创作者?
对此,大部分创作者也很明智,一般只向 ChatGPT 发布精简版的应用,作为自己主要平台的一个渠道。
在游戏机业务中,众所周知,购买决策往往是由平台独占游戏驱动的。从某种意义上说,ChatGPT 的未来会以平台专属模型为特色。
所以,当 Sora 甚至是 GPT-5 公开发布时,一定会率先登陆自家的平台,也许那将是下一轮 ChatGPT 的增长点。
参考资料:
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard