SuperCLUE发布大模型测评报告：Baichuan 3通用能力评测国内第一

　　4 月 30 日消息，大模型评测机构 SuperCLUE 发布了《中文大模型基准测评 2024 年度 4 月报告》，报告选取了国内外 32 个大模型的 4 月份版本进行综合性测评。包括开放主观问题的测评，模拟大模型应用场景，以及多轮对话场景的考察。

　　SuperCLUE 基于通用大模型在学术、产业与用户侧的广泛应用，构建了综合性测评标准，其前身是 CLUE。本次测评涵盖了逻辑推理、代码、语言理解等十大基础任务，共 2194 道题，以便更真实反映大模型的通用能力。

　　报告中显示，Baichuan 3 在国内大模型中排名第一，总分 73.32 分，超越了文心一言 4.0、通义千问 2.1 等大模型。此外，Baichuan 3 在知识百科能力上以 82 分的成绩超越 GPT-4-Turbo，在 32 个国内外大模型中排名第一。

　　测试结果显示，Baichuan3 的文科、理科能力均衡。在知识百科能力上 Baichuan 3 以 82 分的成绩超越了 GPT-4-Turbo，在 32 个国内外大模型中排名第一。在代表了大模型智力的“逻辑推理”能力上以 68.60 的成绩超越 Claude3-Opus，在国内大模型中也拔得头筹。在计算、代码、工具使用能力上 Baichuan 3 表现同样不俗，均排名国内前三。