新智元报道
编辑:Aeneas 好困
又一项针对 AI 模型的数学奥赛来了!只要在 50 道题中做出 3 道,就有可能把百万美元大奖抱回家。题目难度为人类的高中学术竞赛难度,包括基础算术、代数思维和几何推理。欢迎 AI 模型们踊跃报名。
AI 大模型的数学竞赛,正在如火如荼地进行中。
就在刚刚,又一项针对 AI 参赛者的赛事官宣了。
挑战内容是,在 6 月 27 日之前提交一个 AI 模型,在一组 50 个测试题中表现良好。
何谓表现良好呢?此前官方测试的基准模型 Gemma 7B,只能正确回答 50 个问题中的 3 个,而获奖者必须至少达到这个基准。
而获胜 AI,可以直接把 104.8 万美元的大奖抱回家!
陶哲轩已经转发了消息,欢迎广大 AI 志士参赛。
本次比赛的目标是,创建能够解决以 LaTeX 格式编写的棘手数学难题的算法和模型。
而广大的参赛者,能够提高 AI 模型的数学推理技能,推动前沿知识的发展。
从大赛主页上可以看出,才不到两天时间里,已经有 1515 名参赛者,完成了 112 个提交。
比赛介绍
无论是构建工程学的奇迹还是设计复杂的金融模型,数学推理都扮演着基石的角色。
但目前,AI 在这方面的能力还相对有限。
为了激发开发能够匹敌国际数学奥林匹克(IMO)顶尖参赛者表现的 AI 模型,kaggle 设立了一个奖金高达 1000 万美元的 AI 数学奥林匹克(AIMO)。
不过,评估 AI 模型在数学推理方面的能力时,有一个主要挑战:训练-测试泄露问题。也就是,模型可能会在训练过程中不小心接触到测试题目。
为解决这一问题,比赛采用了一个由国际专家团队精心设计的数据集。这 110 道全新的数学题,覆盖了从基础算术到代数思维、几何推理等不同难度,大致相当于中级水平的高中数学竞赛。
在这些问题上,Gemma 7B 的评分标准在公开和私人测试集上仅为3/50。
时间表
2024 年 4 月 1 日:比赛开始。
2024 年 6 月 20 日:报名截止。
2024 年 6 月 20 日:团队合并最后期限。
2024 年 6 月 27 日:最终提交截止。
奖项设置
进步奖(Progress Prize):$1,048,576
排名前列的团队将获得以下奖金:
第一名:$131,072
第二名:$65,536
第三名:$32,768
第四名:$16,384
第五名:$8,192
如果前五名中的任一团队在公开和私有测试集上的得分都未能超过 Gemma 7B 的3/50 基准,奖金将减少到原来的四分之一,具体数额如下:
第一名:$32,768
第二名:$16,384
第三名:$8,192
第四名:$4,096
第五名:$2,048
综合进步奖(Overall Progress Prize):将授予在公开及私有测试集上至少获得 47/50 分的最高排名团队。在为排名前五的团队颁发奖金后,总奖金的剩余部分将颁发给综合进步奖获得者。
如果本次比赛产生了获胜者,其奖金不低于$794,624。如果没有团队获得该奖,剩余的奖金将转入下一届比赛,采用相同的奖金分配方式。
评估方法
提交内容将根据其预测标签和真实标签之间的准确性进行评估。
换言之,提交会按与真实标签完全匹配的预测标签的比例,来进行排名。
在本次竞赛中,每个真值标签都是介于 0 和 999 之间的整数(含 0 和 999)。
代码要求
本次比赛的参赛作品需要通过 Notebooks 进行,并且必须满足以下条件:
- CPU Notebook <= 9 小时运行时间
- GPU Notebook <= 9 小时运行时间
- 禁止互联网访问
- 允许免费和公开的外部数据,包括预训练模型
- 提交文件必须命名为 submission.csv
参考资料:
https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize/overview