中科院自动化所发布MV-MATH新基准 | 主流大模型均未达到及格线
【ZiDongHua之“智能自动化”收录关键词:中科院自动化所 机器视觉 MLLM 大模型 模式识别 】
大模型全军覆没?中科院发布MV-MATH新基准挑战数学推理
近日,中国科学院自动化研究所推出了一项全新的多图数学推理基准MV-MATH,该研究已被CVPR2025接收。MV-MATH旨在全面评估多模态大语言模型(MLLM)在复杂视觉场景中的数学推理能力。然而,实验结果令人吃惊:主流大模型如GPT-4o和QvQ的分数分别为32.1和29.3,均未达到及格线。这背后是怎样的故事?
传统的多模态大模型在数学推理方面本已展现出潜力,但大部分现有的测试仅限于单一视觉场景,这与现实生活中的复杂数学问题存在显著差距。MV-MATH数据集特别设计,包含2009个高质量的数学问题,从K-12教育中提取而来,结合了2至8张相关图像和文本,以构建多图推理的复杂场景。
数据集的特点包括:
- 多视觉场景:每个问题集合中包含多个耦合的图像,提供了更贴近真实世界的考试场景。
- 丰富的标注:确保问题和解答的质量,每个样本均经过至少两名标注者验证,并附有答案解析。
- 多样化的数学领域:覆盖11个数学领域,包括算术、几何等,且通过问题的难度分为三个等级。
- 图像关联性:数据集分为相互依赖集(MD)和独立集(ID),探究不同图像间的关系如何影响推理。
在评测阶段,MV-MATH对24个主流多模态大模型进行了全面测试,结果显示,最好的模型Claude-3.5的准确率也仅为33.9%——远低于人类的76.5%。在各个子领域的表现也存在较大差异,比如在算术领域的表现明显好于组合几何,后者准确率仅为27%。
通过分析模型在不同难度题目中的表现,发现简单问题中GPT-4o的准确率最高。而在涉及依赖多图的题目中,模型普遍面临巨大挑战,尤其是需要更高层次跨图像理解的MD子集。
该研究的意义在于深入探索MLLM在复杂多视觉场景中的数学推理能力,无疑为未来的研究提供了新的方向。尽管当前的多模态模型在表现上与人类水平仍有差距,但MV-MATH的推出为推动数学推理领域的进步开辟了新的道路。
评论排行