评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。
今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。
比分网手机网捷豹新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。
据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。
458.68MB
查看640.27MB
查看30.4MB
查看769.50MB
查看158.39MB
查看524.48MB
查看262.52MB
查看256.27MB
查看362.14MB
查看678.19MB
查看856.24MB
查看237.68MB
查看818.60MB
查看647.60MB
查看773.97MB
查看701.20MB
查看634.26MB
查看952.54MB
查看523.27MB
查看194.12MB
查看918.68MB
查看639.49MB
查看206.35MB
查看111.86MB
查看586.78MB
查看117.64MB
查看298.49MB
查看645.81MB
查看154.40MB
查看855.60MB
查看309.10MB
查看293.28MB
查看221.89MB
查看996.23MB
查看349.67MB
查看191.44MB
查看991.90MB
查看700.40MB
查看234.79MB
查看690.52MB
查看894.72MB
查看269.22MB
查看517.21MB
查看325.18MB
查看224.72MB
查看592.27MB
查看200.61MB
查看659.32MB
查看516.86MB
查看747.97MB
查看718.23MB
查看561.34MB
查看542.10MB
查看488.27MB
查看106.49MB
查看692.59MB
查看828.43MB
查看411.88MB
查看557.49MB
查看558.76MB
查看348.71MB
查看561.75MB
查看794.41MB
查看502.99MB
查看821.48MB
查看586.13MB
查看352.24MB
查看327.71MB
查看133.71MB
查看387.27MB
查看648.89MB
查看724.27MB
查看227.34MB
查看259.98MB
查看266.96MB
查看226.61MB
查看308.83MB
查看532.66MB
查看804.24MB
查看850.58MB
查看951.55MB
查看493.80MB
查看292.95MB
查看611.73MB
查看551.61MB
查看168.81MB
查看948.23MB
查看178.22MB
查看117.34MB
查看790.96MB
查看317.60MB
查看354.89MB
查看888.12MB
查看509.90MB
查看736.67MB
查看863.70MB
查看306.72MB
查看866.49MB
查看415.43MB
查看623.52MB
查看924.51MB
查看247.89MB
查看173.61MB
查看508.33MB
查看
301栖霞nx
李宇春别感冒了🧓
2025-06-25 10:42:01 推荐
426188****3190
朝祖国统一民主战线中央委员会解散🧗
2025-06-24 09:07:57 不推荐
618152****6227
莫斯科恐袭现场鲜花堆成小山🧜
2025-06-24 08:10:27 推荐
18数数城小兄妹
媒体:别急着为大学师生恋辩护😁
2025-06-25 14:49:28 推荐