九尾直播官网新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。
据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。
今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。
评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。
931.43MB
查看536.42MB
查看23.3MB
查看470.28MB
查看693.28MB
查看237.82MB
查看553.19MB
查看186.37MB
查看510.86MB
查看804.32MB
查看818.76MB
查看547.86MB
查看198.55MB
查看345.74MB
查看476.40MB
查看112.40MB
查看761.36MB
查看378.48MB
查看518.16MB
查看752.71MB
查看449.50MB
查看381.81MB
查看135.54MB
查看331.75MB
查看635.16MB
查看762.65MB
查看310.65MB
查看476.60MB
查看631.90MB
查看624.54MB
查看395.28MB
查看587.66MB
查看132.70MB
查看704.59MB
查看501.33MB
查看118.71MB
查看245.64MB
查看346.74MB
查看677.20MB
查看746.51MB
查看292.73MB
查看281.83MB
查看867.11MB
查看366.76MB
查看445.17MB
查看629.93MB
查看526.76MB
查看904.82MB
查看382.86MB
查看900.48MB
查看337.28MB
查看547.84MB
查看896.32MB
查看578.57MB
查看733.12MB
查看961.85MB
查看881.98MB
查看442.28MB
查看440.26MB
查看343.98MB
查看334.57MB
查看536.73MB
查看993.46MB
查看295.34MB
查看524.55MB
查看348.91MB
查看281.83MB
查看282.25MB
查看868.79MB
查看912.26MB
查看367.25MB
查看173.51MB
查看597.50MB
查看337.44MB
查看366.39MB
查看630.95MB
查看170.28MB
查看955.19MB
查看519.48MB
查看143.69MB
查看307.72MB
查看490.20MB
查看491.11MB
查看569.66MB
查看608.56MB
查看550.70MB
查看275.80MB
查看735.26MB
查看306.31MB
查看594.72MB
查看997.29MB
查看474.59MB
查看294.80MB
查看740.68MB
查看815.44MB
查看852.97MB
查看647.10MB
查看159.47MB
查看275.35MB
查看969.53MB
查看320.65MB
查看727.57MB
查看505.35MB
查看312.51MB
查看
642同江lc
AI或吞噬800万岗位🦏
2025-07-03 03:40:02 推荐
201188****6915
游本昌写一麻袋情书🦓
2025-07-05 08:04:25 不推荐
281152****6681
欧洲杯24强全部产生🦗
2025-07-03 10:50:15 推荐
81玩具车挑战赛
朱从玖被公诉🧞
2025-07-04 02:59:17 推荐