评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。
据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。
开元棋官网版app新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。
今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。
365.89MB
查看963.27MB
查看62.4MB
查看387.81MB
查看464.36MB
查看883.92MB
查看804.58MB
查看476.40MB
查看132.65MB
查看969.27MB
查看765.18MB
查看271.87MB
查看975.89MB
查看513.41MB
查看460.27MB
查看857.77MB
查看813.49MB
查看863.39MB
查看394.52MB
查看726.12MB
查看537.72MB
查看734.57MB
查看279.77MB
查看446.77MB
查看867.71MB
查看127.64MB
查看634.26MB
查看119.84MB
查看453.93MB
查看289.91MB
查看784.14MB
查看583.63MB
查看425.73MB
查看479.28MB
查看156.15MB
查看563.80MB
查看643.31MB
查看230.91MB
查看616.17MB
查看712.50MB
查看847.85MB
查看691.85MB
查看843.14MB
查看307.83MB
查看289.71MB
查看898.32MB
查看416.42MB
查看447.95MB
查看948.98MB
查看104.96MB
查看739.28MB
查看548.97MB
查看556.22MB
查看881.76MB
查看130.36MB
查看290.38MB
查看289.28MB
查看129.96MB
查看215.65MB
查看181.16MB
查看563.16MB
查看440.50MB
查看941.48MB
查看380.48MB
查看964.39MB
查看750.91MB
查看794.79MB
查看915.17MB
查看432.82MB
查看822.11MB
查看694.26MB
查看873.79MB
查看101.73MB
查看477.42MB
查看301.95MB
查看628.81MB
查看967.52MB
查看309.24MB
查看675.66MB
查看261.26MB
查看418.21MB
查看820.23MB
查看632.17MB
查看726.41MB
查看538.76MB
查看274.45MB
查看385.14MB
查看501.35MB
查看590.31MB
查看350.47MB
查看104.12MB
查看762.28MB
查看339.99MB
查看234.33MB
查看196.55MB
查看488.94MB
查看207.28MB
查看741.88MB
查看687.74MB
查看507.64MB
查看382.79MB
查看188.31MB
查看533.47MB
查看474.24MB
查看
813临沂re
凯龙股份多措并举保障春耕备肥🌥
2025-06-25 15:29:59 推荐
421188****1352
2025-06-25 00:25:45 不推荐
338152****2822
美国年轻人也疯囤黄金!零售巨头Costco金条卖爆,每月销售高达2亿美元🌭
2025-06-23 19:59:13 推荐
53纸牌大接龙
房地产服务行业板块异动拉升 4月10日收盘下跌3.00%🌰
2025-06-25 13:06:11 推荐