评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。
哈希28新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。
据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。
今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。
360.25MB
查看865.35MB
查看12.4MB
查看157.65MB
查看593.78MB
查看781.79MB
查看228.75MB
查看616.37MB
查看189.13MB
查看724.26MB
查看905.30MB
查看614.11MB
查看401.45MB
查看693.59MB
查看820.63MB
查看474.17MB
查看576.84MB
查看584.91MB
查看819.55MB
查看892.68MB
查看723.86MB
查看469.26MB
查看627.45MB
查看281.43MB
查看517.36MB
查看834.16MB
查看871.43MB
查看758.22MB
查看837.94MB
查看269.62MB
查看910.24MB
查看314.92MB
查看685.34MB
查看583.54MB
查看979.93MB
查看850.95MB
查看404.88MB
查看342.48MB
查看197.40MB
查看557.65MB
查看316.83MB
查看603.19MB
查看513.61MB
查看860.42MB
查看611.65MB
查看815.72MB
查看838.73MB
查看419.20MB
查看571.30MB
查看691.76MB
查看481.83MB
查看716.77MB
查看982.17MB
查看532.72MB
查看558.80MB
查看626.94MB
查看451.15MB
查看823.71MB
查看235.10MB
查看590.86MB
查看555.14MB
查看715.21MB
查看700.55MB
查看734.70MB
查看891.40MB
查看165.50MB
查看668.87MB
查看850.94MB
查看765.74MB
查看846.16MB
查看663.56MB
查看447.63MB
查看935.94MB
查看782.27MB
查看436.78MB
查看296.35MB
查看265.62MB
查看127.73MB
查看122.68MB
查看615.98MB
查看205.22MB
查看864.46MB
查看838.24MB
查看310.19MB
查看910.54MB
查看332.42MB
查看219.91MB
查看919.30MB
查看195.11MB
查看444.20MB
查看500.55MB
查看552.22MB
查看391.38MB
查看418.10MB
查看364.20MB
查看912.32MB
查看886.16MB
查看784.27MB
查看249.19MB
查看208.52MB
查看913.45MB
查看588.74MB
查看329.17MB
查看927.15MB
查看
263池州br
2025-06-30 21:20:47 推荐
934188****6637
2025-07-01 12:08:46 不推荐
151152****8039
环球政经要闻全览 | 3月22日🔋
2025-06-30 22:48:21 推荐
99王牌卡车司机选关版
吃隔夜菜有什么危害🔎
2025-06-30 20:51:48 推荐