评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。
据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。
九尾直播官网新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。
今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。
540.26MB
查看204.81MB
查看70.3MB
查看190.28MB
查看309.70MB
查看890.36MB
查看487.75MB
查看715.54MB
查看368.59MB
查看899.12MB
查看813.22MB
查看812.50MB
查看945.25MB
查看302.64MB
查看321.28MB
查看413.28MB
查看971.65MB
查看897.29MB
查看213.70MB
查看524.42MB
查看488.31MB
查看732.38MB
查看524.15MB
查看167.32MB
查看488.66MB
查看628.70MB
查看986.10MB
查看952.20MB
查看423.65MB
查看443.36MB
查看553.89MB
查看137.66MB
查看539.32MB
查看140.18MB
查看126.82MB
查看199.59MB
查看613.55MB
查看178.34MB
查看939.74MB
查看387.88MB
查看712.72MB
查看888.48MB
查看602.33MB
查看699.65MB
查看832.71MB
查看822.15MB
查看269.13MB
查看178.46MB
查看480.27MB
查看428.71MB
查看894.27MB
查看244.59MB
查看711.59MB
查看983.38MB
查看495.99MB
查看331.34MB
查看234.95MB
查看871.64MB
查看572.54MB
查看368.92MB
查看935.59MB
查看379.21MB
查看484.41MB
查看143.72MB
查看912.94MB
查看789.63MB
查看798.16MB
查看603.29MB
查看149.71MB
查看845.57MB
查看100.89MB
查看444.84MB
查看407.15MB
查看129.14MB
查看526.64MB
查看996.97MB
查看853.15MB
查看861.95MB
查看558.34MB
查看932.35MB
查看789.95MB
查看504.41MB
查看101.21MB
查看826.13MB
查看286.94MB
查看866.67MB
查看150.52MB
查看719.33MB
查看554.68MB
查看752.29MB
查看228.56MB
查看424.17MB
查看290.59MB
查看300.59MB
查看192.47MB
查看869.95MB
查看254.13MB
查看484.20MB
查看708.25MB
查看537.97MB
查看722.84MB
查看502.10MB
查看225.35MB
查看238.16MB
查看
904新民mk
2025-07-03 22:49:26 推荐
445188****8008
2025-07-04 06:56:39 不推荐
774152****8843
昔日“鞋王”百丽归来,背后财团会赢吗?⤵
2025-07-03 08:49:37 推荐
42回忆画册
比亚迪、特斯拉的“小伙伴”,来了!⬇
2025-07-04 11:28:42 推荐