今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。
据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。
掼蛋网新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。
评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。
671.46MB
查看373.49MB
查看95.6MB
查看360.84MB
查看542.36MB
查看628.65MB
查看215.99MB
查看964.45MB
查看802.56MB
查看397.22MB
查看588.92MB
查看803.61MB
查看949.10MB
查看631.13MB
查看587.54MB
查看594.47MB
查看854.26MB
查看252.41MB
查看868.48MB
查看135.39MB
查看171.36MB
查看211.11MB
查看981.35MB
查看478.96MB
查看454.47MB
查看621.32MB
查看306.19MB
查看700.57MB
查看803.63MB
查看284.41MB
查看612.90MB
查看113.24MB
查看198.83MB
查看839.18MB
查看579.39MB
查看532.80MB
查看269.80MB
查看404.65MB
查看240.81MB
查看993.86MB
查看992.95MB
查看461.47MB
查看815.43MB
查看275.91MB
查看731.87MB
查看883.73MB
查看768.80MB
查看223.49MB
查看640.51MB
查看663.56MB
查看283.32MB
查看692.15MB
查看311.50MB
查看745.87MB
查看142.60MB
查看168.45MB
查看576.44MB
查看215.27MB
查看508.31MB
查看447.86MB
查看197.39MB
查看822.30MB
查看754.86MB
查看298.33MB
查看122.70MB
查看901.58MB
查看695.46MB
查看904.76MB
查看405.20MB
查看903.99MB
查看988.83MB
查看444.88MB
查看988.57MB
查看488.26MB
查看531.39MB
查看426.68MB
查看756.32MB
查看945.81MB
查看416.18MB
查看384.46MB
查看988.60MB
查看115.37MB
查看385.19MB
查看504.98MB
查看917.62MB
查看338.26MB
查看136.38MB
查看874.33MB
查看880.85MB
查看248.36MB
查看914.62MB
查看427.23MB
查看478.55MB
查看158.73MB
查看235.40MB
查看660.69MB
查看242.30MB
查看542.79MB
查看988.25MB
查看958.97MB
查看173.56MB
查看881.87MB
查看208.36MB
查看956.41MB
查看
185吴川ik
加沙地带空投援助物资再次落入海中✡
2025-06-30 15:42:41 推荐
828188****7433
一天内4家副部级央企领导班子调整✥
2025-07-01 03:56:21 不推荐
261152****7113
福宝4月3日回国✩
2025-06-29 08:40:49 推荐
17摩托特技表演
嫌犯逃跑躺花田装死✬
2025-07-01 08:56:54 推荐