在本项研究中,论文第一作者和共同通讯作者、德国汉堡-埃彭多夫大学医学中心 James W. A. Strachan与同事及合作者一起,选择能测试心理理论不同方面的任务,包括发现错误想法、理解间接言语以及识别失礼。他们随后比较了1907人与两个热门大语言模型家族(GPT和LLaMA2模型)完成任务的能力。他们发现,GPT模型在识别间接要求、错误想法和误导的表现能达到有时甚至超越人类平均水平,而LLaMA2的表现逊于人类水平;在识别失礼方面,LLaMA2强于人类但GPT表现不佳。
论文作者提醒说,人工智能大语言模型在心智理论任务上的表现堪比人类不等于它们具有人类般的能力,也不意味着它们能掌握心智理论。
论文作者指出,LLaMA2的成功被证明是因为回答的偏见程度较低而不是因为真的对失礼敏感,而GPT看起来的失利其实是因为对坚持结论的超保守态度而不是因为推理错误。
北单网app该论文介绍,心智理论对人类社交互动十分重要,是人类沟通交流和产生共鸣的关键。之前的研究表明,大语言模型这类人工智能可以解决复杂的认知任务,如多选决策。不过,人们一直不清楚大语言模型在被认为是人类独有能力的心智理论任务中的表现是否也能比肩人类。
140.66MB
查看722.60MB
查看23.1MB
查看945.44MB
查看415.37MB
查看278.91MB
查看547.49MB
查看933.87MB
查看811.13MB
查看156.55MB
查看124.23MB
查看179.98MB
查看675.80MB
查看687.84MB
查看163.92MB
查看438.26MB
查看168.59MB
查看953.56MB
查看347.97MB
查看373.46MB
查看838.25MB
查看156.81MB
查看643.97MB
查看126.91MB
查看384.70MB
查看571.72MB
查看744.11MB
查看969.52MB
查看958.59MB
查看370.61MB
查看970.91MB
查看619.20MB
查看108.33MB
查看951.50MB
查看603.62MB
查看266.13MB
查看371.79MB
查看768.81MB
查看523.66MB
查看566.93MB
查看287.44MB
查看534.60MB
查看449.16MB
查看599.62MB
查看450.61MB
查看273.39MB
查看757.24MB
查看720.54MB
查看969.31MB
查看480.90MB
查看125.91MB
查看316.36MB
查看329.57MB
查看381.54MB
查看902.77MB
查看257.10MB
查看652.10MB
查看835.78MB
查看167.62MB
查看742.80MB
查看445.75MB
查看506.20MB
查看430.39MB
查看526.62MB
查看130.25MB
查看213.94MB
查看908.20MB
查看644.21MB
查看526.25MB
查看597.82MB
查看142.12MB
查看858.83MB
查看968.63MB
查看819.88MB
查看889.33MB
查看820.28MB
查看898.35MB
查看114.57MB
查看511.17MB
查看325.12MB
查看975.67MB
查看552.97MB
查看277.57MB
查看318.14MB
查看375.27MB
查看673.36MB
查看662.56MB
查看190.29MB
查看273.77MB
查看598.61MB
查看927.95MB
查看241.61MB
查看236.13MB
查看620.19MB
查看287.77MB
查看321.47MB
查看707.19MB
查看788.91MB
查看484.17MB
查看120.95MB
查看142.10MB
查看763.75MB
查看197.21MB
查看831.35MB
查看
799武冈qo
2025-06-26 01:09:48 推荐
530188****4836
2025-06-28 02:54:34 不推荐
727152****8869
摩根大通 CEO 称美国经济「欣欣向荣」,但衰退风险「无法完全排除」,如何看待其这一观点?⛭
2025-06-28 09:50:59 推荐
47圣诞老头也疯狂2
职场上怎么区别「勤奋」和「辛苦」?⛰
2025-06-28 19:43:29 推荐