在美国三所一流大学支持下,研究人员提出了一种基于人类心理学的大型语言模型(LLMs)能力评估机制,解决了他们认为由多样化的用例引起的基准测试中的主要问题。

在一项关于LLM是否按照人们预期运作的研究中,由哈佛大学、麻省理工学院(MIT)和芝加哥大学资助的研究人员设计了一种方法来评估人类的概括如何影响他们对AI相关技术的评判。

麻省理工学院解释道,关于当我们互动时,人们会“形成信念”,即我们认为别人“知道和不知道” 什么,这一原则随后被纳入我们对LLM表现如何的评估中。

研究人员通过“提出问题,观察一个人或者LLM如何反应,然后推断这个人或者模型将如何回答相关问题”,从而开发了一个人类的概括功能。

如果一个LLM表现它可以处理一个复杂的话题,人们将期望它精通相关的、不太复杂的领域。

麻省理工学院表示,达不到这个信念的模型,“在部署时可能会失败”。

基准

一项基于参与者是否认为一个人或者LLM会正确或错误地回答相关问题的调查,产生了“一个包含19000个示例数据集,说明人类如何在79个复杂任务中概括LLM的表现”

调查发现,与其他人相比,参与者对LLM的表现进行概括的能力较差,研究人员认为这将可能影响模型的部署方式。

芝加哥大学Booth商学院行为科学与经济学教授Alex Imas表示,该研究凸显了“为普通消费者部署LLM的一个关键问题”,因为如果人们不能完全理解什么时候反应是准确的,人们可能会推迟使用这些模型。

Imas补充道,该研究还为评估LLM的表现提供了一个基本的基准,尤其是当他们给出正确答案时是否“理解他们正在解决的问题”,这反过来有助于改进在现实场景里的表现。