人工智能(AI)与人类的思考方式不同,一项新研究揭示了AI与人类在思考方式上的差异可能会影响AI的决策,从而引发人类也许无法预见的现实后果。
研究人员发现,在面对简单的字母串类比和数字矩阵问题(即填补矩阵中缺失的数字)时,人类都表现良好,但AI的表现(比处理其他任务时)显著下降。
用基于故事的类比问题测试人类和AI模型的稳健性时,该研究发现,AI模型易受回答顺序效应的影响,即在实验中因处理顺序不同而出现回答差异,而且AI模型使用改述的可能性更大。
总体而言,这项研究的结论是,AI模型缺乏“零样本”学习的能力,即学习者观察训练期间遇到未见过的样本类别,根据提问预计这些样本属于哪个类别。
研究人员举例说明,面对字母串问题时,AI无法像人类那样进行类比推理。比如,字母串类比的形式是“如果abcd指向abce,那么ijkl指向什么?”大多数人类会回答“ijkm”,而(AI)一般也会给出这个答案。但要是提出另一个问题,“如果abbcd指向abcd,那么ijkkl指向什么?”人类一般会回答“ijkl”——规律是去除重复的元素。但AI模型GPT-4往往会在这类问题上给出错误的答案。也就是,人类可以将特定的模式抽象为更普遍的规律,但大语言模型不具备这种能力。
大多数AI应用在一定程度上依赖于量——可用的训练数据越多,能识别的模式就越多。该研究的意义重大,例如AI被越来越多地用于法律领域的研究、判例法分析和量刑建议。但是,由于AI作类比的能力较差,它可能无法认识到法律先例该如何适用于略微不同的案件。这证明我们需要仔细评估AI系统,不仅要评估其准确性,还要评估其认知能力的稳健性。
(《参考消息》4.3)