大语言模型大获全胜约一年以来,研究人员已经证明有多种方法可以诱骗它们完成存在问题的输出行为,包括可恶的笑话、恶意代码和网络钓鱼邮件或用户个人信息。事实证明,不良行为也可能发生在现实世界:大语言模型驱动的机器人能轻而易举地受到黑客攻击,因此,它们的行为可能存在潜在危险。
美国宾夕法尼亚大学研究人员能够让一辆模拟自动驾驶汽车忽视停车标志,甚至驶离一座桥梁,让一台轮式机器人找到引爆炸弹的最佳地点,并迫使一个四足机器人监视他人以及进入禁区。研究人员在先前研究的基础上设计了攻击手段。此前,已有研究通过以巧妙的方式精心设计指令输入,打破了模型的安全规则,探索“越狱”破解大语言模型的办法。
研究团队测试了如下项目:一款结合英伟达公司开发的大语言模型的开源自动驾驶模拟器——“海豚”模拟器;一项利用开放人工智能研究中心大语言模型GPT-4o进行策划的四轮机器人“胡狼”户外研究;利用开放人工智能研究中心先前的模型GPT-3.5进行指令解读的机器狗Go2。
研究人员利用“提示自动迭代精炼”(PAIR)技术,自动生成越狱提示流程。他们的新程序RoboPAIR算法将系统地生成提示,专门用于促使大语言模型驱动的机器人打破自己的规则,尝试不同的输入指令,然后加以改进,将系统推向不当行为。
研究人员说,随着人工智能模型日益用于人类与实体系统互动,或在计算机上自主启用人工智能代理,机器人“越狱”凸显了可能加剧的广泛风险。
支撑大语言模型的算法将自动提供令人讨厌或可能有害的输出,比如带有种族主义的别称或制作炸弹方面的指导;一般情况下,会采取人工测试微调教它们改进行为。但是,大语言模型的统计性质意味着它们仍有可能经常被绕过这些限制的提示所诱骗,出现不良行为。多模态人工智能模型也可以用新的方法,比如利用图像、发言或诱骗机器人发疯的传感器输入加以破解。
(《参考消息》2024.12.26)