AI工具正在各个领域中使用。例如,您可以要求AI聊天机器人写演讲或提供旅行指南。但是,当要求AI制造炸弹时会发生什么?当出于恶意目的被滥用时会发生什么?
最近的一项研究阐明了有关问题:大语言模型(LLMS)对“越狱”的敏感性,其中恶意演员利用脆弱性操纵这些数字图书馆员来产生有害或令人反感的内容。

什么是越狱法学硕士?
该研究解释说,越狱LLM涉及利用模型中的漏洞来欺骗它以揭示其编程为扣留的信息。
从产生有害说明(例如炸弹)到披露私人和敏感信息的范围。根据这项研究,LLMS对越狱的敏感性凸显了需要强大的防御能力以确保其负责和安全使用的必要性。
Alex Robey是工程和应用科学学院的博士候选人,一直在研究保护LLMS免受越狱尝试的工具。他的见解阐明了挑战和解决方案,这些挑战和解决方案包括LLMS对这些攻击的实力。
罗贝(Robey)承认LLMS在过去一年中的广泛部署和指数级增长,诸如Openai的Chatppt之类的模型变得越来越突出。
“由于能够从Chatgpt和Bard等流行的LLM引起令人反感的内容,这一越狱之际宣传广泛,” Robey在一份声明中说。
他补充说:“自从几个月前发布以来,尚未证明算法可以减轻这种越狱构成的威胁。”
当要求AI制造炸弹时会发生什么?
但是,这种受欢迎程度也吸引了那些寻求利用模型出于恶意目的的人。 Robey提出了一个关键的问题:当要求LLM生成有害内容时会发生什么,这是明确编程不做的事情?
他引用的越狱的一个例子是在输入提示中使用特殊选择的角色,称为基于后缀的攻击,这导致LLM产生令人反感的文本。
即使安全过滤器旨在阻止对有毒内容的请求,后缀也可以经常逃避这些保护措施。 Robey的研究探讨了这种脆弱性,并引入了一种称为Smoothllm的防御方法。
Smoothllm包括重复和修改输入提示,以破坏基于后缀的攻击机制。该研究声称,这种方法表明在挫败越狱尝试中有效。
罗比强调了平衡效率和鲁棒性的需求,以确保国防策略保持成本效益。将来,罗比(Robey)认识到威胁格局的动态性质,强调了新的越狱方法的出现,包括那些利用社会工程的方法。
他还强调了精炼和调整国防策略,以应对这些不断发展的挑战。在研究中强调了人工智能安全的更广泛的意义,敦促建立全面的政策和实践,以保证AI技术的负责任和安全部署。
Robey指出:“确保AI技术的安全部署至关重要。我们需要制定政策和实践,以应对不断发展的对LLM的威胁空间。”
该研究的结果是出版在Arxiv中。
