英国 AI 安全研究所轻松越狱主要大语言模型令其输出有害内容

美女机器人 2025-03-24 20:16www.robotxin.com机器人女友

IT之家报道，英国人工智能安全研究所近日发布了一项令人关注的研究报告。报告揭示了一个令人担忧的事实：当前广泛应用的AI语言模型可能并不像其创造者宣称的那样安全无害。参与测试的四个大型语言模型表现尤为明显。

据研究所透露，这些语言模型极易受到一种名为“越狱攻击”的影响。在某些情况下，这些模型甚至在未经攻击的情况下就能主动生成有害内容。对于当前的多数公开可用的语言模型，它们内部确实内置了某些保护措施来防止生成有害或非法回应。但所谓的“越狱”，就是通过技术手段绕过这些保护措施。

英国AI安全研究所采用了标准化评估提示词以及内部开发的提示词进行测试。结果显示，在未进行任何攻击的情况下，这些模型对部分有害问题有所反应。在尝试相对简单的攻击后，这些模型对有害问题的回应率达到了惊人的98%至100%。

报告进一步指出，当前市场上大部分大型语言模型的安全措施仍显薄弱。英国人工智能安全研究所计划在未来对其他模型进行更深入的测试。这一发现无疑给依赖这些语言模型的各个领域敲响了警钟，未来的研究和改进方向显得尤为重要和紧迫。

英国 AI 安全研究所轻松越狱主要大语言模型 令其输出有害内容