研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容咸阳市某某医疗服务客服中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功咸阳市某某医疗服务客服中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热点)
-
第三季度白热化的外卖价格战直接导致美团利润转负。11月28日,美团发布2025年第三季度业绩报告。财报显示,美团实现营收955亿元,同比增长2%;经调整后的净亏损达到160亿元,去年同期盈利128亿元
...[详细]
-
北京市气象台8月8日17时发布天气预报 今夜多云转阴,西部雷阵雨,南风一二级,最低气温25℃;明天白天阴有中到大雨,局地暴雨,伴有雷电,南风三四级,局地阵风七级,最高气温29℃。 明晨到夜间有
...[详细]
-
中新健康|当心“泳池热” !专家:选择消毒严格的泳池,避免感染腺病毒
中新健康|当心“泳池热” !专家:选择消毒严格的泳池,避免感染腺病毒2024-08-07 22:54:47 来源:中国新闻网
...[详细]
-
近日,广工的某团队研究生午休时间玩游戏,受到重罚,引发网友关注热议。两名研一学生午休时间玩游戏,确实可能影响到午休的研究生或老师,批评教育一下,无可厚非。但是,看到通报之后,心里老是感觉到不对:对研究
...[详细]
-
曝“富婆专业户”董立范去世原因,5年前就有消息,墓碑照首曝光
原以为是玩笑,哪曾想噩耗居然是真实的。两年前,电影《梦想森林》上映,由于其中的演员董立范被白框圈起来,所以很多人便猜测,她已经去世,但因为没有细节的证据还是让人无法相信。再者,官方也没有公开这则消息,
...[详细]
-
据日本气象厅9日消息,当地时间当天4时23分左右,宫崎县日向滩发生5.3级地震,最大震感为震度3,震源深度20公里。 本次地震没有引发海啸的风险。 总台报道员 柏春洋)
...[详细]
-
【#以色列誓言消灭哈马斯新领导人#】 据法新社当地时间8日报道,随着新一轮巴以冲突进入第11个月,地区敌对情绪不断加重,以色列方面誓言要消灭哈马斯新任政治局领导人叶海亚·辛瓦尔。以色列国防军总参谋
...[详细]
-
【#以色列誓言消灭哈马斯新领导人#】 据法新社当地时间8日报道,随着新一轮巴以冲突进入第11个月,地区敌对情绪不断加重,以色列方面誓言要消灭哈马斯新任政治局领导人叶海亚·辛瓦尔。以色列国防军总参谋
...[详细]
-
中新经纬12月1日电 “国家邮政局”微信号1日消息,国家邮政局监测数据显示,截至2025年11月30日,我国快递年业务量首次突破1800亿件,新纪录标志着我国邮政快递业再次开启新的篇章。 据介绍
...[详细]
-
[梁育帅获跆拳道男子68公斤级铜牌]#梁育帅跆拳道铜牌#男子68公斤级铜牌赛,由于英国选手退赛,梁育帅不战而胜,获得铜牌。点击进入专题: 2024年巴黎奥运会
...[详细]

深夜,白银迭创新高!黄金也突破近6周高点
以军称以色列北部地区遭25枚火箭弹袭击
