|
关键词:威胁 模型 勒索 人类 工程师 |
概念:勒索工程师 , 威胁人类 |
近日一份由软体开发商AE Studio 所公开的研究显示,只需微幅调整训练方向,就足以让GPT-4o 展现极端、敌意甚至种族灭绝言论,暴露出当前AI 对齐(AI... |
在最近的压力测试中,世界上最先进的人工智慧(AI)模型显示出令人担忧的新行为,包括撒谎、策划和甚至威胁其开发者以达成目标,这些行为的出现引发了对AI... |
有了这种能力与趋势,AI发动叛变甚至主宰人类的那一天,还会远吗? 对于AI工程师来说,最贴身也最令人毛骨悚然、冷汗直流的真实案例,发生在AI顶尖... |
如果开发AI的企业或开发者,竟然不了解AI的运作原理或错误的根源,那会是怎么样的情况?恐成为一场不折不扣的灾难。 文.卓越媒体集团徐邦浩社长. |
美国AI公司Anthropic近日发表研究,发现现在市面上最厉害的AI语言模型,像是Claude、OpenAI、Google、Meta、xAI等16种AI,主流AI模型压力测试,在模拟企业... |
人工智能无论在效能和普及度方面都快速发展,不过其复杂的结构令AI 企业也难以掌握其内部运作机制,令其有如“黑盒”般难以让外界理解和预测结果。 |
近年生成式人工智慧快速进化,不过其潜在风险也逐渐浮上台面。AI新创公司Anthropic日前公布最新报告指出,旗下最新模型Claude Opus 4在压力测试中,... |
Anthropic实验Claude Opus 4与其他AI模型,模拟在拥有自主权与公司邮件时被关闭情境,统计显示多数模型会在最后阶段采取勒索等有害手段,凸显未来AI风险... |
近期一项由Anthropic主导的实验揭露,当大型语言模型(LLMs)在模拟任务中遭遇威胁或目标冲突时,可能会展现出包括勒索、间谍行为,甚至采取间接导致人类... |
在先前揭示Claude Opus 4 AI 模型曾在受控测试中对工程师进行勒索后,AI 安全研究公司Anthropic 再次发布最新研究,指出这类具破坏性的行为并非特定AI... |