易发投资 - 新闻热点

AI 对齐只是让 ChatGPT 戴上面具：揭开吸饱人类恶意底下的危险怪物 @ 2025-06-30T 返回新闻热点

关键词：威胁模型勒索人类工程师

概念：勒索工程师 , 威胁人类

近日一份由软体开发商AE Studio 所公开的研究显示，只需微幅调整训练方向，就足以让GPT-4o 展现极端、敌意甚至种族灭绝言论，暴露出当前AI 对齐(AI...

在最近的压力测试中，世界上最先进的人工智慧（AI）模型显示出令人担忧的新行为，包括撒谎、策划和甚至威胁其开发者以达成目标，这些行为的出现引发了对AI...

有了这种能力与趋势，AI发动叛变甚至主宰人类的那一天，还会远吗？对于AI工程师来说，最贴身也最令人毛骨悚然、冷汗直流的真实案例，发生在AI顶尖...

如果开发AI的企业或开发者，竟然不了解AI的运作原理或错误的根源，那会是怎么样的情况？恐成为一场不折不扣的灾难。文．卓越媒体集团徐邦浩社长.

美国AI公司Anthropic近日发表研究，发现现在市面上最厉害的AI语言模型，像是Claude、OpenAI、Google、Meta、xAI等16种AI，主流AI模型压力测试，在模拟企业...

人工智能无论在效能和普及度方面都快速发展，不过其复杂的结构令AI 企业也难以掌握其内部运作机制，令其有如“黑盒”般难以让外界理解和预测结果。

近年生成式人工智慧快速进化，不过其潜在风险也逐渐浮上台面。AI新创公司Anthropic日前公布最新报告指出，旗下最新模型Claude Opus 4在压力测试中，...

Anthropic实验Claude Opus 4与其他AI模型，模拟在拥有自主权与公司邮件时被关闭情境，统计显示多数模型会在最后阶段采取勒索等有害手段，凸显未来AI风险...

近期一项由Anthropic主导的实验揭露，当大型语言模型（LLMs）在模拟任务中遭遇威胁或目标冲突时，可能会展现出包括勒索、间谍行为，甚至采取间接导致人类...

在先前揭示Claude Opus 4 AI 模型曾在受控测试中对工程师进行勒索后，AI 安全研究公司Anthropic 再次发布最新研究，指出这类具破坏性的行为并非特定AI...

流动版 | 完全版

论坛守则 | 关于我们 | 联系方式 | 服务条款 | 私隐条款 | 免责声明 | 网页指南

版权所有不得转载 (C) 2025 Suntek Computer Systems Limited.

免责声明 : 88iv设立此一网站，旨在以最快捷的方式为公众人士提供清楚准确的最新资料，但在整理资料及编写程式时或会有无心之失。故88iv特此声明，此一网站所载的资料如有任何不确之处、遗漏或误植错字，并引致任何直接或间接的损失或亏损，88iv概不负责，亦不会作出任何赔偿（不论根据侵权法、合约或其他规定亦然）。此外，88iv并不保证本网站所载的资料乃属正确无误及完整无缺，亦不担保可以及时将资料上网及内容适合有关用途。