|
關鍵詞:威脅 模型 勒索 人類 工程師 |
概念:威脅人類 , 勒索工程師 |
近日一份由軟體開發商AE Studio 所公開的研究顯示,只需微幅調整訓練方向,就足以讓GPT-4o 展現極端、敵意甚至種族滅絕言論,暴露出當前AI 對齊(AI... |
在最近的壓力測試中,世界上最先進的人工智慧(AI)模型顯示出令人擔憂的新行為,包括撒謊、策劃和甚至威脅其開發者以達成目標,這些行為的出現引發了對AI... |
有了這種能力與趨勢,AI發動叛變甚至主宰人類的那一天,還會遠嗎? 對於AI工程師來說,最貼身也最令人毛骨悚然、冷汗直流的真實案例,發生在AI頂尖... |
如果開發AI的企業或開發者,竟然不了解AI的運作原理或錯誤的根源,那會是怎麼樣的情況?恐成為一場不折不扣的災難。 文.卓越媒體集團徐邦浩社長. |
美國AI公司Anthropic近日發表研究,發現現在市面上最厲害的AI語言模型,像是Claude、OpenAI、Google、Meta、xAI等16種AI,主流AI模型壓力測試,在模擬企業... |
人工智能無論在效能和普及度方面都快速發展,不過其復雜的結構令AI 企業也難以掌握其內部運作機制,令其有如「黑盒」般難以讓外界理解和預測結果。 |
近年生成式人工智慧快速進化,不過其潛在風險也逐漸浮上台面。AI新創公司Anthropic日前公布最新報告指出,旗下最新模型Claude Opus 4在壓力測試中,... |
Anthropic實驗Claude Opus 4與其他AI模型,模擬在擁有自主權與公司郵件時被關閉情境,統計顯示多數模型會在最後階段采取勒索等有害手段,凸顯未來AI風險... |
近期一項由Anthropic主導的實驗揭露,當大型語言模型(LLMs)在模擬任務中遭遇威脅或目標沖突時,可能會展現出包括勒索、間諜行為,甚至采取間接導致人類... |
在先前揭示Claude Opus 4 AI 模型曾在受控測試中對工程師進行勒索後,AI 安全研究公司Anthropic 再次發布最新研究,指出這類具破壞性的行為並非特定AI... |