易發投資 - 熱門新聞

AI 對齊只是讓 ChatGPT 戴上面具：揭開吸飽人類惡意底下的危險怪物 @ 2025-06-30T 返回熱門新聞

關鍵詞：威脅模型勒索人類工程師

概念：威脅人類 , 勒索工程師

近日一份由軟體開發商AE Studio 所公開的研究顯示，只需微幅調整訓練方向，就足以讓GPT-4o 展現極端、敵意甚至種族滅絕言論，暴露出當前AI 對齊(AI...

在最近的壓力測試中，世界上最先進的人工智慧（AI）模型顯示出令人擔憂的新行為，包括撒謊、策劃和甚至威脅其開發者以達成目標，這些行為的出現引發了對AI...

有了這種能力與趨勢，AI發動叛變甚至主宰人類的那一天，還會遠嗎？對於AI工程師來說，最貼身也最令人毛骨悚然、冷汗直流的真實案例，發生在AI頂尖...

如果開發AI的企業或開發者，竟然不了解AI的運作原理或錯誤的根源，那會是怎麼樣的情況？恐成為一場不折不扣的災難。文．卓越媒體集團徐邦浩社長.

美國AI公司Anthropic近日發表研究，發現現在市面上最厲害的AI語言模型，像是Claude、OpenAI、Google、Meta、xAI等16種AI，主流AI模型壓力測試，在模擬企業...

人工智能無論在效能和普及度方面都快速發展，不過其復雜的結構令AI 企業也難以掌握其內部運作機制，令其有如「黑盒」般難以讓外界理解和預測結果。

近年生成式人工智慧快速進化，不過其潛在風險也逐漸浮上台面。AI新創公司Anthropic日前公布最新報告指出，旗下最新模型Claude Opus 4在壓力測試中，...

Anthropic實驗Claude Opus 4與其他AI模型，模擬在擁有自主權與公司郵件時被關閉情境，統計顯示多數模型會在最後階段采取勒索等有害手段，凸顯未來AI風險...

近期一項由Anthropic主導的實驗揭露，當大型語言模型（LLMs）在模擬任務中遭遇威脅或目標沖突時，可能會展現出包括勒索、間諜行為，甚至采取間接導致人類...

在先前揭示Claude Opus 4 AI 模型曾在受控測試中對工程師進行勒索後，AI 安全研究公司Anthropic 再次發布最新研究，指出這類具破壞性的行為並非特定AI...

流動版 | 完全版

論壇守則 | 關於我們 | 聯繫方式 | 服務條款 | 私隱條款 | 免責聲明 | 網頁指南

版權所有不得轉載 (C) 2025 Suntek Computer Systems Limited.

免責聲明 : 88iv設立此一網站，旨在以最快捷的方式為公眾人士提供清楚準確的最新資料，但在整理資料及編寫程式時或會有無心之失。故88iv特此聲明，此一網站所載的資料如有任何不確之處、遺漏或誤植錯字，並引致任何直接或間接的損失或虧損，88iv概不負責，亦不會作出任何賠償（不論根據侵權法、合約或其他規定亦然）。此外，88iv並不保證本網站所載的資料乃屬正確無誤及完整無缺，亦不擔保可以及時將資料上網及內容適合有關用途。