分享此頁

熱門新聞

面對DeepSeek崛起,阿爾特曼認為OpenAI應該開源 @ 2025-02-03T 返回 熱門新聞
關鍵詞:模型
概念:馬斯克政府 , 美國財政部支付系統權限
OPENAI 透露,他們在 DEEPSEEK 模型中發現了「知識蒸餾」(DISTILLATION) 技術的使用痕跡。這種技術讓開發者能透過較大型且更具能力的模型輸出,來提升小型模型的效能,以較低成本達到特定任務的相似結果。也就是說 OPENAI 認為他們本身的 GPT-4O 等大型模型被 DEEPSEEK 透過「蒸餾」方式訓練模型,如果屬實,則有機會引起違反 OPENAI 使用守則的爭議。
OPENAI向英國《金融時報》表示,已經看到了一些「蒸餾」的證據,懷疑該等證據來自DEEPSEEK。 報道指出,開發人員使用該技術,透過使用更大、能力更強的模型的輸出,在較小的模型上獲得更好的性能,從而使他們能夠以更低的成本在特定任務上獲得類似的結果。「蒸餾」是業界常見的做法,但擔心的是DEEPSEEK這樣做可能是為了建立自己成為競爭對手模型,而違反OPENAI的服務條款。
中國國產大模型公司深度求索(DEEPSEEK)近日在短短一個月內接連推出V3和R1兩款大模型,迅速引發全球矚目。內媒《澎湃新聞》報道,DEEPSEEK-R1在數學、代碼、自然語言推理等多項任務的性能已達到OPENAI GPT-4O模型的水平,且以低成本、高性能和開放性贏得了廣泛贊譽,甚至成為史丹福大學和麻省理工學院研究人員的首選模型。
DEEPSEEK也被一些技術專家懷疑其模型可能從美國先進的模型中學習到了部分成果,即采用了所謂的「蒸餾技術」。該技術是指通過從更成熟、更強大的人工智慧模型中提煉數據來訓練新的AI模型,由舊模型評估新模型得出的答案的品質,從而有效地轉移舊模型所掌握的學習成果。這意味著新模型可以從舊模型中獲益,而無需承擔構建舊模型所投入的大量時間、算力等成本。
中國初創企業DEEPSEEK表示,研發推出的人工智能(AI)模型使用數據較少,成本只是其他AI模型的一小部分,使用的NVIDIA晶片數量遠低於美國公司,在圖像生成指標測試超越對手。旗下AI應用程式在蘋果應用商店的下載量超越OPENAI研發的CHATGPT,並在中國及美國地區的免費應用程式排行榜首。
DEEPSEEK是幻方量化旗下子公司深度求索開發一系列人工智能大型語言模型,自1月起在美國發布開源模型DEEPSEEK-R1後,成為其中一款下載最多免費應用程式。它在執行數學、編碼及自然語言推理等任務時,性能可與美國OPENAI最新模型媲美。
阿里巴巴在大年初一發布「通義千問」的最新版QWEN 2.5-MAX,在公告中表明其性能幾乎在所有方面都優勝過DEEPSEEK 較舊款的V3模型,以及OPENAI和META最先進開源AI模型GPT-4O、LLAMA3.1-405B。
DEEPSEEK成立於2023年5月,是一家大模型創業公司,創始人之一是來自廣東湛江吳川的梁文鋒。去年12月27日推出開源模型DEEPSEEK-V3,放棄業內普遍使用的「監督微調」訓練范式,直接通過「強化學習」讓模型自主進化出推理能力。分析指,這是美國對華芯片出口限制下所激發出的創新。
阿里巴巴(BABA)(9988.HK)周三發布新版本的QWEN 2.5人工智能模型,稱該模型超越近來熱門的DEEPSEEK-V3。
據了解,「JANUS-PRO」是「JANUSFLOW」大模型的高級版本,並於2024年11月13日正式發布。相較於之前的模型版本,「JANUS-PRO」經過優化訓練策略並擴大了訓練數據范圍,同時模型參數數量也有所提升。
近來 DEEPSEEK 以「開放」 AI 模型一鳴驚人,再到意大利數據保護局以保護用戶隱私為由將其暫為下架,然後 MICROSOFT 將之納入 COPILOT+ PC、AZURE 和 GITHUB,在這個農歷新年搶盡風頭。面對中國 AI 模型的強勢,OPENAI 在 1 月 31 日如約推出 O3-MINI 模型,而完整版本的 O3 就會稍後時間發布,在這個時間點面世,也正好用來回應近來火熱的 DEEPSEEK。
該模型是一種開源模型,其性能在數學、代碼、自然語言推理等任務上能夠比肩OPENAI O1模型正式版,並采用了MIT許可協議,支持免費商用、任意修改和衍生開發等。目前,在排名榜CHATBOT ARENA上,DEEPSEEK-R1的基准測試排名已經升至全類別大模型第三位。
DEEPSEEK 推出的 AI 模型成本低廉,而且性能與 OPENAI 相當,令矽谷震驚且憂慮。SCALE AI 行政總裁 ALEXANDR WANG 接受 CNBC 訪問時稱:「據我的了解,DEEPSEEK 擁有約 50,000 H100 晶片,但他們不能說,因為這顯然是違反美國的出口管制。」這番言論令外界關注,DEEPSEEK 究竟是否從不法途徑取得 H100,繼而開發 AI 模型。NVIDIA 發言人今日(28日)則表示,DEEPSEEK 發布的新模型是出色的 AI 進步,兼且符合美國技術出口管制要求。這表明 DEEPSEEK 在開發技術時,並未違反美國政府限制獲取美國先進晶片的規定。
中國公司深度求索(DEEPSEEK)1月20日發布最新的DEEPSEEK-R1模型後,因其開發成本低、性能直追OPENAI等公司的產品,備受矽谷關注。主導META AI研究的首席科學家、圖靈獎得主楊立昆(YANN LECUN)認為,DEEPSEEK帶來的最大啟示是開源模型正在超越專有模型。
阿里日前發布新版本的QWEN 2.5人工智能模型,稱QWEN 2.5-MAX的性能幾乎全面優於OPENAI的GPT-4O、DEEPSEEK-V3和META(META.US)的LLAMA-3.1-405B。 此外,阿里雲發布百煉QWEN-MAX系列模型價格調整通知,QWEN-MAX、QWEN-MAX-2025-01-25、QWEN-MAX-LATEST三款模型輸入輸出價格調整,QWEN-MAX BATCH和CACHE同步降價。

流動版 | 完全版
論壇守則 | 關於我們 | 聯繫方式 | 服務條款 | 私隱條款 | 免責聲明 | 網頁指南
版權所有 不得轉載 (C) 2025 Suntek Computer Systems Limited.
免責聲明 : 88iv設立此一網站,旨在以最快捷的方式為公眾人士提供清楚準確的最新資料,但在整理資料及編寫程式時或會有無心之失。故88iv特此聲明,此一網站所載的資料如有任何不確之處、遺漏或誤植錯字,並引致任何直接或間接的損失或虧損,88iv概不負責,亦不會作出任何賠償(不論根據侵權法、合約或其他規定亦然)。此外,88iv並不保證本網站所載的資料乃屬正確無誤及完整無缺,亦不擔保可以及時將資料上網及內容適合有關用途。