88IV - Hot News

面對DeepSeek崛起，阿爾特曼認為OpenAI應該開源 @ 2025-02-03T Back Hot News

Keyword：模型

Concept：馬斯克政府 , 美國財政部支付系統權限

ＯＰＥＮＡＩ透露，他們在ＤＥＥＰＳＥＥＫ模型中發現了「知識蒸餾」(ＤＩＳＴＩＬＬＡＴＩＯＮ) 技術的使用痕跡。這種技術讓開發者能透過較大型且更具能力的模型輸出，來提升小型模型的效能，以較低成本達到特定任務的相似結果。也就是說ＯＰＥＮＡＩ認為他們本身的ＧＰＴ-４Ｏ等大型模型被ＤＥＥＰＳＥＥＫ透過「蒸餾」方式訓練模型，如果屬實，則有機會引起違反ＯＰＥＮＡＩ使用守則的爭議。

ＯＰＥＮＡＩ向英國《金融時報》表示，已經看到了一些「蒸餾」的證據，懷疑該等證據來自ＤＥＥＰＳＥＥＫ。報道指出，開發人員使用該技術，透過使用更大、能力更強的模型的輸出，在較小的模型上獲得更好的性能，從而使他們能夠以更低的成本在特定任務上獲得類似的結果。「蒸餾」是業界常見的做法，但擔心的是ＤＥＥＰＳＥＥＫ這樣做可能是為了建立自己成為競爭對手模型，而違反ＯＰＥＮＡＩ的服務條款。

中國國產大模型公司深度求索（ＤＥＥＰＳＥＥＫ）近日在短短一個月內接連推出Ｖ３和Ｒ１兩款大模型，迅速引發全球矚目。內媒《澎湃新聞》報道，ＤＥＥＰＳＥＥＫ-Ｒ１在數學、代碼、自然語言推理等多項任務的性能已達到ＯＰＥＮＡＩＧＰＴ-４Ｏ模型的水平，且以低成本、高性能和開放性贏得了廣泛贊譽，甚至成為史丹福大學和麻省理工學院研究人員的首選模型。

ＤＥＥＰＳＥＥＫ也被一些技術專家懷疑其模型可能從美國先進的模型中學習到了部分成果，即采用了所謂的「蒸餾技術」。該技術是指通過從更成熟、更強大的人工智慧模型中提煉數據來訓練新的ＡＩ模型，由舊模型評估新模型得出的答案的品質，從而有效地轉移舊模型所掌握的學習成果。這意味著新模型可以從舊模型中獲益，而無需承擔構建舊模型所投入的大量時間、算力等成本。

中國初創企業ＤＥＥＰＳＥＥＫ表示，研發推出的人工智能(ＡＩ)模型使用數據較少，成本只是其他ＡＩ模型的一小部分，使用的ＮＶＩＤＩＡ晶片數量遠低於美國公司，在圖像生成指標測試超越對手。旗下ＡＩ應用程式在蘋果應用商店的下載量超越ＯＰＥＮＡＩ研發的ＣＨＡＴＧＰＴ，並在中國及美國地區的免費應用程式排行榜首。

ＤＥＥＰＳＥＥＫ是幻方量化旗下子公司深度求索開發一系列人工智能大型語言模型，自１月起在美國發布開源模型ＤＥＥＰＳＥＥＫ-Ｒ１後，成為其中一款下載最多免費應用程式。它在執行數學、編碼及自然語言推理等任務時，性能可與美國ＯＰＥＮＡＩ最新模型媲美。

阿里巴巴在大年初一發布「通義千問」的最新版ＱＷＥＮ２．５-ＭＡＸ，在公告中表明其性能幾乎在所有方面都優勝過ＤＥＥＰＳＥＥＫ較舊款的Ｖ３模型，以及ＯＰＥＮＡＩ和ＭＥＴＡ最先進開源ＡＩ模型ＧＰＴ-４Ｏ、ＬＬＡＭＡ３．１-４０５Ｂ。

ＤＥＥＰＳＥＥＫ成立於２０２３年５月，是一家大模型創業公司，創始人之一是來自廣東湛江吳川的梁文鋒。去年１２月２７日推出開源模型ＤＥＥＰＳＥＥＫ-Ｖ３，放棄業內普遍使用的「監督微調」訓練范式，直接通過「強化學習」讓模型自主進化出推理能力。分析指，這是美國對華芯片出口限制下所激發出的創新。

阿里巴巴(ＢＡＢＡ)(９９８８．ＨＫ)周三發布新版本的ＱＷＥＮ２．５人工智能模型，稱該模型超越近來熱門的ＤＥＥＰＳＥＥＫ-Ｖ３。

據了解，「ＪＡＮＵＳ-ＰＲＯ」是「ＪＡＮＵＳＦＬＯＷ」大模型的高級版本，並於２０２４年１１月１３日正式發布。相較於之前的模型版本，「ＪＡＮＵＳ-ＰＲＯ」經過優化訓練策略並擴大了訓練數據范圍，同時模型參數數量也有所提升。

近來ＤＥＥＰＳＥＥＫ以「開放」ＡＩ模型一鳴驚人，再到意大利數據保護局以保護用戶隱私為由將其暫為下架，然後ＭＩＣＲＯＳＯＦＴ將之納入ＣＯＰＩＬＯＴ+ ＰＣ、ＡＺＵＲＥ和ＧＩＴＨＵＢ，在這個農歷新年搶盡風頭。面對中國ＡＩ模型的強勢，ＯＰＥＮＡＩ在１月３１日如約推出Ｏ３-ＭＩＮＩ模型，而完整版本的Ｏ３就會稍後時間發布，在這個時間點面世，也正好用來回應近來火熱的ＤＥＥＰＳＥＥＫ。

該模型是一種開源模型，其性能在數學、代碼、自然語言推理等任務上能夠比肩ＯＰＥＮＡＩＯ１模型正式版，並采用了ＭＩＴ許可協議，支持免費商用、任意修改和衍生開發等。目前，在排名榜ＣＨＡＴＢＯＴＡＲＥＮＡ上，ＤＥＥＰＳＥＥＫ-Ｒ１的基准測試排名已經升至全類別大模型第三位。

ＤＥＥＰＳＥＥＫ推出的ＡＩ模型成本低廉，而且性能與ＯＰＥＮＡＩ相當，令矽谷震驚且憂慮。ＳＣＡＬＥＡＩ行政總裁ＡＬＥＸＡＮＤＲＷＡＮＧ接受ＣＮＢＣ訪問時稱：「據我的了解，ＤＥＥＰＳＥＥＫ擁有約５０,０００Ｈ１００晶片，但他們不能說，因為這顯然是違反美國的出口管制。」這番言論令外界關注，ＤＥＥＰＳＥＥＫ究竟是否從不法途徑取得Ｈ１００，繼而開發ＡＩ模型。ＮＶＩＤＩＡ發言人今日（２８日）則表示，ＤＥＥＰＳＥＥＫ發布的新模型是出色的ＡＩ進步，兼且符合美國技術出口管制要求。這表明ＤＥＥＰＳＥＥＫ在開發技術時，並未違反美國政府限制獲取美國先進晶片的規定。

中國公司深度求索（ＤＥＥＰＳＥＥＫ）１月２０日發布最新的ＤＥＥＰＳＥＥＫ-Ｒ１模型後，因其開發成本低、性能直追ＯＰＥＮＡＩ等公司的產品，備受矽谷關注。主導ＭＥＴＡＡＩ研究的首席科學家、圖靈獎得主楊立昆（ＹＡＮＮＬＥＣＵＮ）認為，ＤＥＥＰＳＥＥＫ帶來的最大啟示是開源模型正在超越專有模型。

阿里日前發布新版本的ＱＷＥＮ２．５人工智能模型，稱ＱＷＥＮ２．５-ＭＡＸ的性能幾乎全面優於ＯＰＥＮＡＩ的ＧＰＴ-４Ｏ、ＤＥＥＰＳＥＥＫ-Ｖ３和ＭＥＴＡ(ＭＥＴＡ．ＵＳ)的ＬＬＡＭＡ-３．１-４０５Ｂ。此外，阿里雲發布百煉ＱＷＥＮ-ＭＡＸ系列模型價格調整通知，ＱＷＥＮ-ＭＡＸ、ＱＷＥＮ-ＭＡＸ-２０２５-０１-２５、ＱＷＥＮ-ＭＡＸ-ＬＡＴＥＳＴ三款模型輸入輸出價格調整，ＱＷＥＮ-ＭＡＸＢＡＴＣＨ和ＣＡＣＨＥ同步降價。

Mobile | Full

Forum rule | About Us | Contact Info | Terms & Conditions | Privacy Statment | Disclaimer | Site Map

Copyright (C) 2025 Suntek Computer Systems Limited. All rights reserved

Disclaimer : In the preparation of this website, 88iv endeavours to offer the most current, correct and clearly expressed information to the public. Nevertheless, inadvertent errors in information and in software may occur. In particular but without limiting anything here, 88iv disclaims any responsibility and accepts no liability (whether in tort, contract or otherwise) for any direct or indirect loss or damage arising from any inaccuracies, omissions or typographical errors that may be contained in this website. 88iv also does not warrant the accuracy, completeness, timeliness or fitness for purpose of the information contained in this website.