易发投资 - 新闻热点

面对DeepSeek崛起，阿尔特曼认为OpenAI应该开源 @ 2025-02-03T 返回新闻热点

关键词：模型

概念：马斯克政府 , 美国财政部支付系统权限

ＯＰＥＮＡＩ透露，他们在ＤＥＥＰＳＥＥＫ模型中发现了“知识蒸馏”(ＤＩＳＴＩＬＬＡＴＩＯＮ) 技术的使用痕迹。这种技术让开发者能透过较大型且更具能力的模型输出，来提升小型模型的效能，以较低成本达到特定任务的相似结果。也就是说ＯＰＥＮＡＩ认为他们本身的ＧＰＴ-４Ｏ等大型模型被ＤＥＥＰＳＥＥＫ透过“蒸馏”方式训练模型，如果属实，则有机会引起违反ＯＰＥＮＡＩ使用守则的争议。

ＯＰＥＮＡＩ向英国《金融时报》表示，已经看到了一些“蒸馏”的证据，怀疑该等证据来自ＤＥＥＰＳＥＥＫ。报道指出，开发人员使用该技术，透过使用更大、能力更强的模型的输出，在较小的模型上获得更好的性能，从而使他们能够以更低的成本在特定任务上获得类似的结果。“蒸馏”是业界常见的做法，但担心的是ＤＥＥＰＳＥＥＫ这样做可能是为了建立自己成为竞争对手模型，而违反ＯＰＥＮＡＩ的服务条款。

中国国产大模型公司深度求索（ＤＥＥＰＳＥＥＫ）近日在短短一个月内接连推出Ｖ３和Ｒ１两款大模型，迅速引发全球瞩目。内媒《澎湃新闻》报道，ＤＥＥＰＳＥＥＫ-Ｒ１在数学、代码、自然语言推理等多项任务的性能已达到ＯＰＥＮＡＩＧＰＴ-４Ｏ模型的水平，且以低成本、高性能和开放性赢得了广泛赞誉，甚至成为史丹福大学和麻省理工学院研究人员的首选模型。

ＤＥＥＰＳＥＥＫ也被一些技术专家怀疑其模型可能从美国先进的模型中学习到了部分成果，即采用了所谓的“蒸馏技术”。该技术是指通过从更成熟、更强大的人工智慧模型中提炼数据来训练新的ＡＩ模型，由旧模型评估新模型得出的答案的品质，从而有效地转移旧模型所掌握的学习成果。这意味着新模型可以从旧模型中获益，而无需承担构建旧模型所投入的大量时间、算力等成本。

中国初创企业ＤＥＥＰＳＥＥＫ表示，研发推出的人工智能(ＡＩ)模型使用数据较少，成本只是其他ＡＩ模型的一小部分，使用的ＮＶＩＤＩＡ晶片数量远低于美国公司，在图像生成指标测试超越对手。旗下ＡＩ应用程式在苹果应用商店的下载量超越ＯＰＥＮＡＩ研发的ＣＨＡＴＧＰＴ，并在中国及美国地区的免费应用程式排行榜首。

ＤＥＥＰＳＥＥＫ是幻方量化旗下子公司深度求索开发一系列人工智能大型语言模型，自１月起在美国发布开源模型ＤＥＥＰＳＥＥＫ-Ｒ１后，成为其中一款下载最多免费应用程式。它在执行数学、编码及自然语言推理等任务时，性能可与美国ＯＰＥＮＡＩ最新模型媲美。

阿里巴巴在大年初一发布“通义千问”的最新版ＱＷＥＮ２．５-ＭＡＸ，在公告中表明其性能几乎在所有方面都优胜过ＤＥＥＰＳＥＥＫ较旧款的Ｖ３模型，以及ＯＰＥＮＡＩ和ＭＥＴＡ最先进开源ＡＩ模型ＧＰＴ-４Ｏ、ＬＬＡＭＡ３．１-４０５Ｂ。

ＤＥＥＰＳＥＥＫ成立于２０２３年５月，是一家大模型创业公司，创始人之一是来自广东湛江吴川的梁文锋。去年１２月２７日推出开源模型ＤＥＥＰＳＥＥＫ-Ｖ３，放弃业内普遍使用的“监督微调”训练范式，直接通过“强化学习”让模型自主进化出推理能力。分析指，这是美国对华芯片出口限制下所激发出的创新。

阿里巴巴(ＢＡＢＡ)(９９８８．ＨＫ)周三发布新版本的ＱＷＥＮ２．５人工智能模型，称该模型超越近来热门的ＤＥＥＰＳＥＥＫ-Ｖ３。

据了解，“ＪＡＮＵＳ-ＰＲＯ”是“ＪＡＮＵＳＦＬＯＷ”大模型的高级版本，并于２０２４年１１月１３日正式发布。相较于之前的模型版本，“ＪＡＮＵＳ-ＰＲＯ”经过优化训练策略并扩大了训练数据范围，同时模型参数数量也有所提升。

近来ＤＥＥＰＳＥＥＫ以“开放” ＡＩ模型一鸣惊人，再到意大利数据保护局以保护用户隐私为由将其暂为下架，然后ＭＩＣＲＯＳＯＦＴ将之纳入ＣＯＰＩＬＯＴ+ ＰＣ、ＡＺＵＲＥ和ＧＩＴＨＵＢ，在这个农历新年抢尽风头。面对中国ＡＩ模型的强势，ＯＰＥＮＡＩ在１月３１日如约推出Ｏ３-ＭＩＮＩ模型，而完整版本的Ｏ３就会稍后时间发布，在这个时间点面世，也正好用来回应近来火热的ＤＥＥＰＳＥＥＫ。

该模型是一种开源模型，其性能在数学、代码、自然语言推理等任务上能够比肩ＯＰＥＮＡＩＯ１模型正式版，并采用了ＭＩＴ许可协议，支持免费商用、任意修改和衍生开发等。目前，在排名榜ＣＨＡＴＢＯＴＡＲＥＮＡ上，ＤＥＥＰＳＥＥＫ-Ｒ１的基准测试排名已经升至全类别大模型第三位。

ＤＥＥＰＳＥＥＫ推出的ＡＩ模型成本低廉，而且性能与ＯＰＥＮＡＩ相当，令矽谷震惊且忧虑。ＳＣＡＬＥＡＩ行政总裁ＡＬＥＸＡＮＤＲＷＡＮＧ接受ＣＮＢＣ访问时称：“据我的了解，ＤＥＥＰＳＥＥＫ拥有约５０,０００Ｈ１００晶片，但他们不能说，因为这显然是违反美国的出口管制。”这番言论令外界关注，ＤＥＥＰＳＥＥＫ究竟是否从不法途径取得Ｈ１００，继而开发ＡＩ模型。ＮＶＩＤＩＡ发言人今日（２８日）则表示，ＤＥＥＰＳＥＥＫ发布的新模型是出色的ＡＩ进步，兼且符合美国技术出口管制要求。这表明ＤＥＥＰＳＥＥＫ在开发技术时，并未违反美国政府限制获取美国先进晶片的规定。

中国公司深度求索（ＤＥＥＰＳＥＥＫ）１月２０日发布最新的ＤＥＥＰＳＥＥＫ-Ｒ１模型后，因其开发成本低、性能直追ＯＰＥＮＡＩ等公司的产品，备受矽谷关注。主导ＭＥＴＡＡＩ研究的首席科学家、图灵奖得主杨立昆（ＹＡＮＮＬＥＣＵＮ）认为，ＤＥＥＰＳＥＥＫ带来的最大启示是开源模型正在超越专有模型。

阿里日前发布新版本的ＱＷＥＮ２．５人工智能模型，称ＱＷＥＮ２．５-ＭＡＸ的性能几乎全面优于ＯＰＥＮＡＩ的ＧＰＴ-４Ｏ、ＤＥＥＰＳＥＥＫ-Ｖ３和ＭＥＴＡ(ＭＥＴＡ．ＵＳ)的ＬＬＡＭＡ-３．１-４０５Ｂ。此外，阿里云发布百炼ＱＷＥＮ-ＭＡＸ系列模型价格调整通知，ＱＷＥＮ-ＭＡＸ、ＱＷＥＮ-ＭＡＸ-２０２５-０１-２５、ＱＷＥＮ-ＭＡＸ-ＬＡＴＥＳＴ三款模型输入输出价格调整，ＱＷＥＮ-ＭＡＸＢＡＴＣＨ和ＣＡＣＨＥ同步降价。

流动版 | 完全版

论坛守则 | 关于我们 | 联系方式 | 服务条款 | 私隐条款 | 免责声明 | 网页指南

版权所有不得转载 (C) 2025 Suntek Computer Systems Limited.

免责声明 : 88iv设立此一网站，旨在以最快捷的方式为公众人士提供清楚准确的最新资料，但在整理资料及编写程式时或会有无心之失。故88iv特此声明，此一网站所载的资料如有任何不确之处、遗漏或误植错字，并引致任何直接或间接的损失或亏损，88iv概不负责，亦不会作出任何赔偿（不论根据侵权法、合约或其他规定亦然）。此外，88iv并不保证本网站所载的资料乃属正确无误及完整无缺，亦不担保可以及时将资料上网及内容适合有关用途。