分享此页

新闻热点

面对DeepSeek崛起,阿尔特曼认为OpenAI应该开源 @ 2025-02-03T 返回 新闻热点
关键词:模型
概念:马斯克政府 , 美国财政部支付系统权限
OPENAI 透露,他们在 DEEPSEEK 模型中发现了“知识蒸馏”(DISTILLATION) 技术的使用痕迹。这种技术让开发者能透过较大型且更具能力的模型输出,来提升小型模型的效能,以较低成本达到特定任务的相似结果。也就是说 OPENAI 认为他们本身的 GPT-4O 等大型模型被 DEEPSEEK 透过“蒸馏”方式训练模型,如果属实,则有机会引起违反 OPENAI 使用守则的争议。
OPENAI向英国《金融时报》表示,已经看到了一些“蒸馏”的证据,怀疑该等证据来自DEEPSEEK。 报道指出,开发人员使用该技术,透过使用更大、能力更强的模型的输出,在较小的模型上获得更好的性能,从而使他们能够以更低的成本在特定任务上获得类似的结果。“蒸馏”是业界常见的做法,但担心的是DEEPSEEK这样做可能是为了建立自己成为竞争对手模型,而违反OPENAI的服务条款。
中国国产大模型公司深度求索(DEEPSEEK)近日在短短一个月内接连推出V3和R1两款大模型,迅速引发全球瞩目。内媒《澎湃新闻》报道,DEEPSEEK-R1在数学、代码、自然语言推理等多项任务的性能已达到OPENAI GPT-4O模型的水平,且以低成本、高性能和开放性赢得了广泛赞誉,甚至成为史丹福大学和麻省理工学院研究人员的首选模型。
DEEPSEEK也被一些技术专家怀疑其模型可能从美国先进的模型中学习到了部分成果,即采用了所谓的“蒸馏技术”。该技术是指通过从更成熟、更强大的人工智慧模型中提炼数据来训练新的AI模型,由旧模型评估新模型得出的答案的品质,从而有效地转移旧模型所掌握的学习成果。这意味着新模型可以从旧模型中获益,而无需承担构建旧模型所投入的大量时间、算力等成本。
中国初创企业DEEPSEEK表示,研发推出的人工智能(AI)模型使用数据较少,成本只是其他AI模型的一小部分,使用的NVIDIA晶片数量远低于美国公司,在图像生成指标测试超越对手。旗下AI应用程式在苹果应用商店的下载量超越OPENAI研发的CHATGPT,并在中国及美国地区的免费应用程式排行榜首。
DEEPSEEK是幻方量化旗下子公司深度求索开发一系列人工智能大型语言模型,自1月起在美国发布开源模型DEEPSEEK-R1后,成为其中一款下载最多免费应用程式。它在执行数学、编码及自然语言推理等任务时,性能可与美国OPENAI最新模型媲美。
阿里巴巴在大年初一发布“通义千问”的最新版QWEN 2.5-MAX,在公告中表明其性能几乎在所有方面都优胜过DEEPSEEK 较旧款的V3模型,以及OPENAI和META最先进开源AI模型GPT-4O、LLAMA3.1-405B。
DEEPSEEK成立于2023年5月,是一家大模型创业公司,创始人之一是来自广东湛江吴川的梁文锋。去年12月27日推出开源模型DEEPSEEK-V3,放弃业内普遍使用的“监督微调”训练范式,直接通过“强化学习”让模型自主进化出推理能力。分析指,这是美国对华芯片出口限制下所激发出的创新。
阿里巴巴(BABA)(9988.HK)周三发布新版本的QWEN 2.5人工智能模型,称该模型超越近来热门的DEEPSEEK-V3。
据了解,“JANUS-PRO”是“JANUSFLOW”大模型的高级版本,并于2024年11月13日正式发布。相较于之前的模型版本,“JANUS-PRO”经过优化训练策略并扩大了训练数据范围,同时模型参数数量也有所提升。
近来 DEEPSEEK 以“开放” AI 模型一鸣惊人,再到意大利数据保护局以保护用户隐私为由将其暂为下架,然后 MICROSOFT 将之纳入 COPILOT+ PC、AZURE 和 GITHUB,在这个农历新年抢尽风头。面对中国 AI 模型的强势,OPENAI 在 1 月 31 日如约推出 O3-MINI 模型,而完整版本的 O3 就会稍后时间发布,在这个时间点面世,也正好用来回应近来火热的 DEEPSEEK。
该模型是一种开源模型,其性能在数学、代码、自然语言推理等任务上能够比肩OPENAI O1模型正式版,并采用了MIT许可协议,支持免费商用、任意修改和衍生开发等。目前,在排名榜CHATBOT ARENA上,DEEPSEEK-R1的基准测试排名已经升至全类别大模型第三位。
DEEPSEEK 推出的 AI 模型成本低廉,而且性能与 OPENAI 相当,令矽谷震惊且忧虑。SCALE AI 行政总裁 ALEXANDR WANG 接受 CNBC 访问时称:“据我的了解,DEEPSEEK 拥有约 50,000 H100 晶片,但他们不能说,因为这显然是违反美国的出口管制。”这番言论令外界关注,DEEPSEEK 究竟是否从不法途径取得 H100,继而开发 AI 模型。NVIDIA 发言人今日(28日)则表示,DEEPSEEK 发布的新模型是出色的 AI 进步,兼且符合美国技术出口管制要求。这表明 DEEPSEEK 在开发技术时,并未违反美国政府限制获取美国先进晶片的规定。
中国公司深度求索(DEEPSEEK)1月20日发布最新的DEEPSEEK-R1模型后,因其开发成本低、性能直追OPENAI等公司的产品,备受矽谷关注。主导META AI研究的首席科学家、图灵奖得主杨立昆(YANN LECUN)认为,DEEPSEEK带来的最大启示是开源模型正在超越专有模型。
阿里日前发布新版本的QWEN 2.5人工智能模型,称QWEN 2.5-MAX的性能几乎全面优于OPENAI的GPT-4O、DEEPSEEK-V3和META(META.US)的LLAMA-3.1-405B。 此外,阿里云发布百炼QWEN-MAX系列模型价格调整通知,QWEN-MAX、QWEN-MAX-2025-01-25、QWEN-MAX-LATEST三款模型输入输出价格调整,QWEN-MAX BATCH和CACHE同步降价。

流动版 | 完全版
论坛守则 | 关于我们 | 联系方式 | 服务条款 | 私隐条款 | 免责声明 | 网页指南
版权所有 不得转载 (C) 2025 Suntek Computer Systems Limited.
免责声明 : 88iv设立此一网站,旨在以最快捷的方式为公众人士提供清楚准确的最新资料,但在整理资料及编写程式时或会有无心之失。故88iv特此声明,此一网站所载的资料如有任何不确之处、遗漏或误植错字,并引致任何直接或间接的损失或亏损,88iv概不负责,亦不会作出任何赔偿(不论根据侵权法、合约或其他规定亦然)。此外,88iv并不保证本网站所载的资料乃属正确无误及完整无缺,亦不担保可以及时将资料上网及内容适合有关用途。