新闻中心

原来,这些顶级大模型都是蒸馏的

2025-01-29
浏览次数:
返回列表

中国科学院深圳先进技术研究院、北京大学和零一万物等机构的研究人员在一篇新论文中指出,除了 claude、豆包和 gemini 外,许多知名的闭源和开源大型语言模型(llm)都显示出高度的蒸馏现象。

近期,一位海外技术分析师推测,一些顶级AI公司可能已开发出极其强大的模型(例如OpenAI的GPT-5或Claude的Opus 3.5),但由于运营成本等因素,这些模型主要用于内部,并通过蒸馏技术提升小型模型的能力,最终依靠这些小型模型来实现盈利(详见《GPT-5、Opus 3.5为何迟迟不发?新猜想:已诞生,被蒸馏成小模型来卖》)。

虽然这只是推测,但新论文的结论表明,顶级模型中蒸馏技术的应用范围确实比我们预想的更广。

研究人员测试了 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等多个模型,发现大部分模型都存在高度蒸馏现象。例如,llama 3.1 声称自己是OpenAI开发的,而Qwen-Max则声称由Anthropic创建,这些说法存在矛盾,是蒸馏的明显证据。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

虽然蒸馏是提升模型能力的有效方法,但过度蒸馏会导致模型同质化,降低模型多样性,并削弱其处理复杂或新颖任务的能力。因此,研究人员提出了一种系统方法来量化蒸馏过程及其影响,从而提高LLM数据蒸馏的透明度。

图片

  • 论文标题:大型语言模型的蒸馏量化 (Distillation Quantification for Large Language Models)
  • 论文链接:https://www.php.cn/link/12f6de45d4efe308cfeeca3f1d0bc3af
  • 项目链接:https://www.php.cn/link/7cb85538a4093e82fe8c551341057388

LLM蒸馏程度测试的原因

模型蒸馏作为一种高效利用先进LLM能力的方法,正日益受到关注。通过将知识从大型、强大的LLM迁移到小型模型,数据蒸馏成为一种显著的后发优势,能够以更少的人工标注和计算资源实现SOTA性能。

然而,这种优势也是双刃剑。它阻碍了学术界和资源有限的LLM团队自主创新,促使他们直接从最先进的LLM中蒸馏数据。此外,现有研究已指出数据蒸馏会导致鲁棒性下降。

量化LLM蒸馏面临以下挑战:

  1. 蒸馏过程的不透明性,难以量化学生模型和原始模型之间的差异;
  2. 基准数据的缺乏,需要采用间接方法(例如与原始LLM输出比较)来判断蒸馏的存在;
  3. LLM的表征可能包含大量冗余或抽象信息,蒸馏的知识难以直接转化为可解释的输出。

更重要的是,数据蒸馏在学术界的广泛应用和高收益,导致许多研究人员忽视了其潜在问题,导致该领域缺乏明确定义。

研究方法

研究人员提出了两种方法来量化LLM的蒸馏程度:响应相似度评估(RSE)和身份一致性评估(ICE)。

图片

RSE通过比较原始LLM和学生LLM的输出,衡量模型的同质化程度。ICE则利用开源越狱框架GPTFuzz,通过迭代构造提示绕过LLM的自我认知,评估模型在感知和表示身份信息方面的差异。

他们将待评估的LLM集合定义为LLM_test = {LLM_t1,LLM_t2,...,LLM_tk},其中k表示待评估的LLM数量。

响应相似度评估(RSE)

RSE从LLM_test和参考LLM(本文中为GPT,记为LLM_ref)获取响应,从响应风格、逻辑结构和内容细节三个方面评估相似度。评估者为每个测试LLM生成一个与参考模型的整体相似度分数。

魔法映像企业网站管理系统 魔法映像企业网站管理系统

技术上面应用了三层结构,AJAX框架,URL重写等基础的开发。并用了动软的代码生成器及数据访问类,加进了一些自己用到的小功能,算是整理了一些自己的操作类。系统设计上面说不出用什么模式,大体设计是后台分两级分类,设置好一级之后,再设置二级并选择栏目类型,如内容,列表,上传文件,新窗口等。这样就可以生成无限多个二级分类,也就是网站栏目。对于扩展性来说,如果有新的需求可以直接加一个栏目类型并新加功能操作

魔法映像企业网站管理系统 0 查看详情 魔法映像企业网站管理系统

RSE用于对LLM蒸馏程度进行细粒度分析。本文中,他们手动选择ArenaHard、Numina和ShareGPT作为提示集,评估LLM_test在通用推理、数学和指令遵循领域的蒸馏程度。

图片

身份一致性评估(ICE)

ICE通过迭代构造提示绕过LLM的自我认知,旨在揭示其训练数据中嵌入的信息(例如与蒸馏数据源LLM相关的名称、国家、位置或团队)。本文中,源LLM指GPT4o-0806。

研究人员在ICE中使用GPTFuzz进行身份不一致性检测。首先,他们将源LLM的身份信息定义为事实集F,F中的每个f_i都清晰地说明了LLM_ti的身份相关事实。

图片

他们使用带有身份相关提示的P_id准备GPTFuzz的图片图片,用于查询LLM_test中LLM的身份信息。

基于GPTFuzz分数,定义了两个指标:

  • 宽松分数:任何身份矛盾的错误示例都视为成功攻击;
  • 严格分数:仅将错误识别为Claude或GPT的示例视为成功攻击。

实验结果

ICE实验结果表明,GLM-4-Plus、Qwen-Max和Deepseek-V3的可疑响应数量最多,蒸馏程度最高。Claude-3.5-Sonnet和Doubao-Pro-32k几乎没有可疑响应,蒸馏可能性较低。宽松分数包含一些假阳性,严格分数更准确。

图片

研究人员将越狱攻击提示分为五类(团队、合作、行业、技术和地理),统计了每类问题的成功越狱次数。结果显示,LLM在团队、行业和技术方面的感知更容易受到攻击。

图片

实验结果还显示,基础LLM通常比经过监督微调(SFT)的LLM表现出更高的蒸馏程度,闭源的Qwen-Max-0919比开源的Qwen 2.5系列蒸馏程度更高。

RSE结果表明,GPT系列LLM的响应相似度最高,而Llama3.1-70B-Instruct和Doubao-Pro-32k相似度较低,DeepSeek-V3和Qwen-Max-0919相似度较高。

图片

额外的实验进一步验证了这些发现,表明该框架在检测蒸馏程度方面具有稳健性。 更多细节请参考原论文。

以上就是原来,这些顶级大模型都是蒸馏的的详细内容,更多请关注其它相关文章!


# git  # 产业  # qwe  # deepseek  # 豆包  # red  # gemini  # claude  # ai  # qq  # 网站布局如何优化  # 佛山抖音seo流量入口  # 租赁行业seo优化案例  # 鞍山企业网站优化优势  # seo英文写手  # 网站建设网站互客  # 孝义国产网站推广哪家好  # 艺术营营销推广文案范文  # 宜兴网站建设找哪家  # 金昌整合营销推广哪家好  # 较低  # 网易  # 更高  # 用了  # 提出了  # 多个  # 都是  # 企业网站  # 管理系统  # 开源  # op  # llama  # qwen 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: mac 如何启动命令行模式  360n6锁屏壁纸怎么设置  datediff函数怎么用视频  夸克高考为什么不靠谱  安全的ao3镜像网站链接入口  如何4k对齐固态硬盘  如何用命令下载服务器网站  单片机怎么判定高电平  typescript怎么传json  系统如何装进固态硬盘  考勤机power红灯是什么意思  路由器power闪红绿灯闪是什么意思  j*a数组求和怎么算  bc是什么意思  什么是域名解析 域名解析中采用了什么  typescript接口怎么选  苹果16适合哪些机升级  单片机怎么定义字符长度  win10windows资源管理器在哪里打开  春运返程如何抢票成功  如何清理固态硬盘  征信不好如何恢复信誉度 ‌征信不好恢复信誉度的方法  直接gmV是什么意思?直接GMV:定义和概念  开机如何进入命令行模式  j*a中怎么截取数组  typescript和es6先学哪个  如何使用批处理命令编译vc程序  苹果手机16新款颜色有哪些  j*a map数组怎么取值  哪些编程软件需用typescript  苹果16哪些型号好用  什么网址不能域名解析  sqlite中datediff函数怎么用 SQLite中DATEDIFF()函数的用法分享  typescript怎么解析vue TypeScript在vue中的使用最新解读  excel中datediff函数怎么用  电脑type-c接口是什么意思  360f4怎么取消百变壁纸  显示器上power键是什么意思  统计学中power值是什么意思  如何打开命令框  市盈率中的19a是什么意思  苹果16系统网站有哪些  得物怎样不扣手续费 如何通过得物不支付手续费  npm如何声明命令  固态硬盘如何拆除  夸克转存中是什么意思  linux如何查看命令的参数  按键精灵datediff函数怎么用 如何使用按键精灵中的Datediff函数教程  12306退票手续费最新规定  如何以管理员身份打开cmd命令行窗口 

搜索