新闻中心

上交大发布推理引擎PowerInfer,其token生成速率仅比A100低18%,或将取代4090成为A100的替代品

2024-01-16
浏览次数:
返回列表

为了不改变原意而重写内容,需要将语言重写为中文,不需要出现原句

本网站的编辑部

PowerInfer 的出现使得在消费级硬件上运行 AI 变得更加高效


上海交大团队,刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%


项目地址:https://github.com/SJTU-IPADS/PowerInfer

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%


论文地址:https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20251219.pdf

速度有多快?

在运行 Falcon (ReLU)-40B-FP16 的单个 RTX 4090 (24G) 上,PowerInfer 对比 llama.cpp 实现了 11 倍加速!

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%


PowerInfer 和 llama.cpp 都在相同的硬件上运行,并充分利用了 RTX 4090 上的 VRAM。

在单个 NVIDIA RTX 4090 GPU 上的各种 LLM 中,PowerInfer 的平均 token 生成率为 13.20 个 token / 秒,峰值为 29.08 个 token / 秒,仅比顶级服务器级 A100 GPU 低 18%。

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%

刺鸟创客 刺鸟创客

一款专业高效稳定的AI内容创作平台

刺鸟创客 110 查看详情 刺鸟创客

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%



具体来说,PowerInfer 是一个用于本地部署 LLM 的高速推理引擎。它利用 LLM 推理中的高局部性来设计 GPU-CPU 混合推理引擎。其中热激活(hot-activated)神经元被预加载到 GPU 上以便快速访问,而冷激活(cold-activated)神经元(大部分)则在 CPU 上计算。这种方法显著减少了 GPU 内存需求和 CPU-GPU 数据传输。


PowerInfer 可以在配备单个消费级 GPU 的个人计算机 (PC) 上高速运行大型语言模型 (LLM) 。现在用户可以将 PowerInfer 与 Llama 2 和 Faclon 40B 结合使用,即将支持 Mistral-7B。

PowerInfer 设计的关键是利用 LLM 推理中固有的高度局部性,其特征是神经元激活中的幂律分布。

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%


下图 7 展示了 PowerInfer 的架构概述,包括离线和在线组件。

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%


这种分布表明,一小部分神经元(称为热神经元)跨输入一致激活,而大多数冷神经元则根据特定输入而变化。PowerInfer 利用这种机制设计了 GPU-CPU 混合推理引擎。

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%


PowerInfer 进一步集成了自适应预测器和神经元感知稀疏算子,优化了神经元激活和计算稀疏性的效率。

看到这项研究后,网友激动的表示:单卡 4090 跑 175B 大模型不再是梦。

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%


了解更多内容,请查看原论文。

以上就是上交大发布推理引擎PowerInfer,其token生成速率仅比A100低18%,或将取代4090成为A100的替代品的详细内容,更多请关注其它相关文章!


# llama  # 产业  # 开好  # 小说网站优化思路  # 东莞大型门户网站建设  # 长沙关键词排名技术  # 清丰县网站推广优化  # 手机网站搭建设计  # 沭阳建设网站  # 济南微信网站建设  # 是一个  # 或将  # 之争  # 新能源  # 重写  # 都能  # 华纳  # 只比  # 交大  # type  # 市场推广广告营销方案怎么写  # seo与微信运营  # 商业网站怎么优化 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: ssd固态硬盘如何选择  为什么要用typescript6  nosql数据库的应用场景有哪些  单片机程序负数怎么表示  苹果16有哪些自带配件  推特是什么软件国内可以使用吗  openwrt有什么用  如何修改域名解析  苹果16更新了哪些软件  NoSQL数据库有哪些特点  360n5锁屏壁纸怎么设置  如何使用命令行界面  video是什么意思  华硕k20ce怎么装win7  苹果的type-c接口是什么  怎么看手机是不是双模5g手机  折叠屏手机为什么凉凉  新三板市盈率是什么意思  sqlite中datediff函数怎么用 SQLite中DATEDIFF()函数的用法分享  光刻机是干什么用的  夸克的答案为什么不对  征信信用不好如何恢复 征信信用不好如何恢复指南  光刻机的分类及特点  j*a数组求和怎么算  linux下如何重定位命令  j*a怎么存放数组中  交管12123协议头是什么  春运抢票多久可以买到票  如何用固态硬盘做缓存  typescript与es6学哪个  折叠屏手机哪个牌子性价比高  电脑命令如何删除账号  win7如何打开命令行窗口  windows 如何连接ftp命令行  苹果16有哪些不同  学typescript需要什么基础么  2025年国外最佳语音聊天软件排行榜  折叠屏手机为什么有黑点  ai如何重复使用上一命令  怎么批量烧写单片机  oppo手机nfc功能是什么意思  电信开通nfc功能是什么意思  360桌面壁纸怎么弄掉  春运抢票极速版怎么抢票  如何创建sql命令  轩逸e-power挡位b是什么意思  春运哪天抢票最好  市盈率中的19a是什么意思  单片机怎么判定高电平  如何以命令符运行程序 

搜索