新闻中心

贾扬清公司高效率带头的大型推理成本排行榜出炉

2024-01-26
浏览次数:
返回列表

「大模型的 API 是个亏本买卖吗?」

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

大模型推理成本排行榜来了:贾扬清公司效率领跑

随着大语言模型技术的实用化,许多科技公司推出了大模型 API,供开发者使用。然而,我们不禁开始怀疑基于大模型的业务能否持续下去,尤其是考虑到OpenAI每天烧掉70万美元的情况。

本周四,AI 创业公司 Martian 为我们仔细盘算了一下。

大模型推理成本排行榜来了:贾扬清公司效率领跑

排行榜链接:https://leaderboard.withmartian.com/

刺鸟创客 刺鸟创客

一款专业高效稳定的AI内容创作平台

刺鸟创客 110 查看详情 刺鸟创客

The LLM Inference Provider Leaderboard is an open-source ranking of API inference products for large models. It benchmarks the cost, rate limits, throughput, and P50 and P90 TTFT for the Mixtral-8x7B and Llama-2-70B-Chat public endpoints of each vendor.

虽然互为竞争关系,但 Martian 发现各家公司的大模型服务在成本、吞吐量和速率限制方面存在显著的差异。这些差异超过了5倍的成本差异、6倍的吞吐量差异,甚至还有更大的速率限制差异。选择不同的API对于获得最佳性能至关重要,尽管只是业务开展的一部分。

根据当前排名,Anyscale 提供的服务在Llama-2-70B的中等服务负载下具有最佳的吞吐量。对于大型服务负载,Together AI在Llama-2-70B和Mixtral-8x7B上的P50和P90吞吐量表现最佳。

此外,贾扬清的 LeptonAI 在处理短输入和长输出提示的小任务负载时,表现出最佳的吞吐量。其达到的130 tks/s的P50吞吐量,是目前市面上所有厂商提供的模型产品中最快的。

知名 AI 学者、Lepton AI 创始人贾扬清在排行榜放出后第一时间进行了点评,让我们看看他是如何说的。

大模型推理成本排行榜来了:贾扬清公司效率领跑

贾扬清首先阐述了人工智能领域行业现状,然后肯定了基准测试的意义,最后指出 LeptonAI 将帮用户找到最好的 AI 基础策略。

1. 大模型 API 正在「烧钱」

如果模型在高工作负载基准测试中处于领先地位,那么恭喜,它正在「烧钱」。 

LLM 推理公共 API 的容量就像是经营一家餐馆:有厨师,需要估算客流量。聘请厨师是要花钱的。延迟和吞吐量可以理解为「你为顾客做饭的速度有多快」。对于一个合理的生意,你需要有「合理」数量的厨师。换句话说,你希望拥有能够承载正常流量的容量,而不是在几秒钟内突然爆发的流量。流量激增意味着需要等待;反之,「厨师」则会无所事事。

在人工智能世界中,GPU 扮演着「厨师」的角色。基准负载是突发的。在低工作负载下,基准负载会混合到正常的流量中,并且测量结果可以准确表示服务在当前工作负载下的情况。

高服务负载场景则很有趣,因为会带来中断。基准测试每天 / 每周仅运行几次,因此不是人们应该期望的常规流量。想象一下,让 100 个人涌入当地的餐馆来检查厨师做菜的速度,结果会很不错。借用量子物理学的术语,这被称为「观察者效应」。干扰越强(即突发负载越大),其精度就越低。换句话说:如果您给某个服务突然提供高负载,并发现该服务响应速度非常快,那么您就知道该服务有相当多的闲置容量。作为投资者,看到这种情况,你应该质问:这种烧钱的方式负责任吗?

2. 模型最终会达到相似的表现

人工智能领域很喜欢竞争比赛,这的确很有趣。大家都会很快收敛到相同的解决方案,并且,由于 GPU 的原因,英伟达总是最终的赢家。这要归功于伟大的开源项目,vLLM 就是一个很好的例子。这意味着,作为提供商,如果您的模型性能比其他模型差很多,您可以通过查看开源解决方案并应用良好的工程来轻松赶上。

3.「作为客户,我不关心提供商的成本」

对于人工智能应用程序构建者来说,我们很幸运:总是有 API 提供商愿意「烧钱」。AI 行业正在烧钱来获得流量,下一步才是担心利润。

基准测试是一项乏味且容易出错的工作。无论好坏,通常都会发生成功者赞扬你而失败者指责你的情况。上一轮卷积神经网络基准测试就是如此。这不是一件容易的事,但基准测试将帮助我们在人工智能基础设施方面获得下一个 10 倍的收益。

基于人工智能框架和云基础设施,LeptonAI 将帮用户找到最好的 AI 基础策略。

以上就是贾扬清公司高效率带头的大型推理成本排行榜出炉的详细内容,更多请关注其它相关文章!


# 训练  # llama  # 开源  # 来了  # ai  # 网站数据库检索优化  # 本地高端网站建设厂家  # 刘连康seo讲座  # 怎么租服务器做网站推广  # 枣庄seo公司排行榜  # 营销推广软文的重点  # 上网站建设插画壁纸  # 峡江关键词排名优化工具  # 屏南抖音seo  # 怎么把网站推广到小区  # 很有趣  # 命令行  # 美图  # 互动  # 领跑  # 最好的  # 麦当劳  # 烧钱 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 8寸照片尺寸多少厘米  直接gmV是什么意思?直接GMV:定义和概念  cmd如何定时执行命令  4800日元等于多少人民币  什么是域名解析地址  为什么夸克流畅播失败  市盈率为负值是什么意思  ai怎么找链接文件位置教程  苹果16哪些型号好用  破太岁是什么意思  typescript和哪个语音很像  单片机面包板怎么插  如何提高固态硬盘速度  mac如何使用vi命令行  access 如何输入命令  如何开发typescript  学typescript要求什么  照相机上面power是什么意思  win7怎么装扫描仪  怎么在typescript定义集合  苹果16更新了哪些功能  一尺是多少厘米  如何管理员打开cmd命令行窗口  双十一的哪一天最优惠呢  苹果16更新了哪些软件  typescript变量是什么  如何查看固态硬盘分区  linux如何合并分区命令  命令不执行如何处理  营收和gmv区别_营收和gmv有什么区别  43寸电视长宽多少厘米  选哪个折叠屏手机好用  夸克还原排版是什么意思  typescript在浏览器里怎么用  51单片机怎么连接端口  域名批量查询工具有哪些  sqlite中datediff函数怎么用 SQLite中DATEDIFF()函数的用法分享  如何打开管理员命令提示符  如何打开win10命令  华为5g手机怎么用4g网络  j*a数组怎么存满  分享一个稳定的ao3镜像网址  单片机*计步器怎么用  typescript性能如何  舆论是什么意思  联想的固态硬盘如何  如何为服务器配置静态路由?服务器配置静态路由详细教程  广东春运抢票怎么抢的  春运抢票失败怎么抢  固态硬盘电脑如何设置 

搜索