新闻中心
-
06-05单个4090可推理,2000亿稀疏大模型「天工MoE」开源在大模型浪潮中,训练和部署最先进的密集集LLM在计算需求和相关成本上带来了巨大挑战,尤其是在数百亿或数千亿参数的规模上。为了应对这些挑战,稀疏模型,如专家混合模...
-
06-04物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
05-13字节开源大模型量化新思路,2-bit量化模型精度齐平fp16AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
05-07国产开源MoE指标炸裂:GPT-4级别能力,API价格仅百分之一最新国产开源MoE大模型,刚刚亮相就火了。DeepSeek-V2性能达GPT-4级别,但开源、可免费商用、API价格仅为GPT-4-Turbo的百分之一。因此一...
-
04-02元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型元象发布XVERSE-MoE-A4.2B大模型,采用业界最前沿的混合专家模型架构(MixtureofExperts),激活参数4.2B,效果即可媲美13B模型。...
-
03-29Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文之前引爆了AI圈的Mamba架构,今天又推出了一版超强变体!人工智能独角兽AI21Labs刚刚开源了Jamba,世界上第一个生产级的Mamba大模型!Jamba...

