新闻中心
-
01-15HuggingFace屠榜:将两只羊驼去掉头尾后拼接在一起HuggingFace开源大模型排行榜,又被屠榜了。前排被清一色的SOLAR10.7B微调版本占据,把几周之前的各种Mixtral8x7B微调版本挤了下去。SO...
-
01-01LLM未来架构:谁有可能动摇Transformer的统治地位?在大模型领域,一直稳站C位的Transformer最近似乎有被超越的趋势。这个挑战者就是一项名为「Mamba」的研究,其在语言、音频和基因组学等多种模态中都达到...
-
12-15基于Adaptor和GPT的时间序列多任务一体化大型模型今天跟大家聊一聊大模型时间序列预测的最新工作,来自阿里巴巴达摩院,提出了一种基于adaptor的通用时间序列分析框架,在长周期预测、短周期预测、zero-sho...
-
12-15更深层的理解视觉Transformer, 对视觉Transformer的剖析本文为经过自动驾驶之心公众号授权转载,请在转载时与出处联系写在前面&&笔者的个人理解目前,基于Transformer结构的算法模型已经在计算机视...
-
12-15一文总结特征增强&个性化在CTR预估中的经典方法和效果对比在CTR预估中,主流都采用特征embedding+MLP的方式,其中特征非常关键。然而对于相同的特征,在不同的样本中,表征是相同的,这种方式输入到下游模型,会限...
-
12-15Mamba带火的SSM受到苹果和康奈尔的关注:抛弃注意力分散模型康奈尔大学与苹果最新研究得出结论:为了用更少的算力生成高分辨率图像,可以不使用注意力机制众所周知,注意力机制是Transformer架构的核心组件,对于高质量的...

