新闻中心
-
04-03大模型中常用的注意力机制GQA详解以及Pytorch代码实现组查询注意力(GroupedQueryAttention)是大型语言模型中的一种多查询注意力力方法,它的目标是在保持MQA速度的同时实现MHA的质量。Group...
-
04-01大语言模型中常用的旋转位置编码RoPE详解:为什么它比绝对或相对位置编码更好?自2017年发表的“AttentionIsAllYouNeed”论文以来,Transformer架构一直是自然语言处理(NLP)领域的基石。它的设计多年来基本没...
-
03-25AI模型训练:强化算法与进化算法强化学习算法(RL)和进化算法(EA)是机器学习领域中独具特色的两种算法,虽然它们都属于机器学习的范畴,但在问题解决的方式和理念上存在明显的差异。强化学习算法:...
-
03-253140参数Grok-1推理加速3.8倍,PyTorch+HuggingFace版来了马斯克说到做到开源Grok-1,开源社区一片狂喜。但基于Grok-1做改动or商用,都还有点难题:Grok-1使用Rust+JAX构建,对于习惯Python+P...
-
03-18为了保护客户隐私,使用Ruby在本地运行开源AI模型译者|陈峻审校|重楼最近,我们实施了一个定制化的人工智能(AI)项目。鉴于甲方持有着非常敏感的客户信息,为了安全起见,我们不能将它们传递给OpenAI或其他专有...
-
03-0840%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果大模型竞赛,又杀出一匹黑马——Inflection-2.5,由DeepMind联创MustafaSuleyman的大模型初创公司打造。只用40%的计算资源训练,...

