新闻中心
-
04-10Llama架构比不上GPT2?神奇token提升10倍记忆?一个7B规模的语言模型LLM能存储多少人类知识?如何量化这一数值?训练时间、模型架构的不同将如何影响这一数值?浮点数压缩quantization、混合专家模型M...
-
02-19LeCun怒斥Sora不能理解物理世界!Meta首发AI视频「世界模型」V-JEPASora一经面世,瞬间成为顶流,话题热度只增不减。强大的逼真视频生成能力,让许多人纷纷惊呼「现实不存在了」。甚至,OpenAI技术报告中透露,Sora能够深刻地...
-
02-04研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱亚马逊云计算人工智能实验室的研究人员最近发现,网络上存在大量由机器翻译生成的内容,而这些翻译跨越多种语言的质量普遍较低。研究团队强调了在训练大型语言模型时,数据...
-
01-23PEFT参数优化技术:提高微调效率的探索PEFT(ParameterEfficientFine-tuning)是一种优化深度学习模型微调过程的参数高效技术,旨在在有限的计算资源下实现高效微调。研究人员...
-
01-22深入探讨机器学习中的降维概念:什么是降维?降维是一种通过优化机器学习模型的训练数据输入变量来减少模型训练成本的技术。在高维数据中,输入变量的数量可能非常庞大,降维的目的是尽可能地保留原始数据的可变性。通...
-
01-22解密Transformers:揭秘文本生成的奥秘由于这几个关键优势,Transformer被广泛用于文本生成任务:注意力机制在Transformers中的作用是允许模型关注输入序列的不同部分,并权衡它们对输出...

