新闻中心
-
07-28贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM用来运行Llama3405B优势明显。最近,Meta开源了最新的405B模型(Llama3.1405B),把开源模型的性能拉到了新高度。由于模型参数量很大,很多...
-
07-24从裸机到700亿参数大模型,这里有份教程,还有现成可用的脚本我们知道LLM是在大规模计算机集群上使用海量数据训练得到的,本站曾介绍过不少用于辅助和改进LLM训练流程的方法和技术。而今天,我们要分享的是一篇深入技术底层的文...
-
06-05利用 NVIDIA Riva 快速部署企业级中文语音 AI 服务并进行优化加速一、Riva概览1.OverviewRiva是NVIDIA推出的一款SDK,用于实时的SpeechAI服务。它是一个高度可定制的工具,并且使用GPU进行加速。N...
-
06-05部署基于内存存储的 Elasticsearch - 一亿+条数据,全文检索 100ms 响应1.在主机上挂载内存存储目录创建目录用于挂载mkdir/mnt/memory_storage挂载tmpfs文件系统mount-ttmpfs-osize=800G...
-
06-03知识图谱检索增强的GraphRAG(基于Neo4j代码实现)图检索增强生成(GraphRAG)正逐渐流行起来,成为传统向量搜索方法的有力补充。这种方法利用图数据库的结构化特性,将数据以节点和关系的形式组织起来,从而增强检...
-
05-16Ollama如何构建自己的Llama3中文模型OllamaOllama是一个开源的大型语言模型(LLM)服务工具,它允许用户在本地机器上运行和部署大型语言模型。Ollama设计为一个框架,旨在简化在Dock...

