新闻中心
-
04-04PaperBench— OpenAI 开源的 AI 智能体评测基准OpenAI开源的AI智能体评测基准PaperBench,能够评估AI智能体根据顶级学术论文复现结果的能力。PaperBench要求智能体完整地完成从理解论文到...
-
10-28斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论不仅有主持人,还能得到不同AI专家的解答。今年4月,斯坦福大学推出了一款利用大语言模型(LLM)辅助编写类维基百科文章的神器。它就是开源的STORM,可以在三分...
-
10-22自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
08-18给RAG系统做一次全面「体检」,亚马逊开源RAGChecker诊断工具AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
05-10LLM 评估新纪元:Arthur Bench 全方位解读一、传统文本评估面临的挑战近年来,随着大型语言模型(LLM)的快速发展和改进,传统的文本评估方法在某些方面可能已经不再适用。在文本评估领域,我们可能已经听说过一...
-
04-28Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航Ð大模型力大砖飞,让LLaMA3演绎出了新高度:经过超大规模预训练的15T+Token数据上,已实现了令人印象深刻的性能提升,也因远超Chinchilla推荐量再...

