评估结果_第2页_陕西然坤悦科技有限公司

400-5689-0921
客服咨询
- 在线咨询

新闻中心 NEWS CENTER

您当前位置：首页

04-04

PaperBench— OpenAI 开源的 AI 智能体评测基准

OpenAI开源的AI智能体评测基准PaperBench，能够评估AI智能体根据顶级学术论文复现结果的能力。PaperBench要求智能体完整地完成从理解论文到...
10-28

斯坦福开源学术研究神器STORM再进化，AI智能体像人一样进行圆桌讨论

不仅有主持人，还能得到不同AI专家的解答。今年4月，斯坦福大学推出了一款利用大语言模型（LLM）辅助编写类维基百科文章的神器。它就是开源的STORM，可以在三分...
10-22

自动化、可复现，基于大语言模型群体智能的多维评估基准Decentralized Arena来了

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传...
08-18

给RAG系统做一次全面「体检」，亚马逊开源RAGChecker诊断工具

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传...
05-10

LLM 评估新纪元：Arthur Bench 全方位解读

一、传统文本评估面临的挑战近年来，随着大型语言模型（LLM）的快速发展和改进，传统的文本评估方法在某些方面可能已经不再适用。在文本评估领域，我们可能已经听说过一...
04-28

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航&ETH

大模型力大砖飞，让LLaMA3演绎出了新高度：经过超大规模预训练的15T+Token数据上，已实现了令人印象深刻的性能提升，也因远超Chinchilla推荐量再...

: 电话

: 客服

: 地图

: 搜索