新闻中心

研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱

2024-02-04
浏览次数:
返回列表

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱

亚马逊云计算人工智能实验室的研究人员最近发现,网络上存在大量由机器翻译生成的内容,而这些翻译跨越多种语言的质量普遍较低。研究团队强调了在训练大型语言模型时,数据质量和来源的重要性。这一发现突显了在构建高质量语言模型时,需要更加关注数据的质量和来源的选择。

研究还发现,机器生成内容在资源较少语言的翻译中很普遍,并占网络内容的很大一部分。

本站注意到,研究团队开发了名为MWccMatrix的庞大资源,用于更好地理解机器翻译内容的特征。该资源包含64亿个独特句子,覆盖了90种语言,并提供了相互翻译的句子组合,即翻译元组。

这项研究发现,大量网络内容通常通过机器翻译被翻译成多种语言。这种现象普遍存在于资源较少语言的翻译中,并且占据了这些语言网络内容的很大一部分。

刺鸟创客 刺鸟创客

一款专业高效稳定的AI内容创作平台

刺鸟创客 110 查看详情 刺鸟创客

研究人员还注意到,出于广告收入等目的,被翻译成多种语言的内容存在选择性偏差。

根据我的研究,我得出以下结论:“过去十年,机器翻译技术取得了显著进步,但仍然无法达到人类质量水平。在过去的多年中,人们使用了当时可用的机器翻译系统将内容添加到网络上,因此网络上大部分机器翻译内容的质量可能相对较低,无法满足现代标准。这可能导致LLM模型产生更多的‘幻觉’,而选择偏差则表明即使不考虑机器翻译错误,数据质量也可能较低。对于LLM的训练来说,数据质量至关重要,高质量的语料库,如书籍和维基百科文章,通常需要进行多次向上采样。”

以上就是研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱的详细内容,更多请关注其它相关文章!


# 美加  # 金华网站建设如何做好  # 山东旅游网站建设方案  # 国外最大推广网站排名榜  # 谷歌SEO变化  # 潮州seo云优化  # 拜登质询深圳网站建设  # 滨州轴承行业网站建设  # 网站推广营销知识培训  # 长沙网站建设公司平台  # 新加坡谷歌seo运营  # 大语言模型  # 亚马逊  # 翻译成  # 较少  # 可直接  # 高质量  # 注意到  # 日韩  # 较低  # 省电 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何安装固态硬盘win10  征信不好如何恢复信誉度 ‌征信不好恢复信誉度的方法  酷我音乐怎么改每日推荐 酷我音乐每日推荐修改方法  华为如何面对苹果16  三星相机里power是什么意思  vb中的datediff函数怎么用 ​VB中的DateDiff函数:详尽指南  2025年哪个局域网聊天软件好用  命令行如何打开打印机  怎么自学typescript  j*a map数组怎么取值  5r是多少钱  solo交友软件怎么恢复聊天记录  pp是什么意思  vivo手机nfc功能是什么意思  intel固态硬盘如何安装  md5解密是什么意思  360桌面壁纸怎么弄掉  划水是什么意思  win7怎么装扫描仪  react怎么使用 typescript  如何看固态硬盘信息  域名解析后为什么要进行域名备案  华为的type-c接口是什么接口  j*a数组逆序怎么写  系统如何装在固态硬盘  夸克网盘为什么解析错误  交管12123协议头是什么  建伍遥控器power是什么意思  课程伴侣登不上怎么办  如何增加固态硬盘  sausage是什么意思  科技型企业成长"十步法"  交管12123协议头不完整怎么解决  市盈率pe是什么意思  折叠屏手机为什么这么小  哪个牌子的折叠屏手机好  市盈率中1stdv是什么意思  vivo手机爱奇艺怎么投屏到电视操作步骤  阿里云手机云盘怎么用_阿里云盘苹果手机怎么用教程  怎么下载360桌面壁纸  typescript掌握哪些可以做项目  type-c全能接口是什么意思  折叠屏手机为什么没火  cron表达式在线工具有哪些  苹果16有哪些自带配件  如何清理固态硬盘  充电器上的power是什么意思  怎么打印数组j*a  360n5锁屏壁纸怎么设置  望远镜上power是什么意思 

搜索