新闻中心

参照人类大脑,学会忘记会让AI大模型变得更好?

2024-03-12
浏览次数:
返回列表

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

参照人类大脑,学会忘记会让AI大模型变得更好?

最近,一支计算机科学家团队研发了一种更灵活、更具弹性的机器学习模型,它们具有周期性遗忘已知信息的能力,这是现有大型语言模型所不具备的特点。

实测表明,在很多情况下,“忘却法”的训练效率很高,忘却型模型表现也会更好。韩国基础科学研究院(Institute for Basic Science)的AI工程师Jea Kwon说,新研究意味着AI领域取得明显进步。

“忘却法”训练效率很高

目前主流的AI语言引擎大多采用人工神经网络技术。这种网络结构中的每个“神经元”实际上是一个数学函数,它们之间相互连接,接收和传递信息,通过多层神经元的复杂运算来实现数据处理和学习。神经网络的这种模拟方式使得AI能够模拟人类大脑的工作方式,从而实现类似人类的智能行为。

最开始时信息流或多或少都是随机的,当网络不断与训练数据匹配,神经元之间流动的信息会不断优化。例如,如果研究人员想训练一个双语翻译模型,它首先要收集海量双语文本,用文本训练模型,它会调整神经元之间的连接,将一种语言中的文本与另一种语言中的等效单词联系起来。

上述训练需要大量计算资源。如果模型性能不佳,或者用户需求发生变化,模型可能无法满足需求。

研究人员Mikel Artetxe指出:“假设你有一个包含100种语言的模型,但其中有一种语言没有被包括进去。如果想要将这种语言加入模型,就必须重新进行训练。”

几年前,Artetxe和同事用1种语言训练神经网络,他们抹去神经网络所知的单词组成信息,也就是所谓的“Tokens”。Tokens存储在神经网络的第一层,它也叫“嵌入层”。对于其它层,不去理睬。抹去第1语言的Tokens之后,用第2种语言训练,第2种语言新的Tokens可以填充到嵌入层。

虽然模型包含大量不匹配信息,但仍然可以用第2种语言重新训练,也就是说模型可以学习、处理第2种语言。研究人员认为,虽然嵌入层存储了第2种语言的语汇特殊信息,但神经网络更底层存储了抽象信息,它涉及到人类语言的幕后概念,正是这些概念帮助模型学习第二种语言。

研究报告作者陈一红认为:“我们生活在同一个世界,用不同语言的词汇来表达相同的概念。因此,在模型中会有相同级别的推理,比如一个苹果,它是甜的、美味的,它代表着不止是一个词汇。”

将新语言添加到已训练模型中,采用“忘却法”效率很高,尽管如此,还是需要重新训练,仍然需要海量数据和强大的处理能力。有没有更好的办法?当然有,不需要训练,直接抹去嵌入层,然后再训练,也就是在初步训练时周期性重置嵌入层。

Yaara Yaara

使用AI生成一流的文案广告,电子邮件,网站,列表,博客,故事和更多…

Yaara 95 查看详情 Yaara

Artetxe称:“如此一来,整个模型就能适应重置。如果你想扩展模型,让它适应另一种语言,过程会变得更容易。”

忘却型模型表现更好

研究人员用一种比较通用的大语言模型Roberta做实验,采用周期性忘却技术训练,将它与那些用标准、非忘却方法训练的模型作比较。结果发现,在处理第1种语言时,忘却型模型得分85.1分,传统标准模型得分86.1分。再用第2种语言训练,只用约500万Tokens(第一种语言用了700亿)训练,忘却型模型的精准度得分降至62.7分,标准模型降到53.3分。

再训练时如果研究人员施加计算限制,忘却型模型的表现会更好。例如,当研究人员将训练长度从125000步短到5000步,忘却型模型的平均得分约为57.8分,标准模型降到37.2分,几乎和猜测差不多。

因此研究人员得出结论:在学习语言时,忘却型模型表现更好一些。

魁北克深度学习研究中心Mila的研究人员Evgenii Nikishin认为:“因为模型在训练时不断忘却,然后再重新学习,所以后面再教网络一些新东西时会变得更容易些。”种种迹象显示,模型理解语言时会从更深层次着眼,不只是了解单个词汇的意思。

忘却法与人类大脑的运行模式有些相似。旧金山大学神经科学家Benjamin Levy认为:“存储大量详细信息时人类记忆是相当不精准的。但人类大脑可以记住经验要点,记住抽象信息,而且擅长推断。让AI像人类一样处理信息,比如让它具备忘却能力,AI也许会更有弹性。“

Yihong Chen认为,未来也许会出现制造语言模型的工厂,这样的工厂需要忘却型技术,它是一个基本模型,可以快速适应新领域。(小刀)

以上就是参照人类大脑,学会忘记会让AI大模型变得更好?的详细内容,更多请关注其它相关文章!


# ai大模型  # 江西互联网营销推广价钱  # 太原网站seo优化  # ssr服务器做seo  # 营销推广方案的内容包括  # 通州网站推广优化外包  # 英文网站设计建设方案  # 让它  # 魁北克  # 日韩  # 它是  # 都能  # 抹去  # 是一个  # 会让  # 很高  # 新能源  # follow  # 人工智能  # 横沥光龙网站建设  # 房产网站建设培训中心  # 网站社区优化建议  # 专业seo优化深圳 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: HTML5如何引用typescript  折叠屏有哪些手机  如何设置从固态硬盘启动  混合固态硬盘如何分区  市盈率为负值是什么意思  typescript是什么时候出来的  如何查看win10版本命令行  市盈率中1stdv是什么意思  如何用命令连接mysql  光刻机的分类及其优缺点  j*a怎么把数组输出  哪些编程软件需用typescript  域名批量查询工具有哪些  夸克是什么空间单位  苹果16系统有哪些问题  为什么用typescript  65寸电视长宽多少厘米  怎么批量烧写单片机  ai文件在线打开工具有哪些  平板键盘nfc功能是什么意思  j*a怎么讲数组打印  命令行如何启动应用程序  酷我音乐怎么改每日推荐 酷我音乐每日推荐修改方法  阿里云手机云盘怎么用_阿里云盘苹果手机怎么用教程  wps中datediff函数怎么用 WPS中DATEDIFF函数的语法和用法分享  如何以命令符运行程序  网络光刻机是干什么用的  typescript参数怎么用  空调控制面板power灯一直亮是什么意思  在遥控器中power是什么意思  市盈率ttm写的亏损是什么意思  固态硬盘如何判断大小  shell如何执行sql脚本命令行  如何winpe cmd命令  多少毫安的充电宝可以带上飞机  苹果16系统有哪些改变  如何通过命令行启动tomcat  夸克po什么意思  ospf中交换机命令如何设置  如何更新typescript  显示器power接口是什么意思  金色cmyk色值是多少  春运高速高铁抢票攻略  液位传感器power是什么意思  哪些框架支持typescript  j*a数组求和怎么算  react怎么使用 typescript  j*a对数组怎么使用  pp是什么意思  花呗征信不好如何恢复 如何修复不良的花呗征信 

搜索