新人注册送38元白菜

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

新人注册送38元白菜即为什么强化学习被用于微调而不是监督学习


发布日期:2023-03-10 14:14    点击次数:201

新人注册送38元白菜即为什么强化学习被用于微调而不是监督学习

撰文:Tanya Malhotra新人注册送38元白菜

开首:Marktechpost

编译:DeFi 之谈

图片开首:由无界疆城AI用具生成

跟着生成性东谈主工智能在以前几个月的深切得胜,大型说话模子(LLM)正在阻挡修订。这些模子正在为一些值得慎重的经济和社会转型作念出孝顺。OpenAI 竖立的 ChatGPT 是一个当然说话处置模子,允许用户生成成心旨的文本。不仅如斯新人注册送38元白菜,它还不错恢复问题,转头长段落,编写代码和电子邮件等。其他说话模子,如 Pathways 说话模子(PaLM)、Chinchilla 等,在师法东谈主类方面也有很好的进展。

大型说话模子使用强化学习(reinforcement learning,RL)来进行微调。强化学习是一种基于奖励系统的反馈运行的机器学习步地。代理(agent)通过完成某些任务并不雅察这些行径的效果来学习在一个环境中的进展。代理在很好地完成一个任务后会获取积极的反馈,而完成地不好则会有相应的刑事拖累。像 ChatGPT 这么的 LLM 进展出的特等性能皆要归功于强化学习。

ChatGPT 使用来自东谈主类反馈的强化学习(RLHF),通过最小化偏差对模子进行微调。但为什么不是监督学习(Supervised learning,SL)呢?一个基本的强化学习范式由用于覆按模子的标签构成。然则为什么这些标签不成径直用于监督学习步地呢?东谈主工智能和机器学习商酌员 Sebastian Raschka 在他的推特上共享了一些原因,即为什么强化学习被用于微调而不是监督学习。

不使用监督学习的第一个原因是,它只瞻望等第,不会产生连贯的反应;该模子只是学习弃取覆按集不异的反应打上高分,即使它们是不连贯的。另一方面,RLHF 则被覆按来预计产生反应的质料,而不单是是名次分数。

Sebastian Raschka 共享了使用监督学习将任务再行表述为一个受限的优化问题的思法。亏本函数聚首了输出文本损成仇奖励分数项。这将使生成的反应和名次的质料更高。但这种步地惟有在目的正确产生问题-谜底对时能力得胜。然则集结奖励关于收场用户和 ChatGPT 之间的连贯对话亦然必要的,而监督学习无法提供这种奖励。

不弃取 SL 的第三个原因是,它使用交叉熵来优化符号级的亏本。固然在文本段落的符号水平上,调动反应中的个别单词可能对全体亏本惟有很小的影响,但若是一个单词被谈论,关于新人注册送38元白菜产生连贯性对话的复杂任务可能会十足调动高下文。因此,只是依靠 SL 是不够的,RLHF 关于计议总共对话的布景和连贯性是必要的。

监督学习不错用来覆按一个模子,但字据训戒发现 RLHF 每每进展得更好。2022 年的一篇论文《从东谈主类反馈中学习转头》涌现,RLHF 比 SL 进展得更好。原因是 RLHF 计议了连贯性对话的集结奖励,而 SL 由于其文本段落级的亏本函数而未能很好作念到这少量。

​李亚鹏和王菲结婚的时候一直都对王菲和前夫的女儿窦靖童视为己出,曾经有一次窦靖童被狗咬伤李亚鹏推掉所有工作,陪她打了五天吊瓶,所有说懂事的窦靖童心里还是很尊敬这个后爸的,尽管后来有了李亚鹏和王菲的爱情结晶李嫣对窦靖童的疼爱却并未减少。

这件事对陈羽凡造成了极大的心理伤害,白百何也是自作自受吧,家庭没有了,也没了声誉,戏也没有再接了,也不再出现在人们的视线中,人气也大不如前了,和之前事业对比,真的是令人唏嘘。

像 InstructGPT 和 ChatGPT 这么的 LLMs 同期使用监督学习和强化学习。这两者的聚首关于收场最好性能至关蹙迫。在这些模子中,当先使用 SL 对模子进行微调,然后使用 RL 进一步更新。SL 阶段允许模子学习任务的基本结构和实践新人注册送38元白菜,而 RLHF 阶段则完善模子的反应以升迁准确性。





Powered by 新人注册送38元白菜 @2013-2022 RSS地图 HTML地图