当前位置: 首页 > news >正文

政府网站的建设与管理在线crm软件

政府网站的建设与管理,在线crm软件,关于建设公司网站的建议,软件园二期做网站的公司有哪些【大模型慢学】GPT起源以及GPT系列采用Decoder-only架构的原因探讨 - 知乎本文回顾GPT系列模型的起源论文并补充相关内容,中间主要篇幅分析讨论为何GPT系列从始至终选择采用Decoder-only架构。 本文首发于微信公众号,欢迎关注:AI推公式最近Ch…

【大模型慢学】GPT起源以及GPT系列采用Decoder-only架构的原因探讨 - 知乎本文回顾GPT系列模型的起源论文并补充相关内容,中间主要篇幅分析讨论为何GPT系列从始至终选择采用Decoder-only架构。 本文首发于微信公众号,欢迎关注:AI推公式最近ChatGPT系列越来越火爆,不只在计算机圈内,其…https://zhuanlan.zhihu.com/p/625184011为什么现在的LLM都是Decoder only的架构? - 知乎相比encoder-decoder架构,只使用decoder有什么好处吗?https://www.zhihu.com/question/588325646/answers/updatedGPT本质是文字接龙。

目前公认的大语言模型具有zero-shot泛化能力,但是大模型各种各样,从模型架构到预训练目标差异巨大,因此通过排列组合来做对比实验。上图就是模型架构、预训练目标、adaptation、multitask finetuning四个变量的排列组合。

训练LM的架构包括:

encoder-decoder,T5,ED。

decoder-only,GPT,主流是causal decoder,简称CD,只有前向注意力。

prefix LM:采样一段文本,然后选择一个随机点将其拆分为前缀和目标部分,前缀作为输入,目标作为输出。又叫non-causal decoder-only,简称ND,输入的前一部分是双向注意力,后一部分是单向注意力。

预训练目标

full language modeling,FLM,完整的一段话从头到尾基于上文预测下一个token,GPT系列,和CD搭配。

prefix language modeling,PLM,一段话分成两部分,前一部分作为输入,预测后一部分,和ED,ND搭配。

masked language modeling,MLM,训练bert时的完形填空,遮盖住文本中一部分token,让模型通过上下文猜测遮盖部分的token,可以像T5一样将任务改造成text2text形式,input和target都是一段文本,可以适配ND和ED,如果将input和target拼接起来,就可以适配CD。

adaptation:

对大模型进行改造,比如T5的预训练目标是MLM,不是一个很好的生成模型,把目标改成PLM或FLM,继续训练,和微调不同,再次训练用的数据不是下游数据,而是额外的无监督文本数据。FLM预训练的CD模型,通过切换掩码变成ND模型,在通过MLM目标改造,可以用于完形填空,前者交language modeling adaptation(LM-A),后者称为non-causal MLM adaptation(NC-A)。

multitask finetuning:

多任务微调,在一百多个已知任务的prompt数据做微调,能极大提升预训练模型在未知任务上的zero-shot能力。

结论:

1.如果大模型只做无监督预训练,CD+FLM的zero-shot效果最佳。

2.无监督预训练+multitask finetuning,ED+MLM效果最佳。

3.CD+FLM获得最佳语言模型,进过ND MLM adaptation,再通过multitask,效果最佳。

为什么只用decoder-only?

苏建林:理论上encoder的双向注意力会存在低秩,带来表达能力下降,decoder-only的attention是满秩的,encoder-decoder在某些场景更好,大概只是因为其多了一倍参数。

http://www.mmbaike.com/news/73146.html

相关文章:

  • 新华路网站建设济南网站建设公司
  • 网站布局设计理由跨境电商怎么做
  • 建设项目环境影响评价公示网站网站优化公司怎么选
  • 阿里云外贸建站卢松松外链工具
  • 用easyui做的网站可以免费投放广告的平台
  • 南山网站设计方案网络营销推广优化
  • 网站框架搭建设计搜狗网站收录
  • 海淀做网站seo数据是什么
  • 重庆市建设施工安全网站网站开发平台有哪些
  • 网站制作真人游戏娱乐平台怎么做武汉网络推广有哪些公司
  • 优斗士网站建设网址浏览大全
  • 联通的网站是谁做的大数据免费查询平台
  • 楼盘怎么在网站上做推广百度热搜榜排名
  • 南京网站建设招聘社交媒体营销三种方式
  • 学校网站建设是什么意思seo实战技巧
  • wordpress+模版+推荐谷歌seo是什么
  • 网站开发员属于网站设计方案
  • 域名备案通过后怎么做网站seo常见的优化技术
  • 阿里有做网站网络营销策划方案论文
  • 手机网站制作服务seo流量是什么意思
  • 郑州高新区做网站开发的公司农夫山泉软文300字
  • 怎么做网站音乐厦门seo报价
  • 做网站平台应该注意哪些百度推广客户端app
  • 公司网站后台维护怎么做衡阳网站建设公司
  • 网站规划和布局厦门网站制作
  • 怎么成立网站陕西网站推广公司
  • 网站建设的中期目标关键词有哪些
  • mastergo网页设计教程搜索引擎优化策略有哪些
  • 郑州的建设网站有哪些手续太原百度推广开户
  • 新开网络游戏排行百度关键词优化手段