当前位置: 首页 > news >正文

茶叶网站设计网推和地推的区别

茶叶网站设计,网推和地推的区别,厦门定制型网站建设,app源码购买(一)BERT 由Bidirectional Encoder Representations from Transformers的首字母组成,是encoder-only结构类型的代表。 模型分预训练和微调两步,预训练任务有两类:masked language model(MLM)、next sentence predict…

(一)BERT

Bidirectional Encoder Representations from Transformers的首字母组成,是encoder-only结构类型的代表。

模型分预训练和微调两步,预训练任务有两类:masked language model(MLM)、next sentence prediction(NSP);微调时全部参数都更新

模型结构

输入序列总是以[CLS]这一特殊token开头,其在最后一个隐藏层的向量表示记为C,C是输入序列的整合表示,在分类任务中,C被喂进输出层。两个句子之间以[SEP]这个token分割。

预训练

Task #1: Masked LM

输入序列中15%的token被随机mask,被mask的token的最后隐藏层向量表示链接一个softmax输出层,维度为词典大小,预测被mask的token是什么。

Task #2: Next Sentence Prediction (NSP)

任务1是一个句子内,token粒度的学习,而QA和推断任务都是基于对句子之间关系的理解。所以任务2是为了学习句子之间的关系而设计的。训练数据中句子A和句子B,预测B是否A的下一句。

微调

几类微调任务:下图中a和b是sequence-level任务,c和d是token-level任务

bert、GPT、elmo的区别

(二)BART

Bidirectional and Auto-Regressive Transformers首字母缩写,BART结合双向和自回归Transformer 对模型进行预训练

预训练包括两步:1)使用任意噪声函数破坏文本;2)学习模型来重建原始文本。

BERT难用于生成任务,GPT无法学习双向交互。BART使用双向模型编码被破坏的文本(左),然后使用自回归解码器计算原始文档的似然(右)。至于微调,未被破坏的文档是编码器和解码器的输入,研究者使用来自解码器最终隐藏状态的表征。

架构

BART采用标准的transformer,除了将激活函数从ReLU改为GeLU这一小改动。

base模型encoder和decoder各6层,large模型各12层。

预训练

BART训练是通过破坏原文档,然后优化重构损失——decoder的输出和原文档的交叉熵

噪声变换:

  • token 掩码:按照 BERT 模型,BART 采样随机 token,并用掩码替换它们。
  • token 删除:从输入中随机删除 token。与 token 掩码不同,模型必须确定缺失输入的位置。
  • 文本填充:采样多个文本段,文本段长度取决于泊松分布 (λ = 3)。用单个掩码 token 替换每个文本段。长度为 0 的文本段对应掩码 token 的插入。
  • 句子排列变换:按句号将文档分割成多个句子,然后以随机顺序打乱这些句子。
  • 文档旋转:随机均匀地选择 token,旋转文档使文档从该 token 开始。该任务的目的是训练模型识别文档开头。
模型微调

序列分类任务

序列分类任务中,编码器和解码器的输入相同,最终解码器 token 的最终隐藏状态被输入到新的多类别线性分类器中。该方法与 BERT 中的 CLS token 类似,不过 BART 在解码器最后额外添加了一个 token,这样该 token 的表征可以处理来自完整输入的解码器状态(见图 3a)。

token 分类任务

对于 token 分类任务,例如SQuAD答案提取——起始点判断,将完整文档输入到编码器和解码器中,使用解码器最上方的隐藏状态作为每个单词的表征。该表征的用途是分类 token。

序列生成任务

由于 BART 具备自回归解码器,因此它可以针对序列生成任务进行直接微调,如抽象问答和摘要。在这两项任务中,信息复制自输入但是经过了处理,这与去燥预训练目标紧密相关。这里,编码器的输入是输入序列,解码器以自回归的方式生成输出。

机器翻译

用新的随机初始化编码器替换 BART 的编码器嵌入层。该模型以端到端的方式接受训练,即训练一个新的编码器将外来词映射到输入(BART 可将其去噪为英文)。新的编码器可以使用不同于原始 BART 模型的词汇。

源编码器的训练分两步,均需要将来自 BART 模型输出的交叉熵损失进行反向传播。第一步中,冻结 BART 的大部分参数,仅更新随机初始化的源编码器、BART 位置嵌入和 BART 编码器第一层的自注意力输入投影矩阵。第二步中,将所有模型参数进行少量迭代训练。

(三)T5

Text-to-Text Transfer Transformer

参考文章:https://www.bilibili.com/read/cv22768750/

(四)LLaMA

(五)GLM

LLM模型比较全的一个盘点:简单之美 | 大模型(LLMs)盘点跟踪

未完待续

http://www.mmbaike.com/news/59878.html

相关文章:

  • php网络公司网站源码微信营销的案例
  • 杭州营销型网站建设排名品牌广告策划方案
  • 网站外包价格国内搜索引擎
  • 网站建设与运营答案广告公司名称
  • 成都网站建设 小兵湘潭网站建设
  • 天元建设集团有限公司财务部电话seo好找工作吗
  • 东莞网站制作建设公司市场营销策略有哪些
  • html 图片展示网站做公司网站的公司
  • 网络公司排名三个字公司aso优化软件
  • 公司网站建设宣传吉安seo
  • 网站建设的感想济南专业seo推广公司
  • 网站优化方案教程公关公司排行榜
  • 有做分期海淘的网站吗淘宝流量网站
  • 织梦网站后台登陆实时军事热点
  • 网站开发最新架构市场营销策划包括哪些内容
  • 绍兴做网站百度快照怎么删除
  • 做jsp网站的步骤广东云浮疫情最新情况
  • 软件项目管理pdf惠州seo管理
  • 做的网站怎么上传图片宁波网站推广网站优化
  • 黑色门户网站源码深圳网站建设资讯
  • 广州建设工程质量安全网站电脑培训班有哪些科目
  • 太原优化网站排名如何优化关键词搜索
  • 有哪些可以做问卷赚钱的网站百度用户服务中心官网
  • b2b电子商务网站案例分析电商运营一天都干啥
  • 济南专业做公司网站的机构上海站群优化公司
  • 宝安做棋牌网站建设哪家服务好企业网站营销的优缺点及案例
  • 响亮大气的公司名字宁波品牌网站推广优化
  • 东莞清溪镇做网站公司百度推广如何代理加盟
  • 应用商店网站模板全国疫情最新消息
  • 城市建设网站鹤岗市长沙网站seo方法