当前位置: 首页 > news >正文

企业做网站天津优化疫情政策

企业做网站天津,优化疫情政策,wordpress 修改域名,黄石网站建设公司transformer初探 self-attentionmultihead-attentionencoderdecoder self-attention 其实就是三个矩阵, W q W_q Wq​、 W k W_k Wk​、 W v W_v Wv​,这三个矩阵就是需要训练的参数。分别得到每个token对应的 q q q k k k v v v,其中 q …

transformer初探

        • self-attention
        • multihead-attention
        • encoder
        • decoder

self-attention

其实就是三个矩阵, W q W_q Wq W k W_k Wk W v W_v Wv,这三个矩阵就是需要训练的参数。分别得到每个token对应的 q q q k k k v v v,其中 q q q k k k 用来计算每个token之间的相似度,这里一般称为attention scores,然后通过一个Soft-max作一个norm。

拿到attention scores以后呢,既然已经知道了token的之间的“关联性”,再分别和 v v v作一个简单的加权求和,最后得到attention以后的输出 b b b

值得注意的是,上述操作是可以通过矩阵表示的,如下所示

multihead-attention

其实就是把前面一小节得到的 q q q k k k v v v 作一个拆分,每一个都拆成 n n n份,其中 n n n是head的数量。在 q q q k k k v v v的第 i i i个head中,都只与对应head作计算,然后将结果拼接起来就好。

encoder

encoder输入还会考虑一个位置编码,一起嵌入到Embedding表示后的token中。

整个计算过程也很直观

decoder

这里有一个很关键的点是,在encoder中只有self-attention,因为是一次性输入所有的token,计算每个token之间的关联性,得到一个编码后的输出。但是decoder是一个一个输入,每输入一个产生一个输出,虽然说这一步也可以用矩阵并行计算,其原理就是masked-attention。计算 b 1 b^1 b1的时候,我们只考虑 a 1 a^1 a1,计算 b 2 b^2 b2的时候,我们考虑 a 1 a^1 a1 a 2 a^2 a2,依此类推。实现原理其实就是一个mask矩阵。

值得注意的是,在decoder中mask-attention后的输出,还会和encoder的输出再作一次attention,这被称为cross-attention。self-attention是同一个序列计算得分,而cross-attention是两个不同序列计算得分。

总结一下,encoder输入src序列,docoder输入target序列,最后将decoder的输出和target序列作一个cross entropy,优化的目标就是两个分布越接近越好。其实这一步可以看成一个分类,而类别就是词汇表的单词的总数?

http://www.mmbaike.com/news/69544.html

相关文章:

  • 龙华网站建设设计制作公司汕头seo排名收费
  • 女生做a视频的网站是什多少seo是什么公司
  • 可以做烟的网站吗seo教程论坛
  • 蚌埠集团网站建设中小企业管理培训班
  • 佛山模板网站建设做网页的网站
  • 正能量网站免费下载中国十大企业培训公司
  • 杭州建设网站的公司哪家好bing搜索引擎国内版
  • 新闻网站运做搜索引擎优化seo专员
  • 做传奇网站报毒怎么处理网络营销推广工具
  • 做美团网站多少钱数据统计网站
  • 手机端网站关键字排名网站创建免费用户
  • 天津品牌网站建设sem推广是什么意思
  • 网站底部设计成都关键词优化排名
  • php做网站后台有哪些框架电商网站建设平台
  • 外贸公司网站如何做网上推广广州seo网络培训课程
  • 中国大基建最新消息惠州seo怎么做
  • 简单公司网站谷歌搜索优化seo
  • 建设网站的报价微信小程序开发多少钱
  • php可以做网站手机网站建设平台
  • 怎样辨别自己网站的好坏各大引擎搜索入口
  • 用wordpress搭建网站优化绿松石什么意思
  • 做网站设计要多少钱百度seo培训
  • 网站设计摘要 优帮云品牌推广方案案例
  • 北流网站建设百度云资源搜索网站
  • 网站建设与运营的课程标准站长素材音效网
  • 做网站优化推广百度信息流开户多少钱
  • 网站开发价格 北京网络广告策划书
  • 中原区建设局网站网站运营是做什么的
  • 关键词优化案例中山seo
  • 用HBuilder做网站的模板方象科技服务案例