当前位置：首页 > news >正文

做网站站长开通vip极速建站网站模板

news 2025/8/9 3:32:51

做网站站长开通vip,极速建站网站模板,怎样学做企业网站,wordpress 百度 seo论文解决了什么问题？ 提出了一个新的简单网络架构——transformer，仅仅是基于注意力机制，完全免去递推和卷积，使得神经网络训练地速度极大地提高。 We propose a new simple network architecture, the Transformer, based sole…

论文解决了什么问题？

提出了一个新的简单网络架构——transformer，仅仅是基于注意力机制，完全免去递推和卷积，使得神经网络训练地速度极大地提高。

We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely.

论文采用了什么方法？

用多头注意力取代推导层。

论文达到了什么效果？

该论文提出的模型，在WMT2014英语翻译德语和英语翻译法语的任务实验中，打破了当时的最好记录，并且其训练成本仅仅是最好模型的一小部分。
提出的模型成功地泛化到其他任务上。

Author：Google Brain

Key words:神经网络,transformer

Abstract：

作者提出了一个新的简单网络架构transformer。该模型是基于注意力机制，完全免去递推和卷积。模型的质量上更好，有着更好的并行性，训练地速度极大地减少，可以很好地泛化到其他任务中。

Introduction:

过去，关于语言模型和机器翻译，主要使用RNN、LSTM、GRNN。但这些模型中计算步骤是，使用前一个状态ht-1的输出来做为后一个状态ht的输入，这种顺序性质限制了其计算效率。尽管最近的工作提升了模型的性能，但其根本的顺序计算限制仍然存在。

Transformer模型就是为了解决这一个问题而提出来的，它有着显著更多的并行性并且在翻译质量上达到最先进水平。

Background:

transformer的目标是减少序列化计算，这同时也是ByteNet和ConvS2S的基础。但是这些模块中，被要求关联两个任意输入或输出位置的信号的操作数量随着位置间距离的增长而增长，这使得学习两个远距离位置的依赖关系困难。

提出自我注意力机制，是将单个序列不同位置联系起来以计算一个序列表示的注意力机制。

Model Architecture:

该章节主要讲解transformer的架构，是编码-解码架构。

编码器和解码器都是由6个相同层的堆栈组成。注意力函数被描述为将查询和一组键值对映射到输出，查询、键、值和输出都是向量。输出被计算为值的加权和。

缩放点积注意力：附加注意力使用具有一个单隐藏层的前反馈网络计算兼容性函数。

多头注意力：允许这个模型共同关注来自不同地点、不同表示子空间的信息。

注意力在模型中的应用：

1.在“encoder-decoder attention" layer中，这个查询来自之前的解码层。

2.编码器包含自我注意力层。

3.解码器中自注意力层允许解码器中每个位置关注解码器中达到并包含该位置的所有位置。

位置式前反馈网络：

除了注意力层，在我们”encoder-decoder“中的每一层包含了一个全连接前向反馈网络，这被分别相同地应用到每个位置。

嵌入和softmax：

使用学习嵌入去把输入标记和输出标记转换为维度dmodel的向量。

位置编码：

由于本文提出的模型中不包含递归或卷积，为使模型利用序列的顺序，必须投入一些有关序列中标记的相关或者绝对位置的信息。因此，把”位置编码“添加到在编码和解码栈底部的输入其纳入中。

Why Self-Attention:

作者把自注意力和循环层以及卷积层进行比较，体现自注意力的优点。

作者考虑使用自注意力的三个需求，

1.每层的总计算复杂度

2.可以并行化的计算量

3.网络中远程范围依赖之间的路径长度。

Training:

本章节即实验部分，作者使用WMT2014上的数据训练文章提出的模型，并得出实验结果。

Reults:

对于transfomer实验结果的分析，发现transformer在机器翻译的结果优于最新模型，并且在英语选区解析上的表现结果也出奇的好。

Conclusion:

1.本文提出了一个完全基于注意力的序列转导模型，用多头自我注意力取代在编码-解码架构中最常使用的推导层——Transformer。

2.未来计划将Transformer扩展到文本以外的输入和输出模式的问题。

参考资料：

国外大神写这篇文章非常通俗易懂

详解Transformer——知乎

Attention is all your need 精读

http://www.mmbaike.com/news/22817.html

相关文章：

wordpress数据库不稳定seo网站培训

做装修网站推荐客户靠谱吗ip域名查询网站入口

网站干什么的seo关键词优化外包公司

八度网站建设公司管理培训课程大全

做网站赚钱吗怎么赚钱seo流量是什么意思

个人备案可以做影视网站吗淘宝推广怎么推

网络营销推广的问题正规seo关键词排名哪家专业

做做做网站全国31省市疫情最新消息今天

从零开始学做网站百度快照是干嘛的

怎么做网络销售的网站某个网站seo分析实例

wordpress 管理后台搜索引擎优化需要多少钱

静态网站怎么做滚动文字怎么制作链接网页

免费网站奖励自己游戏销售平台软件有哪些

公司网站建设入账关键词挖掘ppt

网站登录按纽是灰色的手机百度seo快速排名

郑州河北建设工程信息网站网站收录提交入口网址

网站建设所有权seo课堂

草桥做网站的公司百度如何搜索网址

中文域名查询网站有域名后如何建网站

网站seo优化方案项目策划书深圳网络推广公司有哪些

b2c网站制作外贸出口平台网站

个人网站经营合法么百度在线扫一扫

百度做自己的网站艾滋病阻断药

app客户端网站建设方案关键词优化如何做

新网站seo外包最好用的磁力搜索器

重庆建设工程造价管理协会网站搜索引擎营销案例分析题

洪梅网站建设百度com百度一下你

博山专业网站优化哪家好怎么免费注册域名

温州做网站掌熊号seo教程技术优化搜索引擎

wordpress公众号模板下载搜索引擎优化的核心是