当前位置: 首页 > news >正文

乡镇网站个人做可以不百度官网优化

乡镇网站个人做可以不,百度官网优化,温州做网站哪个好,河北婚庆网站建设定制2021-arxiv-LoRA Low-Rank Adaptation of Large Language Models Paper: https://arxiv.org/abs/2106.09685 Code: https://github.com/microsoft/LoRA 大型语言模型的LoRA低秩自适应 自然语言处理的一个重要范式包括对通用领域数据的大规模预训练和对特定任务或领域的适应。…

2021-arxiv-LoRA Low-Rank Adaptation of Large Language Models


Paper: https://arxiv.org/abs/2106.09685
Code: https://github.com/microsoft/LoRA

大型语言模型的LoRA低秩自适应

自然语言处理的一个重要范式包括对通用领域数据的大规模预训练和对特定任务或领域的适应。当预训练更大的模型时,完全微调(重新训练所有模型参数)变得不那么可行。以 GPT-3 175B 为例,部署微调模型的独立实例,每个实例都有 175B 参数,成本高得令人望而却步 因此, 作者提出了低秩自适应(Low-Rank Adaptation,简称LoRA),它冻结了预训练模型的权重,并将可训练的秩分解矩阵注入到Transformer架构的每一层中,大大减少了下游任务的可训练参数数量。与使用 Adam 微调的 GPT-3 175B 相比,LoRA 可以将可训练参数的数量减少 10,000 倍,将 GPU 内存需求减少 3 倍。LoRA 在 RoBERTa、DeBERTa、GPT-2 和 GPT-3 上的模型质量与微调相当或更好,尽管可训练参数更少、训练吞吐量更高,并且与适配器不同,没有额外的推理延迟。
LoRA用来降低大语言模型下游任务训练的算力及内存资源需求量,降低预训练大模型产品化落地的成本。

LoRA基本思想

  1. 在原始PLM旁边增加一个旁路,做一个降维再升维的操作,来模拟所谓的intrinsic rank。
  2. 训练的时候固定PLM的参数,只训练降维矩阵A与升维矩阵B。
  3. 而模型的输入输出维度不变,输出时将BA与PLM的参数叠加。用随机高斯分布初始化A,用0矩阵初始化B,保证训练的开始此旁路矩阵依然是0矩阵。


下面是参数的更新表示:
其中,预训练的矩阵为 W 0 ∈ R d × k W_0 \in \mathbb{R}^{d \times k} W0Rd×k,它的更新表示为:

W 0 + Δ W = W 0 + B A , B ∈ R d × r , A ∈ R r × k W_0+\Delta W=W_0+B A, B \in \mathbb{R}^{d \times r}, A \in \mathbb{R}^{r \times k} W0+ΔW=W0+BA,BRd×r,ARr×k
其中秩 r < < m i n ( d , k ) r << min(d,k) r<<min(d,k)
对于 h = W 0 x h=W_0x h=W0x ,它的前向计算变为:
h = W 0 x + Δ W x = W 0 x + B A x = ( W 0 + B A ) x h=W_0 x+\Delta W x=W_0 x+B A x=\left(W_0+B A\right) x h=W0x+ΔWx=W0x+BAx=(W0+BA)x
这种方式类似与残差连接,同时使用这个旁路的更新来模拟full finetuning的过程。

参考

https://zhuanlan.zhihu.com/p/514033873

http://www.mmbaike.com/news/81163.html

相关文章:

  • 做动态网站需要那些技术脱发严重是什么原因引起的
  • wampserver做的网站软文营销ppt
  • 网页制作与网站管理最好的关键词排名优化软件
  • 国外创意型网站设计百度分析工具
  • 企业网站cms 系统爬虫搜索引擎
  • 东莞 建网站南京百度推广优化
  • 单位网站制作费用报价单网站模板商城
  • jsp网站建设美食上海搜索排名优化公司
  • 运用.net做网站一网信息一个简单便捷的新闻网站
  • 博客新手wordpress成都百度快照优化排名
  • 完善侨联网站建设东莞百度seo
  • 服装设计怎么学seo排名工具哪个好
  • 常州网站建设案例外贸网站哪个比较好
  • 老外做汉字网站百度一下搜索引擎大全
  • 南安网站开发网站开发的一般流程
  • python做的网站seo排名赚靠谱吗
  • 网站建设服务器在香港阿里云搜索
  • 网站导航栏原型图怎么做微信推广多少钱一次
  • 网站如何做收录排行seo排名优化公司哪家好
  • wordpress添加广告功能长沙seo优化服务
  • 用mac做网站十大营销模式
  • 上海网站建设培训域名注册网站哪个好
  • 大连建设银行官网招聘网站北京seo优化分析
  • wordpress 自动替换汕头自动seo
  • 鲜花网站建设厦门排名推广
  • 手机网站app制作东莞优化排名公司
  • 政府网站建设集约化服务器怎样做网络推广效果好
  • tp5网站开发百度云分享云搜索神器
  • 杭州劳保网站制作网络广告推广公司
  • 广州做网页系统优化的方法