当前位置: 首页 > news >正文

城乡厅建设部网站首页企业seo关键词优化

城乡厅建设部网站首页,企业seo关键词优化,领地免费网站程序,做独立网站Lora:Low-Rank Adapation of Large Language modelsIntroductionMethodExperiment代码Introduction 这篇论文最初与21.06上传与arXiv,作者指出在当时,NLP的一个重要范式是先训练一个通用领域的模型然后在通过微调适应不同的领域与数据&#…

Lora:Low-Rank Adapation of Large Language models

  • Introduction
  • Method
  • Experiment
  • 代码

Introduction

这篇论文最初与21.06上传与arXiv,作者指出在当时,NLP的一个重要范式是先训练一个通用领域的模型然后在通过微调适应不同的领域与数据,但是对于当时的大模型来说,是十分昂贵的,于是作者提出了一个叫Low-Rank- Adaptation的方法,也叫Lora,它冻结了Pre-Train model ,然后在Transformer的每一层注入了可训练的 rank decomposition matrices,作者指出与 用了Adam的GPT-3相比,需要更新的参数量少了10000倍,显存少了三倍,性能也有略微提升。

作者假设在微调时,Pre-train model的权重矩阵在过度更新参数时,它的权重矩阵的秩是很低的,于是作者的想法就是把 一些Dense layer的权重替换成低秩分解矩阵,然后作者发现效果也不错。

在这里插入图片描述

Lora主要有这些优势:

  1. 一个Pre-train model可以用来为不同的任务建立许多小的LoRA模块,可以冻结共享模型,并通过替换图1中的矩阵A和B来有效地切换任务,从而大大减少存储需求和任务切换的开销。
  2. Lora 更高效并且降低了硬件门槛。
  3. 在推理时,可以把图一中两种颜色的矩阵合并,与完全finetune的速度没有差别。
  4. LoRA与许多先前的方法是不相关的,并且可以与许多方法相结合。

作者又介绍了一些符号的定义:(这里我直接词典翻译)
术语和惯例 我们经常提到Transformer架构,并对其维度使用常规术语。我们把Transformer层的输入和输出维度大小称为model。我们用Wq、Wk、Wv和Wn来指代self-attention模块中的查询/键/值/输出投影矩阵。W或W0指的是预训练的权重矩阵,∆W指的是适应过程中的累积梯度更新。我们用r来表示一个LoRA模块的秩。我们遵循(Vaswani等人,2017;Brown等人,2020)规定的惯例,使用Adam(Loshchilov & Hutter,2019;Kingma & Ba,2017)进行模型优化,并使用Transformer MLP前馈维度dfn=4×dmodel。

Method

一个神经网络包含许多dense layers,它们通常都是满秩的,但是通过下游任务微调后,这些权重矩阵通常是低秩的,但是他们仍然可以有效学习。作者收到启发,假设Pre-Train model 的权重矩阵为 w0:

在这里插入图片描述

冻结它,引入新的底秩分解矩阵 :

在这里插入图片描述

这里有些类似于1 * 1 conv的形式,中间的 维度 r 都是为在加速的前提下尽可能保留更多的信息,r的选择我认为作者应该会考虑与完全 finetune 权重矩阵的秩差不多的数。其中 W0 与 BA (其中BA与图1对应)与相同的Input 做矩阵乘法,然后二者在求和。

公式如下:

在这里插入图片描述
其中A通过正态分布 初始化,B则全0,所以BA也是全0矩阵。

这个额外的矩阵是支持热‘插拔的’,是指我可以在不同的下游任务应用不同的矩阵,比如我想做词性标注,我只需要原始的Pre-train model 加上在词性标注数据上finetune 的 BA就可以了,并且速度不受影响。

Experiment

在这里插入图片描述

代码

from peft import get_peft_model, LoraConfig, TaskTypepeft_config = LoraConfig(task_type=TaskType.CAUSAL_LM, inference_mode=False, r=8, lora_alpha=32, lora_dropout=0.1,target_modules=['query_key_value']
)model = "加载的模型"
model = get_peft_model(model, peft_config)
# 打印参数情况
model.print_trainable_parameters()
接下来和正常训练模型一样
http://www.mmbaike.com/news/100167.html

相关文章:

  • wordpress修改字体加载百度seo可能消失
  • html5做旅游网站网络推广策划方案模板
  • 网站建设及优化 赣icp独立站seo
  • 深圳中心网站建设指数分布的分布函数
  • 有哪些可以在线做app的网站有哪些google play官网
  • 网站建设找哪家好全网营销外包
  • 网站导航栏一般有什么内容chrome官网下载
  • 网站关于我们模板seo实战培训学校
  • wordpress 搭建多站点最近一周新闻热点回顾
  • nas可以做网站下载服务器吗百度地图优化
  • 企业外部网站建设广州网站优化方式
  • 公司网站内容如何做网络营销的八种方式
  • fomo3d 网站怎么做关键词优化快速
  • 沈阳模板建站公司推荐衡水网站seo
  • 做问卷赚钱最好似网站天津seo优化
  • 广州网站建设优化网站主题
  • 一份完整的活动策划网站优化有哪些类型
  • 新疆克拉玛依区建设局网站seo排名是什么
  • 公司网站代码模板下载服务器ip域名解析
  • 济南环保局官方网站浙江网站建设制作
  • 制作网站专业网络营销策略包括哪四种
  • 网站设计有哪几种设计方法网络推广整合平台
  • wordpress盗版模板济南网站优化公司哪家好
  • 无锡网站优化推广广告最多的网站
  • 武汉做网站的价格今天发生了什么重大新闻
  • 烟台做网站哪里好市场调研报告怎么写范文
  • 做网站需要购买服务器吗国内新闻摘抄2022年
  • 济南做网站优化的公司南宁百度推广代理商
  • flash网页设计上海网站seo优化
  • 网站建设银行卡死期存款提前取出网络营销战略