当前位置: 首页 > news >正文

织梦网站程序下载海门网站建设

织梦网站程序下载,海门网站建设,wordpress smtp mail,天水网站建设博客Diffusion Models专栏文章汇总:入门与实战 前言:训练过DiT模型的读者们肯定有所体会,相比于UNet模型训练难度大了很多,模型不仅很难收敛,而且非常容易训崩,其中一个很重要的原因是没有进行表征对齐&#xf…

Diffusion Models专栏文章汇总:入门与实战

前言:训练过DiT模型的读者们肯定有所体会,相比于UNet模型训练难度大了很多,模型不仅很难收敛,而且非常容易训崩,其中一个很重要的原因是没有进行表征对齐!这篇博客详细介绍表征对齐在训练DiT模型中的重要性。

 

目录

训练过程的问题

训练DiT模型为什么慢?

仅仅依赖"渲染"损失是不够的

多层DiT之间表征能力的区别

表征对齐的具体方法

相关资料


训练过程的问题

扩散模型虽然强大,但训练起来却是个噩梦。训练一个DiT/SiT模型需要700万次迭代,要跑好几周才能达到论文里报告的FID分数。

这简直是在考验研究者的耐心和计算资源!

训练DiT模型为什么慢?

  • 扩散transformer 确实能学到不错的表征,而且生成效果越好,表征质量也越高。

  • 但是,这些表征还是比不上像DINOv2、JEPA或MAE这些自监督学习方法得到的表征。

  • 当我们测量扩散模型特征和DINOv2特征的对齐程度时,发现扩散模型在训练过程中确实在慢慢进步,但这个过程实在是太慢了。

仅仅依赖"渲染"损失是不够的

如果你只关注重建漂亮的像素,就无法过滤掉输入中的无关细节——而这恰恰是学习强大表征的关键。

看来,即使你的目标是生成好看的图像,你也需要先学习一个强大的表征,然后才能处理那些让图像看起来漂亮的细节。

多层DiT之间表征能力的区别

仅通过对齐前几个DiT块可以实现足够的表示对齐。反过来,这允许DiT的后续层专注于基于对齐表示捕获高频细节,进一步提高生成性能。

如下图,学习能力有一个峰值,在20层之后显著下降。

表征对齐的具体方法

REPA 通过最大化预训练表示 y∗ 和隐藏状态 ht 之间的补丁相似性来实现对齐:

最终的loss如下:

相关资料

- Paper: https://arxiv.org/abs/2410.06940  

- Project page: https://sihyun.me/REPA/  

- Code: https://github.com/sihyun-yu/REPA  

http://www.mmbaike.com/news/80566.html

相关文章:

  • 平邑网站定制免费优化推广网站的软件
  • 党员写试卷需要在哪个网站做班级优化大师头像
  • 学做网站要代码济南市新闻最新消息
  • b2b模式有哪些seo外包网站
  • 网站建设挣钱辽宁和生活app下载安装
  • 超频三网站谁家做的小学生收集的新闻10条
  • 免费代码编写网站怎么做网站卖产品
  • 北京网站建设公司分形科技品牌关键词优化哪家便宜
  • 宜昌做网站的公司最快新闻资讯在哪看
  • 网站建设是什么样的搜狗提交入口网址
  • 下沙网站制作福州seo视频
  • 化妆品网站建设计划书企业高管培训课程有哪些
  • 广告网站模板网站建设公司好
  • 卢湾网站建设关键一招
  • 商丘家居网站建设找谁做百度关键词排名
  • 元氏网站建设品牌公关具体要做些什么
  • jquery+js网站模板免费下载国际新闻视频
  • 企业宣传册模版长沙好的seo外包公司
  • 政务门户网站建设方案seo推广论坛
  • 网站上的支付接口怎么做写一篇软文多少钱
  • 如何做各大网站广告链接惠州百度seo
  • 做传销网站后果严重吗搜索推广公司
  • 学院网站怎么做的最新热搜新闻事件
  • 上海十大营销策划公司武汉seo工厂
  • 小工程承包app排名优化方案
  • 网站后台图片滚动效果怎么做北京cms建站模板
  • python做网站快吗新产品推广方案怎么写
  • 下载网址seo收录排名
  • 做鞋原料网站线上营销方案
  • 做网站的书知乎软文之家