当前位置: 首页 > news >正文

重庆网站建设找重庆万为东莞seo代理

重庆网站建设找重庆万为,东莞seo代理,青岛 网站备案,wordpress只显示摘要使用transformers训练二分类任务时,训练损失异常大 问题分析 问题 training_loss异常大,在二分类损失中,收敛在1~2附近,而eval_loss却正常(小于0.5) 分析 参考: Bug in gradient accumulation…

使用transformers训练二分类任务时,训练损失异常大

  • 问题
  • 分析

问题

training_loss异常大,在二分类损失中,收敛在1~2附近,而eval_loss却正常(小于0.5)

分析

参考:
Bug in gradient accumulation training_step in huggingface Trainer?
Fix Gradient Accumulation issue
使用解决了多卡gradient accumulation严重BUG的最新transformer库(以及对应的trl库),DPO训练的时候LOSS变为之前的好几倍
New GA fix causes training loss multiple times higher across the board (5x to 10x higher)

版本:trainsformer==4.46.0

怀疑启用training_args.gradient_accumulation_steps后,training_loss变大。
请添加图片描述

请添加图片描述

对比后发现,确实启用GA后,training_loss会变大,差不多是不启用GA的4倍。

这下差不多可以确定,在启用GA后,training_loss乘上了GA。

看到社区也有很多人在讨论这个问题,目前transformers最新版本是4.46.3,不知道是否解决了这个问题。

最新版本是4.46.3,不知道是否解决了这个问题。

transformers怎么这么多bug…


20241122:实测4.46.3版本还是未解决使用GA后,训练损失偏大的问题。

http://www.mmbaike.com/news/77083.html

相关文章:

  • 帮人做网站一个多少钱品牌策划方案模板
  • canonical wordpress宝鸡seo优化
  • 自己做网站都要什么软件关键词都有哪些
  • 楼盘怎么在网站上做推广网络推广包括哪些
  • 决定网站打开的速度淘宝站内推广方式有哪些
  • wap免费建站程序潍坊做网站公司
  • 开发app需要什么设备seo搜索优化专员招聘
  • 贵州专业建网站百度代发收录
  • 网页实训报告总结1000字整站优化快速排名
  • 宁波网站建设与设计开发产品经理培训哪个机构好
  • 昆明做网站深圳做网站公司
  • 用asp做网站需要的软件站长工具同大全站
  • 聊城商城网站建设济南seo优化外包服务公司
  • 代做ppt网站网站关键词推广
  • 大同网站建设哪里好谷歌搜索引擎seo
  • 网站制作公司汉狮网络上海百度seo公司
  • 南宁网站建设哪家公司实力强建网站怎么赚钱
  • 网站响应是什么小吃培训去哪里学最好
  • 各种类型网站建设售后完善广告公司是做什么的
  • 建筑网页设计windows优化大师官方下载
  • 郑州模板网站建设简述网站推广的意义和方法
  • 必要网站用什么做的灵宝seo公司
  • 苏格网站建设seo网站外包公司
  • 大连网站建设仟亿科技一般网站推广要多少钱
  • 经营网站赚钱绍兴seo优化
  • 贵州做网站的公司9个成功的市场营销案例
  • 企业做网站的流程网站宣传的方法有哪些
  • 政府网站建设赏析百度管理员联系方式
  • 做封面网站百度竞价推广后台
  • 北京软件开发公司企云云成都网站优化