当前位置: 首页 > news >正文

门户网站开发公司排名外贸推广平台哪个好

门户网站开发公司排名,外贸推广平台哪个好,wordpress 展示主题,网站空间的控制面板首页大多数科学知识通常以可移植文档格式(PDF)的形式存储,这也是互联网上第二突出的数据格式。然而,从这种格式中提取信息或将其转换为机器可读的文本具有挑战性,尤其是在涉及数学表达式时。 为了解决这个问题&#xff0c…

大多数科学知识通常以可移植文档格式(PDF)的形式存储,这也是互联网上第二突出的数据格式。然而,从这种格式中提取信息或将其转换为机器可读的文本具有挑战性,尤其是在涉及数学表达式时。

为了解决这个问题,以前的研究提出了光学字符识别(OCR),这是一种检测和分类图像中单个字符和单词的有效技术,通过将科学文献视为图像来处理科学文献,但它们无法捕捉句子之间的关系逐行处理句子。

在一篇新论文《Nougat:学术文献的神经光学理解》中,Meta AI研究团队提出了学术文献的神经光学理解(Nougat),这是一种视觉转换器模型,可以有效地将PDF格式存储的科学文献转换为轻量级标记语言,甚至涉及密集的数学方程式。

2023-09-02T03:24:28.png

该团队将他们的主要贡献总结如下:

1、发布能够将PDF转换为轻量级标记语言的预训练模型。我们在 GitHub 上发布代码和模型。

2、我们引入了一个管道来创建数据集,用于将 PDF 与源代码配对。

3、我们的方法仅依赖于页面的图像,允许访问扫描的纸张和书籍。

2023-09-02T03:25:03.png

拟建的Nougat以Donut建筑为基础。Swin-Transformer编码器将文档图像作为输入,并输出一系列潜在嵌入。接下来,通过具有自回归方式的交叉关注的变换器解码器架构,将编码图像解码为令牌序列。最后,输出被投影到词汇表的大小。

值得注意的是,研究人员利用视觉文档理解的最新进展来完成新的OCR任务,但与以前的方法相反,Nougat不需要依赖OCR或嵌入式文本表示,只需要光栅化的文档页面。

2023-09-02T03:25:20.png

在他们的实证研究中,该团队将Nougat与基线模型GROBID进行了比较,Nougat在所有指标中都达到了最高性能,包括编辑距离,BLEU,METEOR和F-measure。

总体而言,这项工作表明,Nougat不仅具有从数字出生的PDF中提取文本的巨大潜力,而且可以处理扫描的纸张和教科书。该团队希望他们的工作可以作为未来相关领域更多研究的起点。

该代码可在项目的GitHub上找到。

论文Nougat:arXiv学术文献的神经光学理解。

http://www.mmbaike.com/news/38209.html

相关文章:

  • 做牙科设计的网站网站关键词优化报价
  • 创意网站建设网络营销公司名字大全
  • 网页设计网站的设计与规划app拉新一手渠道商
  • 做网页的网站抖音优化是什么意思
  • 新问网站设计seo 优化技术难度大吗
  • 360免费wifi创建失败鸡西网站seo
  • 网站建设合同纠纷创意营销策划方案
  • 招商门户网站建设方案一键优化下载安装
  • 建设部招投标网站域名注册平台
  • 齿轮机械东莞网站建设技术支持seo查询是什么
  • 娄底做网站郑州网站建设最便宜
  • 企业文化pptseo推广软
  • 怎样做打赏网站免费网站alexa排名查询
  • 卦神岭做网站最新疫情爆发
  • 怎么制作个人求职网站网络推广运营是做什么
  • 重庆万州网站建设百度搜索排名优化哪家好
  • 做景观设计比赛的网站免费技能培训网
  • 西安手机网站制作选择一个产品做营销方案
  • 泉州网站建设价格2023年9月疫情又开始了吗
  • 直播网站开发价格推广怎么推
  • 招标网站靠谱吗考拉seo
  • 重庆酉阳网站设计公司优化网站平台
  • 网站咨询窗口怎么做seo网站推广软件
  • 设计基础网站推荐游戏优化
  • 建e网360全景制作关键词优化外包
  • 合肥网站推广培训郑州百度seo
  • 二级域名怎么注册网站优化工具
  • 网站页面管理北京seo技术交流
  • 做网站第一怎么制作网页设计
  • 做装饰公司网站襄阳seo培训