当前位置: 首页 > news >正文

门店管理系统推荐seo首页网站

门店管理系统推荐,seo首页网站,营销导向网站建设,wordpress ftp 失败一、PDF文件介绍 PDF是英文Portable Document Format缩写,就是可移植的意思,它是以PostScript语言图象模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,PostScript咱也不懂,估计和SVG的原理差不多吧…

一、PDF文件介绍

PDF是英文Portable Document Format缩写,就是可移植的意思,它是以PostScript语言图象模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,PostScript咱也不懂,估计和SVG的原理差不多吧。

二、PDF文件格式

PDF文件是二进制数据,可以用Sublime的HexViewer打开。

1、首部

指明文件PDF版本号,%PDF-1.4 其中最后一位 4就是文件格式的版本号。

2、文件体

PDF文件主要部分,由一系列obj对象组成,类似如下格式

3 0 obj <<........>>endobj# 3 对象编号 0 修改次数

3、交叉引用表

用于索引各个obj 对象在文档中的位置,以实现随机访问

xref.0 180000000000 65535 f0000010112 00000 n.....# 0000000000 第一对象起始地址,修改次数 65535#(最大修改次数,表示不可再改, f 表示free # 这里可以看成文件头)# 0000010112 第二对象超始地址,n表示对象正在使用

4、尾部

指明文件体根对象和交叉引用表地址

trailer.<</Info 17 0 R/ID [<df2c5533d0ab7c62ee7732a5e375592a><b07f35295e287c0a5febcad25060ccbf>]/Root 16 0 R/Size 18>>.startxref.83511.%%EOF.# trailer 说明文件尾 trailer对象的开始# Size 18 该PDF文件的对象数目# Root 16 根对象的对象号为16# startxref.83511 交叉引用表地f址

三、解析PDF文件

Java PdfBox、Python的Pdfminer都可以解析出PDF中的文本,但无论哪个工具都只能把PDF文本一行行打印出来,具体的字段解析还是要自己用正则去匹配。

下面介绍一下Python3的pdfminer3k

1、安装 pip install pdfminer3k

2、pdfminer3k几个主要类介绍

PDFParser:从PDF文件中提取数据PDFDocument:PDF文档对象PDFPageInterpreter:处理页面内容

下面是解析简历PDF数据,需要把关键信息提取出来,刚从网上找了些代码简单实现了一下,代码还没有做任何异常处理,先能跑通再说。

注:这代码对扫描版本的PDF是没有办法解析出来的。

 

http://www.mmbaike.com/news/50936.html

相关文章:

  • 广告流量平台seo排名优化软件有用吗
  • 娄底seo排名seo优化一般多少钱
  • 政府门户网站建设提升方案免费网页代码大全
  • java做网站编程新手如何自己做网站
  • 黄页网站系统互联网推广的好处
  • 网站开发的技术方案推广营销是什么
  • 湖南省建设厅气源适配性目录2022搜索引擎网站排名优化方案
  • 福州网站建设方案深圳全网推广
  • b2c电子商务模式有哪些互联网seo是什么意思
  • 买了网站模版怎么做专业软文代写
  • 商丘做网站的电话腾讯广告推广平台入口
  • 四会建设局网站引擎优化
  • 如何做热词网站四川seo推广方案
  • 做网站需要阿里云吗石家庄seo网站管理
  • 商城网站互动性seo技术
  • 网站创建的基本流程优化的近义词
  • 网站制作全过程广州aso优化公司 有限公司
  • 深圳定做网站网络竞价
  • 成都网站建设创新互联福州seo优化
  • 最好用的企业网站cms网站开发费用
  • 台州网站制作咨询薇网站注册账号
  • 爱战网关键词查询网站今日最新头条新闻条
  • 网站部署环境游戏广告联盟平台
  • 珠海自适应网站设计网站如何推广
  • 怎么搭建网站 优帮云seo外包服务项目
  • 中英文网站开发公司seo基础知识培训
  • 网站设计开发深圳seo优化推广
  • 荆门城乡建设局网站百度网盘手机app下载安装
  • 义乌公司网站制作百度广告一天多少钱
  • 中国建设银行网站首百度seo分析工具