当前位置: 首页 > news >正文

成都疫情防控最新消息广州seo学徒

成都疫情防控最新消息,广州seo学徒,mweb wordpress,设计网页的详细步骤文章目录 一、前言二、实现方法1. 目录结构2. 代码 一、前言 此方法只能转文本格式的pdf,如果是图片格式的pdf需要用到ocr包,以后如果有这方面需求再加这个方法 二、实现方法 1. 目录结构 2. 代码 pdf2txt.py 代码如下 #!/usr/bin/env python # -*- …

文章目录

  • 一、前言
  • 二、实现方法
    • 1. 目录结构
    • 2. 代码


一、前言

此方法只能转文本格式的pdf,如果是图片格式的pdf需要用到ocr包,以后如果有这方面需求再加这个方法


二、实现方法

1. 目录结构

在这里插入图片描述


2. 代码

pdf2txt.py 代码如下

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import json
import osfrom pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage, PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParamsdef batch_process(src_dir, tgt_dir):'''批处理:return:'''for pdf_name in os.listdir(src_dir):pdf_path = os.path.join(src_dir, pdf_name)text_path = os.path.join(tgt_dir, f'{os.path.splitext(pdf_name)[0]}.txt')json_path = os.path.join(tgt_dir, f'{os.path.splitext(pdf_name)[0]}.json')pdf_utils = PDFUtils()pdf_list = pdf_utils.pdf2list(pdf_path)# pdf2txtwith open(text_path, mode='w', encoding='utf-8') as f:f.write(''.join([''.join(page) for page in pdf_list]))# pdf2jsonwith open(json_path, mode='w', encoding='utf-8') as f:f.write(json.dumps(pdf_list, ensure_ascii=False))class PDFUtils():def __init__(self):passdef pdf2list(self, path):pdf_list = []   # 二维数组,一维放页,二维放行with open(path, 'rb') as f:praser = PDFParser(f)doc = PDFDocument(praser)if not doc.is_extractable:raise PDFTextExtractionNotAllowedpdfrm = PDFResourceManager()laparams = LAParams()device = PDFPageAggregator(pdfrm, laparams=laparams)interpreter = PDFPageInterpreter(pdfrm, device)for page_idx, page in enumerate(PDFPage.create_pages(doc)):line_list = []   # 保存每行数据# print(page_idx)interpreter.process_page(page)layout = device.get_result()for line_idx, line in enumerate(layout):# print(line_idx)if hasattr(line, "get_text"):content = line.get_text()# print(content)# output = StringIO()# output.write(content)# content = output.getvalue()# output.close()# print(content)if content and content.replace(' ', '') != '\n':line_list.append(content)# print(content)pdf_list.append(line_list)# output.close()return pdf_listif __name__ == '__main__':# pdf目录src_dir = './pdf'# 生成的txt和json文件的保存目录tgt_dir = './text_and_json'# 批量转换batch_process(src_dir, tgt_dir)
http://www.mmbaike.com/news/34550.html

相关文章:

  • 中国电子商务公司排名seo快速排名代理
  • 怎么找回网站哈尔滨新闻头条今日新闻
  • 自建网站做外贸网络营销的方式有哪些
  • 网站后台验证码不显示可以免费打广告的网站
  • 电商网站设计素材浏览器打开是2345网址导航
  • 廊坊哪里能够做网站优化新十条
  • 如何给网站加引导页网站友情链接怎么添加
  • 网站开发一个多少钱百度收录站长工具
  • 女生做网站推广推广普通话的宣传语
  • 什么软件做网站营销推广怎么做
  • it公司怎么在国外网站做宣传怎么做网站主页
  • 产品发布网站模板怎么卸载windows优化大师
  • 网站安全认证多少钱电商平台建设方案
  • 垫江集团网站建设电子商务主要学什么内容
  • 长春企业自助建站系统百度一下首页百度一下知道
  • 英文集团网站设计建设软文营销的特点有哪些
  • c2c网站名称企业文化培训
  • Wordpress 手机端滑动应用商店aso优化
  • 化妆品公司网站模板营销新闻
  • 查询域名是否做过网站企业全网推广
  • 请将已备案网站接入访问软文发布的平台与板块
  • 电力建设官方网站sem竞价专员
  • 没有有知道钓鱼网站在哪儿做谷歌浏览器2021最新版
  • wordpress集成收藏功能旺道seo软件技术
  • pc端网站优缺点怎么进行推广
  • 有哪些专门做减肥内容的网站杭州seo建站
  • wordpress国内网络优化公司哪家好
  • 天津电子商务网站建设sem和seo的关系
  • 南宁网站开发gxjzdrj谷歌seo综合查询
  • 模糊背景网站总裁培训班