当前位置: 首页 > news >正文

wordpress图片设置水印广州seo外包

wordpress图片设置水印,广州seo外包,国外网站空间放置成人内容,泰安做网站优化如何精准地提取PDF格式中嵌入的表格数据,并将其无缝转换为更加易于分析和操作的形式,如纯文本、CSV文件或Excel工作表,是一项重要的文档处理技巧。使用Java,我们可以简单地实现这一过程。本文将介绍如何利用Java从PDF文档提取表格…

如何精准地提取PDF格式中嵌入的表格数据,并将其无缝转换为更加易于分析和操作的形式,如纯文本、CSV文件或Excel工作表,是一项重要的文档处理技巧。使用Java,我们可以简单地实现这一过程。本文将介绍如何利用Java从PDF文档提取表格数据,并写入文本文件、CSV文件以及Excel工作表

文章目录

    • 提取PDF表格数据写入文本文件
    • 提取PDF表格数据写入CSV文件
    • 提取PDF表格数据写入Excel文件

本文所使用的方法提取PDF表格主要需要免费的Free Spire.PDF for Java库,可下载导入或通过Maven导入:

<dependency><groupId>e-iceblue</groupId><artifactId>spire.pdf.free</artifactId><version>9.13.0</version>
</dependency>

提取PDF表格需要用到库中的PdfTableExtractor类。我们可以为载入的PDF文件创建PdfTableExtractor对象,然后使用PdfTableExtractor.extractTable()方法根据页面在文档中的参数提取指定PDF页面上所有表格,最后再使用PdfTable.getText()方法即可获取表格中的数据。以下是一般操作步骤示例:

  • 创建PdfDocument对象并使用PdfDocument.loadFromFile()方法载入PDF文档。
  • 使用载入的PDF文档创建PdfTableExtractor对象。
  • 使用PdfTableExtractor.extractTable()方法提取每个页面上的表格。
  • 使用PdfTable.getText()方法获取PDF表格的单元格数据。

使用上述方法获取表格数据后,我们就可以将其写入文本文件,或搭配其他工具制作CSV或Excel文件了。

提取PDF表格数据写入文本文件

使用PdfTableExtractor.extractTable()方法提取表格并使用PdfTable.getText()方法获取单元格数据后,我们可以通过构建字符串并写入文本文件来实现提取表格并保存为文本文件的目的。以下是详细操作步骤:

  1. 导入所需模块。
  2. 创建PdfDocument对象并使用PdfDocument.loadFromFile()方法载入PDF文档。
  3. 使用载入的PDF文档创建PdfTableExtractor对象。
  4. 遍历页面,使用PdfTableExtractor.extractTable()方法提取每个页面上的所有表格。
  5. 遍历提取到的表格,为每个表格创建一个StringBuilder对象。
  6. 遍历表格中的行和列,使用PdfTable.getText()方法获取每个单元格的数据并去除换行符。然后将单元格数据添加到StringBuilder对象。
  7. StringBuilder对象写入文本文件。
  8. 释放资源。

代码示例

import com.spire.pdf.PdfDocument;
import com.spire.pdf.utilities.PdfTable;
import com.spire.pdf.utilities.PdfTableExtractor;import java.io.FileWriter;
import java.io.IOException;public classPDF中提取文本 {public static void main(String[] args) throws IOException {// 创建一个PdfDocument对象PdfDocument pdf = new PdfDocument();// 加载一个PDF文档pdf.loadFromFile("Sample.pdf");// 创建一个PdfTableExtractor对象PdfTableExtractor extractor = new PdfTableExtractor(pdf);// 从每一页中提取表格for (int pageIndex = 0; pageIndex < pdf.getPages().getCount(); pageIndex++) {PdfTable[] tables = extractor.extractTable(pageIndex);// 如果表格不为空,则遍历表格if (tables != null) {for (int tableIndex = 0; tableIndex < tables.length; tableIndex++) {PdfTable table = tables[tableIndex];// 创建一个StringBuilder对象StringBuilder tableText = new StringBuilder();// 遍历行和列for (int rowIndex = 0; rowIndex < table.getRowCount(); rowIndex++) {for (int colIndex = 0; colIndex < table.getColumnCount(); colIndex++) {// 获取单元格文本并移除换行符String cellText = table.getText(rowIndex, colIndex);cellText = cellText.replaceAll("\\r|\\n", "");if (colIndex < table.getColumnCount() - 1) {tableText.append(cellText).append("\t");} else {tableText.append(cellText).append("\n");}}}// 将表格写入文本文件try (FileWriter writer = new FileWriter("output/Tables/Page" + (pageIndex+1) + "-Table" + (tableIndex+1) + ".txt")) {writer.write(tableText.toString());}}}}}
}

提取结果
Python提取PDF表格到文本

提取PDF表格数据写入CSV文件

我们也可以用同样的方法提取表格数据,然后搭配其他模块,如opencsv,将提取到的数据写入CSV文件。也可以使用下面的提取PDF表格写入Excel文件,最后保存时保存为CSV文件。
opencsv:

<dependency><groupId>com.opencsv</groupId><artifactId>opencsv</artifactId><version>5.9</version>
</dependency>

以下是搭配opencsv提取PDF表格数据并写入CSV文件的操作步骤:

  1. 导入所需模块。
  2. 创建PdfDocument对象并使用PdfDocument.loadFromFile()方法载入PDF文档。
  3. 使用载入的PDF文档创建PdfTableExtractor对象。
  4. 历页面面,使用PdfTableExtractor.extractTable()方法提取每个页面上的所有表格。
  5. 遍历提取的表格,并构建CSV文件名。
  6. 创建CSVWriter对象,遍历表格行以及行中的列,使用PdfTable.getText()方法获取每个单元格的数据并去除换行符,将提取的每行表格数据构建为字符串列表。最后将字符串列表写入为CSV数据行。
  7. 释放资源。

代码示例

import com.opencsv.CSVWriter;
import com.spire.pdf.PdfDocument;
import com.spire.pdf.utilities.PdfTable;
import com.spire.pdf.utilities.PdfTableExtractor;import java.io.FileWriter;
import java.io.IOException;public classPDF表格提取到CSV {public static void main(String[] args) throws IOException {// 创建一个PdfDocument对象PdfDocument pdf = new PdfDocument();// 加载一个PDF文档pdf.loadFromFile("Sample.pdf");// 创建一个PdfTableExtractor对象PdfTableExtractor extractor = new PdfTableExtractor(pdf);// 从每一页中提取表格for (int pageIndex = 0; pageIndex < pdf.getPages().getCount(); pageIndex++) {PdfTable[] tables = extractor.extractTable(pageIndex);// 如果表格不为空,则遍历表格if (tables != null) {for (int tableIndex = 0; tableIndex < tables.length; tableIndex++) {PdfTable table = tables[tableIndex];// 创建CSV文件名String csvFileName = "output/Tables/Page" + (pageIndex + 1) + "-Table" + (tableIndex + 1) + ".csv";// 创建一个CSVWriter对象try (CSVWriter writer = new CSVWriter(new FileWriter(csvFileName))) {// 遍历行和列for (int rowIndex = 0; rowIndex < table.getRowCount(); rowIndex++) {String[] row = new String[table.getColumnCount()];for (int colIndex = 0; colIndex < table.getColumnCount(); colIndex++) {// 获取单元格文本并移除换行符String cellText = table.getText(rowIndex, colIndex).replaceAll("\\r?\\n", "");row[colIndex] = cellText;}// 将行写入CSV文件writer.writeNext(row);}}}}}// 关闭PDF文档pdf.close();}
}

提取结果
Python提取PDF表格到CSV

提取PDF表格数据写入Excel文件

保存PDF表格到表格需要用到Free Spire.XLS for Java。我们可以提取到PDF文档表格单元格数据后,使用Worksheet.getRange().setText()方法将数据写入到创建的Excel工作表的相应单元格并保存,从而实现PDF表格数据到Excel文件的提取。同时,我们还可以在保存文件时将格式参数设置为CSV,实现PDF表格数据到CSV文件的提取。
Free Spire.XLS for Java:

<dependency><groupId>e-iceblue</groupId><artifactId>spire.xls.free</artifactId><version>5.3.0</version>
</dependency>

以下是详细操作步骤:

  1. 导入所需模块。
  2. 创建PdfDocument对象并使用PdfDocument.loadFromFile()方法载入PDF文档。
  3. 创建Workbook对象,并使用Workbook.getWorksheets().clear()方法清除默认工作表。
  4. 使用载入的PDF文档创建PdfTableExtractor对象。
  5. 历页面面,使用PdfTableExtractor.extractTable()方法提取每个页面上的所有表格。
  6. 遍历提取的表格,使用Workbook.getWorksheets().add()方法为每个表格创建一个指定名称的工作表。
  7. 遍历表格行和列,使用PdfTable.getText()方法获取每个单元格的数据并去除换行符,然后使用Worksheet.getRange().setText()方法将单元格数据写入到工作表的相应单元格。
  8. 设置工作表单元格的格式。
  9. 使用Worksheet.autoFitRow()Worksheet.autoFitColumn()方法自动调整行高和列宽。
  10. 可以使用Worksheet.saveToFile()方法将工作表保存为CSV文件。
  11. 使用Workbook.saveToFile()方法保存工作簿为Excel文件。
  12. 释放资源。

代码示例

import com.spire.pdf.PdfDocument;
import com.spire.pdf.utilities.PdfTable;
import com.spire.pdf.utilities.PdfTableExtractor;
import com.spire.xls.*;public classPDF表格提取到Excel {public static void main(String[] args) {// 创建一个PdfDocument对象PdfDocument pdf = new PdfDocument();// 加载一个PDF文档pdf.loadFromFile("G:/Documents/Sample73.pdf");// 创建一个Workbook对象Workbook workbook = new Workbook();workbook.getWorksheets().clear();// 创建一个PdfTableExtractor对象PdfTableExtractor extractor = new PdfTableExtractor(pdf);// 从每一页中提取表格for (int pageIndex = 0; pageIndex < pdf.getPages().getCount(); pageIndex++) {PdfTable[] tables = extractor.extractTable(pageIndex);// 如果表格不为空,则遍历表格if (tables != null) {for (int tableIndex = 0; tableIndex < tables.length; tableIndex++) {// 向工作簿中添加一个工作表Worksheet sheet = workbook.getWorksheets().add("Page" + (pageIndex + 1) + "-Table" + (tableIndex + 1));// 遍历表格中的行和列for (int rowIndex = 0; rowIndex < tables[tableIndex].getRowCount(); rowIndex++) {for (int colIndex = 0; colIndex < tables[tableIndex].getColumnCount(); colIndex++) {// 获取单元格文本并移除换行符String cellText = tables[tableIndex].getText(rowIndex, colIndex).replaceAll("\\r|\\n", "");// 将单元格文本写入工作表sheet.getCellRange(rowIndex+1, colIndex+1).setText(cellText);}}// 设置单元格样式CellRange[] rows = sheet.getRows();rows[0].getStyle().getFont().setFontName("HarmonyOS Sans SC");rows[0].getStyle().getFont().setSize(12);rows[0].getStyle().getFont().isBold(true);rows[0].getStyle().setHorizontalAlignment(HorizontalAlignType.Center);for (int i = 1; i < rows.length; i++) {rows[i].getStyle().getFont().setFontName("HarmonyOS Sans SC");rows[i].getStyle().getFont().setSize(12);rows[i].getStyle().setHorizontalAlignment(HorizontalAlignType.Left);}// 自动调整行和列for (int i = 0; i < rows.length; i++) {sheet.autoFitRow(i+1);}for (int i = 0; i < sheet.getColumns().length; i++) {sheet.autoFitColumn(i+1);}// 保存工作表为CSV文件// sheet.saveToFile("output/Tables/PDFTableToCSV-Page" + (pageIndex + 1) + "-Table" + (tableIndex + 1) + ".csv", ",");}}}// 保存工作簿workbook.saveToFile("output/PDFTableToExcel.xlsx");// 关闭PDF文档pdf.close();// 释放工作簿资源workbook.dispose();}
}

提取结果
Python提取PDF表格到Excel

本文演示了如何使用Java提取PDF表格数据写入文本、CSV以及Excel文件。

更多PDF文档操作技巧请前往Spire.PDF for Java教程查看。

http://www.mmbaike.com/news/58834.html

相关文章:

  • 2023中央农村工作会议关键词优化方法有什么步骤
  • 做网站的公司 杭州大一html网页制作作业
  • 内部劵网站怎么做seo搜索引擎优化是
  • 免费做手机网站建设百度新闻官网首页
  • 做旅游网站平台合作入驻网站开发用什么语言
  • 网站建设的专业知识今日国际新闻头条新闻
  • 大理企业网站建设推广普通话的手抄报
  • 阜新网站建设企业网站seo点击软件
  • 个人网站如果做google官网下载安装
  • 如何获取网站访客qq网站推广方式有哪些
  • 软件公司市值排名如何做seo搜索优化
  • 浅析b2c电子商务网站的建设免费建一个自己的网站
  • 做网站如何买量seo课程
  • 做名片最好的网站seo外包推广
  • 如何做网站在网上销售疫情最新情况
  • php网站开发进程状态微博指数查询
  • 简述网站推广的五要素网络自动推广软件
  • php自建网站关键词搜索技巧
  • 政府网站建设未来发展方向汕头seo服务
  • 做鞋子网站的域名快链友情链接平台
  • 网站做中文和英文切换seo快速排名案例
  • 官方在家做兼职的网站长尾关键词快速排名软件
  • 北京哪里能学做网站千锋教育北京校区
  • 东莞科技网站建设宁波网站排名优化seo
  • php网站开发工具有哪些seo是免费的吗
  • 国外做饮料视频网站营销顾问公司
  • 合肥网站建设之4个细节要注意事项百度最新版app下载安装
  • flash 可以做网站吗网站及搜索引擎优化建议
  • 乌鲁木齐网站设计要多少钱武汉seo关键字优化
  • 要实现对网站中的所有内容进行搜索代码应该怎么写nba排名2021最新排名