GroupDocs.Parser 一览

用于在 Java 应用中执行高精度文档解析的 Document Parser SDK

Illustration parser

从文档中提取数据

GroupDocs.Parser for Java API 使您能够从包括 Office 文档、电子邮件、附件和归档在内的广泛文件格式中检索文本、元数据和图像。此强大工具帮助您高效访问和处理这些文件中包含的有价值信息,可用于数据分析、搜索引擎索引或内容管理系统等多种应用。

解析文档

从 PDF 表单中提取超链接、表格、二维码、条形码和数据等各种元素。此外,还可使用自定义模板解析文档中的任何所需信息。

自定义结果

Java API 允许您以原始、结构化、HTML 或 Markdown 等多种格式检索数据。此外,API 还提供搜索功能,可在文档文本中定位特定单词或短语。

平台独立性

GroupDocs.Parser for Java 支持以下操作系统、框架和软件包管理器

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

支持的文件格式

GroupDocs.Parser for Java 支持以下 文件格式的操作。

Microsoft Office 格式

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

图像及其他格式

  • 可移植: PDF
  • 图像: JPG, BMP, PNG, TIFF, GIF
  • 其他办公格式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

其他格式

  • Web: HTML, MHTML
  • 归档文件: ZIP, TAR, 7Z
  • 电子书: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java 功能

使用我们的 Java Document Parser SDK,快速且准确地从 PDF、Office 文档、图像及其他格式中提取数据。

Feature icon

提取文本

从各种文件格式(如 Office 文档、PDF 文件和图像)中提取文本信息,便于阅读和分析。

Feature icon

提取图像

从 Office 文档、PDF 文件等多种来源检索视觉内容,以便轻松访问和使用。

Feature icon

扫描二维码

检测并解码 Office 文档、PDF 文件或视觉内容中存在的二维码,实现高效的信息检索。

Feature icon

从电子邮件附件和归档文件中提取数据

从电子邮件、文件附件和压缩数据源中收集有价值的信息,以便进行有效的分析和利用。

Feature icon

提取表格

识别并提取 PDF 文档中的表格数据,以便进行有条理的分析和使用。

Feature icon

提取超链接

在 Office 文档或 PDF 文件中定位并提取超链接和电子邮件地址,以实现高效访问。

Feature icon

解析 PDF 表单

PDF 表单是具有可填写字段的数字文档,供用户交互并电子方式输入信息。.NET API 可用于从这些表单中提取数据,以实现高效处理。

Feature icon

通过模板解析数据

创建自定义模板并使用 .NET API 对 PDF 文件中的特定信息进行解析,从而简化数据提取过程。

Feature icon

在文档中搜索文本

快速定位文档中的特定词语或模式。

代码示例

常见 GroupDocs.Parser for Java 操作的使用案例

从 PDF 文档中提取图像

GroupDocs.Parser for Java 让 Java 开发者轻松从文档中提取图像:

在 Java 中从 PDF 文档提取图像

// 创建 Parser 类的实例
try (Parser parser = new Parser("source.pdf"))
{
    // 提取图像
    Iterable<PageImageArea> images = parser.getImages();

    // 检查是否成功提取
    if (images == null) {
        return;
    }

    // 遍历图像
    for (PageImageArea image : images) {
        // 打印页面索引、矩形区域和图像类型
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

从图像中提取条形码

使用我们的 Java API 从图像中提取 条形码

在 Java 中从图像提取条形码

// 将源图像加载到 Parser
try (Parser parser = new Parser("source.jpg")){

    // 检查文件是否支持条形码提取
    if (!parser.getFeatures().isBarcodes()) {

        // 从文件中提取条形码
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // 遍历条形码
        for (PageBarcodeArea barcode : barcodes) {
            // 打印页面索引
            System.out.println("Page: " + barcode.getPage().getIndex());
            // 打印条形码值
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

准备好开始了吗?

免费下载 GroupDocs.Parser 或获取试用许可证以获得完全访问权限!

有用的资源

探索文档,代码样本和社区支持,以增强您的体验。

临时许可提示

1
使用您的工作电子邮件地址进行注册。不允许使用免费邮件服务。
2
使用第二步中的获取临时许可证按钮。
 中国人