GroupDocs.Parser 一览

用于在 .NET 应用程序中执行高精度文档解析的 Document Parser SDK

Illustration parser

从文档中提取数据

GroupDocs.Parser for .NET API 可让您从各种文件格式(如 Office 文档、电子邮件、附件和归档文件)检索文本、元数据和图像。此强大工具帮助您高效访问和处理这些文件中包含的有价值信息,可用于数据分析、搜索引擎索引或内容管理系统等多种应用。

解析文档

从 PDF 表单中提取超链接、表格、二维码、条形码和数据等各种元素。还可以使用自定义模板解析文档中的任意所需信息。

自定义结果

.NET API 使您能够以原始、结构化、HTML 或 Markdown 等多种格式检索数据。此外,API 还提供搜索功能,可在文档文本中定位特定单词或短语。

平台独立性

GroupDocs.Parser for .NET 支持以下操作系统、框架和包管理器

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

支持的文件格式

GroupDocs.Parser for .NET 支持以下 文件格式的操作。

Microsoft Office 格式

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

图像及其他格式

  • 可移植: PDF
  • 图像: JPG, BMP, PNG, TIFF, GIF
  • 其他办公格式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

其他格式

  • Web: HTML, MHTML
  • 归档文件: ZIP, TAR, 7Z
  • 电子书: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for .NET 功能

使用我们的 .NET Document Parser SDK,快速且准确地从 PDF、Office 文档、图像及其他格式中提取数据

Feature icon

提取文本

从各种文件格式(如 Office 文档、PDF 文件和图像)中提取文本信息,便于阅读和分析。

Feature icon

提取图像

从 Office 文档、PDF 文件等多种来源检索视觉内容,以便轻松访问和使用。

Feature icon

扫描二维码

检测并解码 Office 文档、PDF 文件或视觉内容中存在的二维码,实现高效的信息检索。

Feature icon

从电子邮件附件和归档文件中提取数据

从电子邮件、文件附件和压缩数据源中收集有价值的信息,以便进行有效的分析和利用。

Feature icon

提取表格

识别并提取 PDF 文档中的表格数据,以便进行有条理的分析和使用。

Feature icon

提取超链接

在 Office 文档或 PDF 文件中定位并提取超链接和电子邮件地址,以实现高效访问。

Feature icon

解析 PDF 表单

PDF 表单是具有可填写字段的数字文档,供用户交互并电子方式输入信息。.NET API 可用于从这些表单中提取数据,以实现高效处理。

Feature icon

通过模板解析数据

创建自定义模板并使用 .NET API 对 PDF 文件中的特定信息进行解析,从而简化数据提取过程。

Feature icon

在文档中搜索文本

快速定位文档中的特定词语或模式。

代码示例

典型的 GroupDocs.Parser for .NET 操作示例

从 PDF 文档中提取图像

GroupDocs.Parser for .NET 让 C# 开发者能够轻松从 文档 中提取图像:

在 C# 中从 PDF 文档提取图像

// 创建 Parser 类的实例
using (var parser = new Parser("source.pptx"))
{
    // 提取图像
    var images = parser.GetImages();

    // 检查是否成功提取
    if (images == null)
    {
        return;
    }
    // 遍历图像
    foreach (PageImageArea image in images)
    {
        // 打印页面索引、矩形区域和图像类型
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Type: {2}", 
            image.Page.Index, image.Rectangle, image.FileType));
    }
}

从图像中提取条形码

使用我们的 .NET API 从图像中提取 条形码

在 C# 中从图像提取条形码

// 将源图像加载到 Parser
using (var parser = new Parser("source.jpg"))
{
    // 检查文件是否支持条形码提取
    if (parser.Features.Barcodes)
    {
        // 从文件中提取条形码
        var barcodes = parser.GetBarcodes();

        // 遍历条形码
        foreach (var barcode in barcodes)
        {
            // 打印页面索引
            Console.WriteLine("Page: " + barcode.Page.Index.ToString());
            // 打印条形码值
            Console.WriteLine("Value: " + barcode.Value);
        }
    }
}

准备好开始了吗?

免费下载 GroupDocs.Parser 或获取试用许可证以获得完全访问权限!

有用的资源

探索文档,代码样本和社区支持,以增强您的体验。

临时许可提示

1
使用您的工作电子邮件地址进行注册。不允许使用免费邮件服务。
2
使用第二步中的获取临时许可证按钮。
 中国人