GroupDocs.Parser の概要

.NET アプリケーションで高精度のドキュメント解析を実行するための Document Parser SDK

Illustration parser

ドキュメントからデータを抽出する

GroupDocs.Parser for .NET API を使用すると、Office ドキュメント、メール、添付ファイル、アーカイブなど、さまざまなファイル形式からテキスト、メタデータ、画像を取得できます。この強力なツールにより、データ分析、検索エンジンのインデックス作成、コンテンツ管理システムなどの様々なアプリケーションで、これらのファイルに含まれる貴重な情報へ効率的にアクセスし、処理できます。

ドキュメントを解析する

PDF フォームからハイパーリンク、テーブル、QR コード、バーコード、データなどのさまざまな要素を抽出します。また、カスタムテンプレートを使用してドキュメントから任意の情報を解析できます。

結果のカスタマイズ

.NET API を使用すると、RAW、構造化、HTML、Markdown などのさまざまな形式でデータを取得できます。また、API はドキュメントテキスト内の特定の単語やフレーズを検索する機能も提供します。

プラットフォームに依存しない

GroupDocs.Parser for .NET は以下のオペレーティングシステム、フレームワーク、パッケージマネージャーをサポートします

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

サポートされているファイル形式

GroupDocs.Parser for .NET は以下の ファイル形式 の操作をサポートします。

Microsoft Office 形式

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

画像 & その他の形式

  • ポータブル: PDF
  • 画像: JPG, BMP, PNG, TIFF, GIF
  • その他のオフィス形式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

その他の形式

  • Web: HTML, MHTML
  • アーカイブ: ZIP, TAR, 7Z
  • 電子書籍: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for .NET の機能

弊社の .NET Document Parser SDK を使用して、PDF、Office ドキュメント、画像、その他の形式からデータを迅速かつ正確に抽出します。

Feature icon

テキストを抽出する

Office ドキュメント、PDF ファイル、画像などのさまざまなファイル形式からテキスト情報を抽出し、読みやすさと分析のしやすさを高めます。

Feature icon

画像を抽出する

Office ドキュメントや PDF ファイルなど、さまざまなソースから視覚コンテンツを取得し、便利にアクセス・活用できます。

Feature icon

QR コードをスキャンする

Office ドキュメント、PDF ファイル、またはビジュアルコンテンツ内にある QR コードを検出・デコードし、効率的に情報を取得します。

Feature icon

メール添付ファイルおよびアーカイブからデータを抽出する

メールメッセージ、ファイル添付、および圧縮データソースから貴重な情報を収集し、効果的な分析と活用を実現します。

Feature icon

テーブルを抽出

PDFドキュメントから表形式データを識別・抽出し、整理された分析と利用を可能にします。

Feature icon

ハイパーリンクを抽出

オフィス文書やPDFファイル内のハイパーリンクとメールアドレスを検索し抽出して、効率的にアクセスできるようにします。

Feature icon

PDFフォームを解析

PDFフォームは、ユーザーが入力できるフィールドを備えたデジタル文書で、情報を電子的に入力できます。.NET APIを使用してこれらのフォームからデータを抽出し、効率的に処理できます。

Feature icon

テンプレートでデータを解析

カスタムテンプレートを作成し、.NET APIと組み合わせてPDFファイルから特定の情報を解析することで、データ抽出プロセスを簡素化します。

Feature icon

ドキュメント内のテキストを検索

ドキュメント内の特定の単語やパターンを迅速に検索します。

コードサンプル

典型的な GroupDocs.Parser for .NET の操作例の一部

PDFドキュメントから画像を抽出

GroupDocs.Parser for .NET は C# 開発者が ドキュメント から画像を簡単に抽出できるようにします:

C# で PDF ドキュメントから画像を抽出する

// Parser クラスのインスタンスを作成する
using (var parser = new Parser("source.pptx"))
{
    // 画像を抽出する
    var images = parser.GetImages();

    // 何かが抽出されたか確認する
    if (images == null)
    {
        return;
    }
    // 画像を反復処理する
    foreach (PageImageArea image in images)
    {
        // ページインデックス、矩形、画像タイプを出力する
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Type: {2}", 
            image.Page.Index, image.Rectangle, image.FileType));
    }
}

画像からバーコードを抽出

当社の .NET API を使用して画像から バーコード を抽出します:

C# で画像からバーコードを抽出する

// ソース画像を Parser にロードする
using (var parser = new Parser("source.jpg"))
{
    // ファイルがバーコード抽出に対応しているか確認する
    if (parser.Features.Barcodes)
    {
        // ファイルからバーコードを抽出する
        var barcodes = parser.GetBarcodes();

        // バーコードを反復処理する
        foreach (var barcode in barcodes)
        {
            // ページインデックスを出力する
            Console.WriteLine("Page: " + barcode.Page.Index.ToString());
            // バーコードの値を出力する
            Console.WriteLine("Value: " + barcode.Value);
        }
    }
}

始める準備はできていますか?

GroupDocs.Parser を無料でダウンロードするか、フルアクセス用の試用版ライセンスを取得してください。

有用なリソース

ドキュメント、コードサンプル、コミュニティサポートを調べて、体験を向上させます。

一時ライセンスのヒント

1
職場の電子メールで登録してください。フリー メール サービスは使用できません。
2
2 番目のステップで [一時ライセンスを取得] ボタンを使用します。
 日本