GroupDocs.Parser の概要

Java アプリケーションで高精度な文書解析を実行するための Document Parser SDK

Illustration parser

文書からデータを抽出

GroupDocs.Parser for Java API を使用すると、Office 文書、メール、添付ファイル、アーカイブなど、幅広いファイル形式からテキスト、メタデータ、画像を取得できます。この強力なツールは、データ分析、検索エンジンのインデックス作成、コンテンツ管理システムなど、さまざまなアプリケーション向けに、これらのファイルに含まれる貴重な情報へ効率的にアクセスし、処理するのに役立ちます。

ドキュメントを解析する

PDF フォームからハイパーリンク、表、QR コード、バーコード、データなどのさまざまな要素を抽出します。また、カスタムテンプレートを使用してドキュメントから任意の情報を解析します。

結果のカスタマイズ

Java API を使用すると、生データ、構造化データ、HTML、Markdown などのさまざまな形式でデータを取得できます。また、API はドキュメントテキスト内の特定の単語やフレーズを検索する機能も提供します。

プラットフォームに依存しない

GroupDocs.Parser for Java は以下のオペレーティングシステム、フレームワーク、パッケージマネージャーをサポートします。

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

サポートされているファイル形式

GroupDocs.Parser for Java は以下の ファイル形式 の操作をサポートします。

Microsoft Office 形式

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

画像 & その他の形式

  • ポータブル: PDF
  • 画像: JPG, BMP, PNG, TIFF, GIF
  • その他のオフィス形式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

その他の形式

  • Web: HTML, MHTML
  • アーカイブ: ZIP, TAR, 7Z
  • 電子書籍: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java の機能

Java Document Parser SDK を使用して、PDF、Office ドキュメント、画像、その他の形式からデータを迅速かつ正確に抽出します。

Feature icon

テキストを抽出する

Office ドキュメント、PDF ファイル、画像などのさまざまなファイル形式からテキスト情報を抽出し、読みやすさと分析のしやすさを高めます。

Feature icon

画像を抽出する

Office ドキュメントや PDF ファイルなど、さまざまなソースから視覚コンテンツを取得し、便利にアクセス・活用できます。

Feature icon

QR コードをスキャンする

Office ドキュメント、PDF ファイル、またはビジュアルコンテンツ内にある QR コードを検出・デコードし、効率的に情報を取得します。

Feature icon

メール添付ファイルおよびアーカイブからデータを抽出する

メールメッセージ、ファイル添付、および圧縮データソースから貴重な情報を収集し、効果的な分析と活用を実現します。

Feature icon

テーブルを抽出

PDFドキュメントから表形式データを識別・抽出し、整理された分析と利用を可能にします。

Feature icon

ハイパーリンクを抽出

オフィス文書やPDFファイル内のハイパーリンクとメールアドレスを検索し抽出して、効率的にアクセスできるようにします。

Feature icon

PDFフォームを解析

PDFフォームは、ユーザーが入力できるフィールドを備えたデジタル文書で、情報を電子的に入力できます。.NET APIを使用してこれらのフォームからデータを抽出し、効率的に処理できます。

Feature icon

テンプレートでデータを解析

カスタムテンプレートを作成し、.NET APIと組み合わせてPDFファイルから特定の情報を解析することで、データ抽出プロセスを簡素化します。

Feature icon

ドキュメント内のテキストを検索

ドキュメント内の特定の単語やパターンを迅速に検索します。

コードサンプル

典型的な GroupDocs.Parser for Java の操作例

PDF ドキュメントから画像を抽出

GroupDocs.Parser for Java は、Java 開発者が ドキュメント から画像を抽出しやすくします。

Java で PDF ドキュメントから画像を抽出する

// Parser クラスのインスタンスを作成する
try (Parser parser = new Parser("source.pdf"))
{
    // 画像を抽出する
    Iterable<PageImageArea> images = parser.getImages();

    // 何かが抽出されたか確認する
    if (images == null) {
        return;
    }

    // 画像を反復処理する
    for (PageImageArea image : images) {
        // ページインデックス、矩形、画像タイプを出力する
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

画像からバーコードを抽出

当社のJava API を使用して画像からバーコードを抽出します:

Java で画像からバーコードを抽出する

// ソース画像を Parser にロードする
try (Parser parser = new Parser("source.jpg")){

    // ファイルがバーコード抽出に対応しているか確認する
    if (!parser.getFeatures().isBarcodes()) {

        // ファイルからバーコードを抽出する
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // バーコードを反復処理する
        for (PageBarcodeArea barcode : barcodes) {
            // ページインデックスを出力する
            System.out.println("Page: " + barcode.getPage().getIndex());
            // バーコードの値を出力する
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

始める準備はできていますか?

GroupDocs.Parser を無料でダウンロードするか、フルアクセス用の試用版ライセンスを取得してください。

有用なリソース

ドキュメント、コードサンプル、コミュニティサポートを調べて、体験を向上させます。

一時ライセンスのヒント

1
職場の電子メールで登録してください。フリー メール サービスは使用できません。
2
2 番目のステップで [一時ライセンスを取得] ボタンを使用します。
 日本