Parser für Java

Document Parser SDK für Java

Fügen Sie Ihren Java‑Apps eine schnelle, präzise Dokumenten‑Parsing‑Funktion hinzu und extrahieren Sie Text, Bilder, Metadaten sowie strukturierte Daten aus Dokumenten und Bildern.

Maven-Download Kostenlose Testversion starten

Version 24.9 veröffentlicht

Erfahren Sie, was neu ist

// Übergeben Sie die Quelldatei an die Parser‑Instanz
try (Parser parser = new Parser("source.pdf"))
{
    // Übergeben Sie den Dokumententext an TextReader
    try (TextReader reader = parser.getText())
    {
        // Verarbeiten Sie den Dokumententext
        System.out.println(reader == null 
            ? "" 
            : reader.readToEnd());
    }
}

<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>

GroupDocs.Parser auf einen Blick

Document Parser SDK für die Durchführung hochgenauer Dokumenten‑Parsing‑Vorgänge in Java‑Anwendungen

Daten aus Dokumenten extrahieren

GroupDocs.Parser for Java API ermöglicht das Abrufen von Text, Metadaten und Bildern aus einer Vielzahl von Dateiformaten wie Office-Dokumenten, E-Mails, Anhängen und Archiven. Dieses leistungsstarke Werkzeug unterstützt Sie dabei, wertvolle Informationen in diesen Dateien effizient zu erhalten und zu verarbeiten, z. B. für Datenanalysen, die Indexierung durch Suchmaschinen oder Content‑Management‑Systeme.

Dokumente parsen

Extrahieren Sie verschiedene Elemente wie Hyperlinks, Tabellen, QR‑Codes, Barcodes und Daten aus PDF‑Formularen. Außerdem können Sie beliebige Informationen aus Dokumenten mithilfe benutzerdefinierter Vorlagen parsen.

Ergebnisse anpassen

Java API ermöglicht das Abrufen von Daten in verschiedenen Formaten wie Roh, strukturiert, HTML oder Markdown. Außerdem bietet die API eine Suchfunktion zum Finden bestimmter Wörter oder Phrasen im Text von Dokumenten.

Plattformunabhängigkeit

GroupDocs.Parser for Java unterstützt die folgenden Betriebssysteme, Frameworks und Paketmanager

Unterstützte Dateiformate

GroupDocs.Parser for Java unterstützt Vorgänge mit den folgenden Dateiformaten.

Microsoft‑Office‑Formate

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Bilder & andere Formate

Tragbar: PDF
Bilder: JPG, BMP, PNG, TIFF, GIF
Andere Office-Formate: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Weitere Formate

Web: HTML, MHTML
Archive: ZIP, TAR, 7Z
eBooks: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java Funktionen

Extrahieren Sie Daten aus PDFs, Office‑Dokumenten, Bildern und anderen Formaten schnell und genau mit unserem Java Document Parser SDK.

Text extrahieren

Extrahieren Sie Textinformationen aus verschiedenen Dateiformaten wie Office‑Dokumenten, PDF‑Dateien und Bildern für einfache Lesbarkeit und Analyse.

Bilder extrahieren

Rufen Sie visuelle Inhalte aus verschiedenen Quellen wie Office‑Dokumenten und PDF‑Dateien ab für bequemen Zugriff und Nutzung.

QR‑Codes scannen

Erkennen und dekodieren Sie QR‑Codes, die in Office‑Dokumenten, PDF‑Dateien oder visuellen Inhalten enthalten sind, für effiziente Informationsbeschaffung.

Daten aus E‑Mail‑Anhängen und Archiven extrahieren

Sammeln Sie wertvolle Informationen aus E-Mails, Dateianhängen und komprimierten Datenquellen für eine effektive Analyse und Nutzung.

Tabellen extrahieren

Identifizieren und extrahieren Sie tabellarische Daten aus PDF-Dokumenten für eine strukturierte Analyse und Verwendung.

Hyperlinks extrahieren

Ermitteln und extrahieren Sie Hyperlinks und E-Mail-Adressen in Office-Dokumenten oder PDF-Dateien für einen effizienten Zugriff.

PDF-Formulare parsen

PDF-Formulare sind digitale Dokumente mit ausfüllbaren Feldern für die Benutzerinteraktion, die die elektronische Eingabe von Informationen ermöglichen. Die .NET API kann verwendet werden, um Daten aus diesen Formularen für eine effiziente Verarbeitung zu extrahieren.

Daten mithilfe von Vorlagen parsen

Erstellen Sie benutzerdefinierte Vorlagen und verwenden Sie diese mit der .NET API, um spezifische Informationen aus PDF-Dateien zu parsen und so den Datenextraktionsprozess zu vereinfachen.

Text in Dokumenten suchen

Suchen Sie schnell bestimmte Wörter oder Muster in Dokumenten.

Codebeispiele

Einige Anwendungsfälle typischer GroupDocs.Parser for Java‑Operationen

Bilder aus PDF‑Dokumenten extrahieren

GroupDocs.Parser for Java erleichtert Java‑Entwicklern das Extrahieren von Bildern aus Dokumenten:

Bilder aus PDF-Dokumenten in Java extrahieren

// Erstellen Sie eine Instanz der Klasse Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Bilder extrahieren
    Iterable<PageImageArea> images = parser.getImages();

    // Prüfen, ob etwas extrahiert wurde
    if (images == null) {
        return;
    }

    // Durchlaufen Sie die Bilder
    for (PageImageArea image : images) {
        // Seitenindex, Rechteck und Bildtyp ausgeben
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Barcodes aus Bildern extrahieren

Verwenden Sie unsere Java‑API, um Barcodes aus Bildern zu extrahieren:

Barcodes aus Bildern in Java extrahieren

// Quellbild in Parser laden
try (Parser parser = new Parser("source.jpg")){

    // Prüfen, ob die Datei die Barcode-Extraktion unterstützt
    if (!parser.getFeatures().isBarcodes()) {

        // Barcodes aus der Datei extrahieren
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Barcodes durchlaufen
        for (PageBarcodeArea barcode : barcodes) {
            // Seitenindex ausgeben
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Barcode-Wert ausgeben
            System.out.println("Value: " + barcode.getValue());
        }
    }
}