GroupDocs.Parser auf einen Blick

Document Parser SDK für die Durchführung hochgenauer Dokumenten‑Parsing‑Vorgänge in Java‑Anwendungen

Illustration parser

Daten aus Dokumenten extrahieren

GroupDocs.Parser for Java API ermöglicht das Abrufen von Text, Metadaten und Bildern aus einer Vielzahl von Dateiformaten wie Office-Dokumenten, E-Mails, Anhängen und Archiven. Dieses leistungsstarke Werkzeug unterstützt Sie dabei, wertvolle Informationen in diesen Dateien effizient zu erhalten und zu verarbeiten, z. B. für Datenanalysen, die Indexierung durch Suchmaschinen oder Content‑Management‑Systeme.

Dokumente parsen

Extrahieren Sie verschiedene Elemente wie Hyperlinks, Tabellen, QR‑Codes, Barcodes und Daten aus PDF‑Formularen. Außerdem können Sie beliebige Informationen aus Dokumenten mithilfe benutzerdefinierter Vorlagen parsen.

Ergebnisse anpassen

Java API ermöglicht das Abrufen von Daten in verschiedenen Formaten wie Roh, strukturiert, HTML oder Markdown. Außerdem bietet die API eine Suchfunktion zum Finden bestimmter Wörter oder Phrasen im Text von Dokumenten.

Plattformunabhängigkeit

GroupDocs.Parser for Java unterstützt die folgenden Betriebssysteme, Frameworks und Paketmanager

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Unterstützte Dateiformate

GroupDocs.Parser for Java unterstützt Vorgänge mit den folgenden Dateiformaten.

Microsoft‑Office‑Formate

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Bilder & andere Formate

  • Tragbar: PDF
  • Bilder: JPG, BMP, PNG, TIFF, GIF
  • Andere Office-Formate: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Weitere Formate

  • Web: HTML, MHTML
  • Archive: ZIP, TAR, 7Z
  • eBooks: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java Funktionen

Extrahieren Sie Daten aus PDFs, Office‑Dokumenten, Bildern und anderen Formaten schnell und genau mit unserem Java Document Parser SDK.

Feature icon

Text extrahieren

Extrahieren Sie Textinformationen aus verschiedenen Dateiformaten wie Office‑Dokumenten, PDF‑Dateien und Bildern für einfache Lesbarkeit und Analyse.

Feature icon

Bilder extrahieren

Rufen Sie visuelle Inhalte aus verschiedenen Quellen wie Office‑Dokumenten und PDF‑Dateien ab für bequemen Zugriff und Nutzung.

Feature icon

QR‑Codes scannen

Erkennen und dekodieren Sie QR‑Codes, die in Office‑Dokumenten, PDF‑Dateien oder visuellen Inhalten enthalten sind, für effiziente Informationsbeschaffung.

Feature icon

Daten aus E‑Mail‑Anhängen und Archiven extrahieren

Sammeln Sie wertvolle Informationen aus E-Mails, Dateianhängen und komprimierten Datenquellen für eine effektive Analyse und Nutzung.

Feature icon

Tabellen extrahieren

Identifizieren und extrahieren Sie tabellarische Daten aus PDF-Dokumenten für eine strukturierte Analyse und Verwendung.

Feature icon

Hyperlinks extrahieren

Ermitteln und extrahieren Sie Hyperlinks und E-Mail-Adressen in Office-Dokumenten oder PDF-Dateien für einen effizienten Zugriff.

Feature icon

PDF-Formulare parsen

PDF-Formulare sind digitale Dokumente mit ausfüllbaren Feldern für die Benutzerinteraktion, die die elektronische Eingabe von Informationen ermöglichen. Die .NET API kann verwendet werden, um Daten aus diesen Formularen für eine effiziente Verarbeitung zu extrahieren.

Feature icon

Daten mithilfe von Vorlagen parsen

Erstellen Sie benutzerdefinierte Vorlagen und verwenden Sie diese mit der .NET API, um spezifische Informationen aus PDF-Dateien zu parsen und so den Datenextraktionsprozess zu vereinfachen.

Feature icon

Text in Dokumenten suchen

Suchen Sie schnell bestimmte Wörter oder Muster in Dokumenten.

Codebeispiele

Einige Anwendungsfälle typischer GroupDocs.Parser for Java‑Operationen

Bilder aus PDF‑Dokumenten extrahieren

GroupDocs.Parser for Java erleichtert Java‑Entwicklern das Extrahieren von Bildern aus Dokumenten:

Bilder aus PDF-Dokumenten in Java extrahieren

// Erstellen Sie eine Instanz der Klasse Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Bilder extrahieren
    Iterable<PageImageArea> images = parser.getImages();

    // Prüfen, ob etwas extrahiert wurde
    if (images == null) {
        return;
    }

    // Durchlaufen Sie die Bilder
    for (PageImageArea image : images) {
        // Seitenindex, Rechteck und Bildtyp ausgeben
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Barcodes aus Bildern extrahieren

Verwenden Sie unsere Java‑API, um Barcodes aus Bildern zu extrahieren:

Barcodes aus Bildern in Java extrahieren

// Quellbild in Parser laden
try (Parser parser = new Parser("source.jpg")){

    // Prüfen, ob die Datei die Barcode-Extraktion unterstützt
    if (!parser.getFeatures().isBarcodes()) {

        // Barcodes aus der Datei extrahieren
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Barcodes durchlaufen
        for (PageBarcodeArea barcode : barcodes) {
            // Seitenindex ausgeben
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Barcode-Wert ausgeben
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

Bereit, loszulegen?

Laden Sie GroupDocs.Parser kostenlos herunter oder holen Sie sich eine Testlizenz für vollen Zugriff!

Nützliche Ressourcen

Erforschen Sie die Dokumentation, Code -Beispiele und die Unterstützung der Community, um Ihre Erfahrungen zu verbessern.

Tipps zur temporären Lizenz

1
Melden Sie sich mit Ihrer geschäftlichen E-Mail-Adresse an. Kostenlose E-Mail-Dienste sind nicht zulässig.
2
Klicken Sie im zweiten Schritt auf die Schaltfläche Provisorische Lizenz anfordern.
 Deutsch