Parser для Java

Document Parser SDK для Java

Додайте швидкий, точний аналіз документів до ваших застосунків Java та витягайте текст, зображення, метадані та структуровані дані з документів і зображень.

Завантажити Maven Почніть безкоштовну пробну версію

Випущено версію 24.9

Перегляньте, що нового

// Передайте вихідний файл до інстанції Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Передайте текст документа до TextReader
    try (TextReader reader = parser.getText())
    {
        // Обробіть текст документа
        System.out.println(reader == null 
            ? "" 
            : reader.readToEnd());
    }
}

<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>

GroupDocs.Parser на перший погляд

Document Parser SDK для виконання високоточного аналізу документів у застосунках Java

Витягувати дані з документів

API GroupDocs.Parser for Java дозволяє отримувати текст, метадані та зображення з широкого спектру форматів файлів, таких як офісні документи, електронні листи, вкладення та архіви. Цей потужний інструмент допомагає ефективно отримувати доступ і обробляти цінну інформацію, що міститься у цих файлах, для різних застосувань, таких як аналіз даних, індексація пошукових систем або системи управління контентом.

Розбір документів

Видобувайте різні елементи, такі як гіперпосилання, таблиці, QR‑коди, штрих‑коди та дані з PDF‑форм. Також розбирайте будь‑яку потрібну інформацію з документів за допомогою користувацьких шаблонів.

Налаштування результатів

Java API дозволяє отримувати дані у різних форматах, таких як необроблені, структуровані, HTML або Markdown. Крім того, API пропонує функцію пошуку для знаходження окремих слів або фраз у тексті документів.

Платформна незалежність

GroupDocs.Parser for Java підтримує наступні операційні системи, фреймворки та менеджери пакетів

Підтримувані формати файлів

GroupDocs.Parser for Java підтримує роботу з наступними форматами файлів.

Формати Microsoft Office

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Зображення та інші формати

Портативний: PDF
Зображення: JPG, BMP, PNG, TIFF, GIF
Інші офісні формати: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Інші формати

Веб: HTML, MHTML
Архіви: ZIP, TAR, 7Z
Електронні книги: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java функції

Видобувайте дані з PDF‑файлів, офісних документів, зображень та інших форматів швидко та точно за допомогою нашого Java Document Parser SDK

Витяг тексту

Витягайте текстову інформацію з різних форматів файлів, таких як офісні документи, PDF‑файли та зображення, для легкої читабельності та аналізу.

Витяг зображень

Отримуйте візуальний контент з різноманітних джерел, таких як офісні документи, PDF‑файли, для зручного доступу та використання.

Сканувати QR‑коди

Виявляйте та розшифровуйте QR‑коди, що містяться в офісних документах, PDF‑файлах або візуальному контенті, для ефективного отримання інформації.

Витяг даних з вкладень електронної пошти та архівів

Збирайте цінну інформацію з електронних листів, вкладень файлів та стиснених джерел даних для ефективного аналізу та використання.

Витягнути таблиці

Визначайте та витягайте табличні дані з PDF‑документів для упорядкованого аналізу та використання.

Витягнути гіперпосилання

Знаходьте та витягайте гіперпосилання та електронні адреси в офісних документах або PDF‑файлах для ефективного доступу.

Обробляти PDF‑форми

PDF‑форми — це цифрові документи з полями, які можна заповнювати, для взаємодії користувачів, що дозволяє їм вводити інформацію електронно. .NET API можна використати для витягування даних із цих форм з метою ефективної обробки.

Обробляти дані за шаблонами

Створюйте власні шаблони та використовуйте їх за допомогою .NET API для розбору конкретної інформації з PDF‑файлів, спрощуючи процеси витягування даних.

Шукати текст у документах

Швидко знаходьте конкретні слова або шаблони в документах.

Зразки коду

Декілька прикладів типових операцій GroupDocs.Parser for Java

Видобути зображення з PDF‑документів

GroupDocs.Parser for Java полегшує Java розробникам видобуток зображень з документів:

Витягнути зображення з PDF‑документів у Java

// Створіть екземпляр класу Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Витягніть зображення
    Iterable<PageImageArea> images = parser.getImages();

    // Перевірте, чи щось витягнуто
    if (images == null) {
        return;
    }

    // Переберіть зображення
    for (PageImageArea image : images) {
        // Виведіть індекс сторінки, прямокутник і тип зображення
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Видобути штрих‑коди з зображень

Використовуйте наш API Java для вилучення штрих-кодів з зображень:

Витягнути штрихкоди з зображень у Java

// Завантажте вихідне зображення у Parser
try (Parser parser = new Parser("source.jpg")){

    // Перевірте, чи файл підтримує витягування штрихкодів
    if (!parser.getFeatures().isBarcodes()) {

        // Витягніть штрихкоди з файлу
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Переберіть штрихкоди
        for (PageBarcodeArea barcode : barcodes) {
            // Виведіть індекс сторінки
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Виведіть значення штрихкоду
            System.out.println("Value: " + barcode.getValue());
        }
    }
}