GroupDocs.Parser на перший погляд

Document Parser SDK для виконання високоточного аналізу документів у застосунках Java

Illustration parser

Витягувати дані з документів

API GroupDocs.Parser for Java дозволяє отримувати текст, метадані та зображення з широкого спектру форматів файлів, таких як офісні документи, електронні листи, вкладення та архіви. Цей потужний інструмент допомагає ефективно отримувати доступ і обробляти цінну інформацію, що міститься у цих файлах, для різних застосувань, таких як аналіз даних, індексація пошукових систем або системи управління контентом.

Розбір документів

Видобувайте різні елементи, такі як гіперпосилання, таблиці, QR‑коди, штрих‑коди та дані з PDF‑форм. Також розбирайте будь‑яку потрібну інформацію з документів за допомогою користувацьких шаблонів.

Налаштування результатів

Java API дозволяє отримувати дані у різних форматах, таких як необроблені, структуровані, HTML або Markdown. Крім того, API пропонує функцію пошуку для знаходження окремих слів або фраз у тексті документів.

Платформна незалежність

GroupDocs.Parser for Java підтримує наступні операційні системи, фреймворки та менеджери пакетів

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Підтримувані формати файлів

GroupDocs.Parser for Java підтримує роботу з наступними форматами файлів.

Формати Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Зображення та інші формати

  • Портативний: PDF
  • Зображення: JPG, BMP, PNG, TIFF, GIF
  • Інші офісні формати: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Інші формати

  • Веб: HTML, MHTML
  • Архіви: ZIP, TAR, 7Z
  • Електронні книги: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java функції

Видобувайте дані з PDF‑файлів, офісних документів, зображень та інших форматів швидко та точно за допомогою нашого Java Document Parser SDK

Feature icon

Витяг тексту

Витягайте текстову інформацію з різних форматів файлів, таких як офісні документи, PDF‑файли та зображення, для легкої читабельності та аналізу.

Feature icon

Витяг зображень

Отримуйте візуальний контент з різноманітних джерел, таких як офісні документи, PDF‑файли, для зручного доступу та використання.

Feature icon

Сканувати QR‑коди

Виявляйте та розшифровуйте QR‑коди, що містяться в офісних документах, PDF‑файлах або візуальному контенті, для ефективного отримання інформації.

Feature icon

Витяг даних з вкладень електронної пошти та архівів

Збирайте цінну інформацію з електронних листів, вкладень файлів та стиснених джерел даних для ефективного аналізу та використання.

Feature icon

Витягнути таблиці

Визначайте та витягайте табличні дані з PDF‑документів для упорядкованого аналізу та використання.

Feature icon

Витягнути гіперпосилання

Знаходьте та витягайте гіперпосилання та електронні адреси в офісних документах або PDF‑файлах для ефективного доступу.

Feature icon

Обробляти PDF‑форми

PDF‑форми — це цифрові документи з полями, які можна заповнювати, для взаємодії користувачів, що дозволяє їм вводити інформацію електронно. .NET API можна використати для витягування даних із цих форм з метою ефективної обробки.

Feature icon

Обробляти дані за шаблонами

Створюйте власні шаблони та використовуйте їх за допомогою .NET API для розбору конкретної інформації з PDF‑файлів, спрощуючи процеси витягування даних.

Feature icon

Шукати текст у документах

Швидко знаходьте конкретні слова або шаблони в документах.

Зразки коду

Декілька прикладів типових операцій GroupDocs.Parser for Java

Видобути зображення з PDF‑документів

GroupDocs.Parser for Java полегшує Java розробникам видобуток зображень з документів:

Витягнути зображення з PDF‑документів у Java

// Створіть екземпляр класу Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Витягніть зображення
    Iterable<PageImageArea> images = parser.getImages();

    // Перевірте, чи щось витягнуто
    if (images == null) {
        return;
    }

    // Переберіть зображення
    for (PageImageArea image : images) {
        // Виведіть індекс сторінки, прямокутник і тип зображення
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Видобути штрих‑коди з зображень

Використовуйте наш API Java для вилучення штрих-кодів з зображень:

Витягнути штрихкоди з зображень у Java

// Завантажте вихідне зображення у Parser
try (Parser parser = new Parser("source.jpg")){

    // Перевірте, чи файл підтримує витягування штрихкодів
    if (!parser.getFeatures().isBarcodes()) {

        // Витягніть штрихкоди з файлу
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Переберіть штрихкоди
        for (PageBarcodeArea barcode : barcodes) {
            // Виведіть індекс сторінки
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Виведіть значення штрихкоду
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

Готові почати?

Завантажте GroupDocs.Parser безкоштовно або отримайте пробну ліцензію для повного доступу!

Корисні ресурси

Вивчіть документацію, зразки коду та підтримку спільноти для покращення вашого досвіду.

Поради щодо тимчасової ліцензії

1
Зареєструйтеся за допомогою вашої робочої e-mail. Безкоштовні поштові служби заборонені.
2
Скористайтеся кнопкою Отримати тимчасову ліцензію на другому кроці.
 Українська