GroupDocs.Parser на перший погляд

Document Parser SDK для виконання високоточного розпарсування документів у застосунках .NET

Illustration parser

Витяг даних з документів

GroupDocs.Parser for .NET API дозволяє отримувати текст, метадані та зображення з широкого спектра форматів файлів, таких як офісні документи, електронні листи, вкладення та архіви. Цей потужний інструмент допомагає ефективно отримувати та обробляти цінну інформацію, що міститься у цих файлах, для різноманітних застосувань, таких як аналіз даних, індексування пошукових систем або системи управління контентом.

Розпарсування документів

Витягайте різноманітні елементи, такі як гіперпосилання, таблиці, QR‑коди, штрих‑коди та дані з PDF‑форм. Також розпарсуйте будь‑яку потрібну інформацію з документів, використовуючи власні шаблони.

Налаштування результатів

.NET API дозволяє отримувати дані у різних форматах, таких як сирий, структурований, HTML або Markdown. Крім того, API пропонує функціональність пошуку для знаходження конкретних слів чи виразів у тексті документів.

Платформна незалежність

GroupDocs.Parser for .NET підтримує наступні операційні системи, фреймворки та менеджери пакетів

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

Підтримувані формати файлів

GroupDocs.Parser for .NET підтримує роботу з наступними форматами файлів.

Формати Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Зображення та інші формати

  • Портативний: PDF
  • Зображення: JPG, BMP, PNG, TIFF, GIF
  • Інші офісні формати: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Інші формати

  • Веб: HTML, MHTML
  • Архіви: ZIP, TAR, 7Z
  • Електронні книги: CHM, EPUB, FB2, MOBI

Функції GroupDocs.Parser for .NET

Витягайте дані з PDF, офісних документів, зображень та інших форматів швидко та точно за допомогою нашого .NET Document Parser SDK

Feature icon

Витяг тексту

Витягайте текстову інформацію з різних форматів файлів, таких як офісні документи, PDF‑файли та зображення, для легкої читабельності та аналізу.

Feature icon

Витяг зображень

Отримуйте візуальний контент з різноманітних джерел, таких як офісні документи, PDF‑файли, для зручного доступу та використання.

Feature icon

Сканувати QR‑коди

Виявляйте та розшифровуйте QR‑коди, що містяться в офісних документах, PDF‑файлах або візуальному контенті, для ефективного отримання інформації.

Feature icon

Витяг даних з вкладень електронної пошти та архівів

Збирайте цінну інформацію з електронних листів, вкладень файлів та стиснених джерел даних для ефективного аналізу та використання.

Feature icon

Витягнути таблиці

Визначайте та витягайте табличні дані з PDF‑документів для упорядкованого аналізу та використання.

Feature icon

Витягнути гіперпосилання

Знаходьте та витягайте гіперпосилання та електронні адреси в офісних документах або PDF‑файлах для ефективного доступу.

Feature icon

Обробляти PDF‑форми

PDF‑форми — це цифрові документи з полями, які можна заповнювати, для взаємодії користувачів, що дозволяє їм вводити інформацію електронно. .NET API можна використати для витягування даних із цих форм з метою ефективної обробки.

Feature icon

Обробляти дані за шаблонами

Створюйте власні шаблони та використовуйте їх за допомогою .NET API для розбору конкретної інформації з PDF‑файлів, спрощуючи процеси витягування даних.

Feature icon

Шукати текст у документах

Швидко знаходьте конкретні слова або шаблони в документах.

Зразки коду

Декілька прикладів використання типових операцій GroupDocs.Parser for .NET

Витягнути зображення з PDF‑документів

GroupDocs.Parser for .NET спрощує C# розробникам витягування зображень з документів:

Витягнути зображення з PDF‑документів у C#

// Створіть екземпляр класу Parser
using (var parser = new Parser("source.pptx"))
{
    // Витягніть зображення
    var images = parser.GetImages();

    // Перевірте, чи щось витягнуто
    if (images == null)
    {
        return;
    }
    // Переберіть зображення
    foreach (PageImageArea image in images)
    {
        // Виведіть індекс сторінки, прямокутник і тип зображення
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Type: {2}", 
            image.Page.Index, image.Rectangle, image.FileType));
    }
}

Витягнути штрихкоди з зображень

Використайте наш API .NET для витягування штрихкодів з зображень:

Витягнути штрихкоди з зображень у C#

// Завантажте вихідне зображення у Parser
using (var parser = new Parser("source.jpg"))
{
    // Перевірте, чи файл підтримує витягування штрихкодів
    if (parser.Features.Barcodes)
    {
        // Витягніть штрихкоди з файлу
        var barcodes = parser.GetBarcodes();

        // Переберіть штрихкоди
        foreach (var barcode in barcodes)
        {
            // Виведіть індекс сторінки
            Console.WriteLine("Page: " + barcode.Page.Index.ToString());
            // Виведіть значення штрихкоду
            Console.WriteLine("Value: " + barcode.Value);
        }
    }
}

Готові почати?

Завантажте GroupDocs.Parser безкоштовно або отримайте пробну ліцензію для повного доступу!

Корисні ресурси

Вивчіть документацію, зразки коду та підтримку спільноти для покращення вашого досвіду.

Поради щодо тимчасової ліцензії

1
Зареєструйтеся за допомогою вашої робочої e-mail. Безкоштовні поштові служби заборонені.
2
Скористайтеся кнопкою Отримати тимчасову ліцензію на другому кроці.
 Українська