Удобный для разработчиков SDK парсинга документов для извлечения текста, изображений, штрихкодов, метаданных и таблиц из более чем 50 форматов документов и изображений.
Интегрируйте высокопроизводительный парсинг документов в свои приложения на .NET, Java и Python с минимальными усилиями по написанию кода.
Используйте гибкие шаблоны и расширенные API для настройки правил парсинга и получения чистых, структурированных данных.
Мощный SDK парсинга документов для извлечения структурированных и неструктурированных данных из PDF, офисных документов, изображений, электронных писем и архивов.
Извлечение текстовой информации из различных форматов файлов
Получение визуального контента из различных источников
Создавайте пользовательские шаблоны и используйте их для парсинга конкретной информации
PDF‑формы — это цифровые документы с заполняемыми полями для взаимодействия пользователя
Некоторые примеры типовых операций GroupDocs.Parser на C#, Java и Python
// Создайте экземпляр класса Parser, передав нужный файл
using (var parser = new Parser("source.pdf"))
{
// Извлеките текст
using (var textReader = parser.GetText())
{
// Обработайте извлечённый текст
Console.WriteLine(textReader?.ReadToEnd());
}
}
// Создайте экземпляр класса Parser, передав нужный файл
try (Parser parser = new Parser("source.pdf"))
{
// Извлеките текст
try (TextReader reader = parser.getText())
{
// Обработайте извлечённый текст
System.out.println(reader == null
? ""
: reader.readToEnd());
}
}
from groupdocs.parser import Parser
# Создайте экземпляр класса Parser, передав нужный файл
with Parser("source.pdf") as parser:
# Извлеките текст
text = parser.get_text()
# Обработайте извлечённый текст
print(text)
SDK парсинга документов GroupDocs.Parser позволяет выполнять операции парсинга для офисных документов, PDF, изображений, электронных писем, архивов и многого другого.
Узнайте ключевые показатели достижений нашей библиотеки
GroupDocs.Parser поддерживает работу более чем с 50 популярными форматами файлов.
Пакет GroupDocs.Parser для .NET в NuGet был загружен более 1 600 000 раз.
GroupDocs.Parser имеет 18 000 загрузок в Maven. Мощные функции парсинга для Java.
Известные компании и отдельные разработчики предпочитают продукты GroupDocs для создания инновационных решений.
GroupDocs библиотеки используют всемирно известные и выдающиеся бренды по всему миру.
Библиотека GroupDocs.Parser поддерживает следующие операционные системы и фреймворки:
Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.
Ответы на самые часто задаваемые вопросы.
Интегрируйте возможности парсинга документов в любое приложение с помощью нашего облачного REST API и SDK.
cURL‑команды для RESTful Cloud API парсера документов, позволяющие парсить документы из широкого спектра поддерживаемых популярных файловых форматов.
Извлекайте изображения, текст, сведения о документе или даже парсите любой документ по пользовательскому шаблону в ваших приложениях Microsoft .NET.
Облачный SDK для разработчиков Java, позволяющий парсить документы, извлекать информацию о документе и данные в Java‑приложениях.
Веб‑приложения парсера документов, позволяющие извлекать данные из более чем 50 популярных файловых форматов прямо в браузере.
Бесплатное онлайн‑приложение для парсинга Word, Excel, PowerPoint, PDF и более 50 других типов документов.
Парсите документы Word напрямую из веб‑браузера, чтобы извлекать изображения, текст или метаданные.
Бесплатное приложение для парсинга PDF, работающее на любой платформе или устройстве без ограничений.