Visão geral de GroupDocs.Parser

SDK de Analisador de Documentos para realizar análise de documentos de alta precisão em aplicativos Java

Illustration parser

Extrair dados de documentos

GroupDocs.Parser for Java API permite recuperar texto, metadados e imagens de uma ampla variedade de formatos de arquivo, como documentos do Office, e‑mails, anexos e arquivos compactados. Esta ferramenta poderosa ajuda a acessar e processar de forma eficiente as informações valiosas contidas nesses arquivos para diversas aplicações, como análise de dados, indexação de mecanismos de busca ou sistemas de gerenciamento de conteúdo.

Analisar documentos

Extraia vários elementos, como hyperlinks, tabelas, códigos QR, códigos de barras e dados de formulários PDF. Também analise quaisquer informações desejadas de documentos usando modelos personalizados.

Personalizando resultados

Java API permite recuperar dados em vários formatos, como bruto, estruturado, HTML ou Markdown. Além disso, a API oferece funcionalidade de busca para localizar palavras ou frases específicas no texto dos documentos.

Independência de Plataforma

GroupDocs.Parser for Java suporta os seguintes sistemas operacionais, frameworks e gerenciadores de pacotes

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Formatos de arquivo suportados

GroupDocs.Parser for Java oferece suporte a operações com os seguintes formatos de arquivo.

Formatos Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Imagens e Outros Formatos

  • Portátil: PDF
  • Imagens: JPG, BMP, PNG, TIFF, GIF
  • Outros formatos de Office: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Outros formatos

  • Web: HTML, MHTML
  • Arquivos: ZIP, TAR, 7Z
  • e-Books: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java recursos

Extraia dados de PDFs, documentos do Office, imagens e outros formatos de forma rápida e precisa com o nosso SDK Java Document Parser

Feature icon

Extrair texto

Extraia informações textuais de vários formatos de arquivo, como documentos do Office, arquivos PDF e imagens, para fácil leitura e análise.

Feature icon

Extrair imagens

Recupere conteúdo visual de diversas fontes, como documentos do Office e arquivos PDF, para acesso e uso conveniente.

Feature icon

Digitalizar códigos QR

Detecte e decodifique códigos QR presentes em documentos do Office, arquivos PDF ou conteúdo visual para recuperação eficiente de informações.

Feature icon

Extrair dados de anexos de e‑mail e arquivos

Coleta informações valiosas de mensagens de email, anexos de arquivos e fontes de dados compactadas para análise e utilização eficazes.

Feature icon

Extrair tabelas

Identifique e extraia dados tabulares de documentos PDF para análise e uso organizados.

Feature icon

Extrair hiperlinks

Localize e extraia hiperlinks e endereços de email em documentos do Office ou arquivos PDF para acesso eficiente.

Feature icon

Analisar formulários PDF

Formulários PDF são documentos digitais com campos preenchíveis para interação do usuário, permitindo que eles insiram informações eletronicamente. A API .NET pode ser utilizada para extrair dados desses formulários para processamento eficiente.

Feature icon

Analisar dados com templates

Crie templates personalizados e utilize-os com a API .NET para analisar informações específicas de arquivos PDF, simplificando os processos de extração de dados.

Feature icon

Pesquisar texto em documentos

Localize rapidamente palavras ou padrões específicos em documentos.

Exemplos de código

Alguns casos de uso típicos das operações do GroupDocs.Parser for Java

Extrair imagens de documentos PDF

GroupDocs.Parser for Java facilita para desenvolvedores Java a extração de imagens de documentos:

Extrair imagens de documentos PDF em Java

// Crie uma instância da classe Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Extrair imagens
    Iterable<PageImageArea> images = parser.getImages();

    // Verifique se algo foi extraído
    if (images == null) {
        return;
    }

    // Iterar sobre as imagens
    for (PageImageArea image : images) {
        // Imprima o índice da página, o retângulo e o tipo de imagem
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Extrair códigos de barras de imagens

Use nossa API Java para extrair códigos de barras de imagens:

Extrair códigos de barras de imagens em Java

// Carregue a imagem fonte no Parser
try (Parser parser = new Parser("source.jpg")){

    // Verifique se o arquivo suporta extração de códigos de barras
    if (!parser.getFeatures().isBarcodes()) {

        // Extrair códigos de barras do arquivo
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Iterar sobre os códigos de barras
        for (PageBarcodeArea barcode : barcodes) {
            // Imprima o índice da página
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Imprima o valor do código de barras
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

Pronto para começar?

Baixe GroupDocs.Parser gratuitamente ou obtenha uma licença de teste para acesso total!

Recursos úteis

Explore a documentação, as amostras de código e o apoio da comunidade para aprimorar sua experiência.

Dicas de licença temporária

1
Cadastre-se com seu e-mail comercial. Serviços de e-mail gratuitos não são permitidos.
2
Use o botão Obter uma licença temporária na segunda etapa.
 Português