GroupDocs.Parser en un vistazo

Document Parser SDK para realizar análisis de documentos de alta precisión en aplicaciones Java

Illustration parser

Extraer datos de documentos

La API GroupDocs.Parser for Java le permite obtener texto, metadatos e imágenes de una amplia gama de formatos de archivo, como documentos de Office, correos electrónicos, adjuntos y archivos. Esta poderosa herramienta le ayuda a acceder y procesar eficientemente la información valiosa contenida en estos archivos para diversas aplicaciones, como análisis de datos, indexación de motores de búsqueda o sistemas de gestión de contenido.

Analizar documentos

Extraiga varios elementos como hipervínculos, tablas, códigos QR, códigos de barras y datos de formularios PDF. También analice cualquier información deseada de los documentos mediante plantillas personalizadas.

Personalizar resultados

Java API le permite obtener datos en varios formatos como sin procesar, estructurado, HTML o Markdown. Además, la API ofrece una funcionalidad de búsqueda para localizar palabras o frases específicas dentro del texto de los documentos.

Independencia de plataforma

GroupDocs.Parser for Java admite los siguientes sistemas operativos, frameworks y gestores de paquetes

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Formatos de archivo compatibles

GroupDocs.Parser for Java admite operaciones con los siguientes formatos de archivo.

Formatos de Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Imágenes y otros formatos

  • Portátil: PDF
  • Imágenes: JPG, BMP, PNG, TIFF, GIF
  • Otros formatos de oficina: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Otros formatos

  • Web: HTML, MHTML
  • Archivos: ZIP, TAR, 7Z
  • eBooks: CHM, EPUB, FB2, MOBI

Funciones de GroupDocs.Parser for Java

Extraiga datos de PDFs, documentos de Office, imágenes y otros formatos de forma rápida y precisa con nuestro SDK Java Document Parser.

Feature icon

Extraer texto

Extrae información textual de varios formatos de archivo, como documentos de oficina, archivos PDF e imágenes, para una fácil lectura y análisis.

Feature icon

Extraer imágenes

Recupera contenido visual de diversas fuentes, como documentos de oficina y archivos PDF, para un acceso y uso convenientes.

Feature icon

Escanear códigos QR

Detecta y decodifica códigos QR presentes en documentos de oficina, archivos PDF o contenido visual para una recuperación de información eficiente.

Feature icon

Extraer datos de adjuntos de correo electrónico y archivos

Recopile información valiosa de mensajes de correo electrónico, archivos adjuntos y fuentes de datos comprimidos para un análisis y utilización eficaces.

Feature icon

Extraer tablas

Identifique y extraiga datos tabulares de documentos PDF para un análisis y uso organizados.

Feature icon

Extraer hipervínculos

Ubique y extraiga hipervínculos y direcciones de correo electrónico dentro de documentos de oficina o archivos PDF para un acceso eficiente.

Feature icon

Analizar formularios PDF

Los formularios PDF son documentos digitales con campos rellenables para la interacción del usuario, que permiten introducir información electrónicamente. La API .NET puede utilizarse para extraer datos de estos formularios para un procesamiento eficiente.

Feature icon

Analizar datos mediante plantillas

Cree plantillas personalizadas y utilícelas con la API .NET para analizar información específica de archivos PDF, simplificando los procesos de extracción de datos.

Feature icon

Buscar texto en documentos

Ubique rápidamente palabras o patrones específicos dentro de los documentos.

Ejemplos de código

Algunos casos de uso típicos de operaciones de GroupDocs.Parser for Java

Extraer imágenes de documentos PDF

GroupDocs.Parser for Java facilita a los desarrolladores de Java extraer imágenes de documentos:

Extraer imágenes de documentos PDF en Java

// Cree una instancia de la clase Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Extraer imágenes
    Iterable<PageImageArea> images = parser.getImages();

    // Verifique si se ha extraído algo
    if (images == null) {
        return;
    }

    // Iterar sobre las imágenes
    for (PageImageArea image : images) {
        // Imprima el índice de página, el rectángulo y el tipo de imagen
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Extraer códigos de barras de imágenes

Utilice nuestra API Java para extraer códigos de barras de imágenes:

Extraer códigos de barras de imágenes en Java

// Cargue la imagen fuente en Parser
try (Parser parser = new Parser("source.jpg")){

    // Verifique si el archivo admite la extracción de códigos de barras
    if (!parser.getFeatures().isBarcodes()) {

        // Extraer códigos de barras del archivo
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Iterar sobre los códigos de barras
        for (PageBarcodeArea barcode : barcodes) {
            // Imprima el índice de página
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Imprima el valor del código de barras
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

¿Listo para empezar?

Descargue GroupDocs.Parser gratis u obtenga una licencia de prueba para obtener acceso completo.

Recursos útiles

Explore la documentación, las muestras de código y el apoyo de la comunidad para mejorar su experiencia.

Consejos para licencias temporales

1
Regístrate con tu correo electrónico del trabajo. No se permiten servicios de correo gratuitos.
2
Utilice el botón Obtener una licencia temporal en el segundo paso.
 Español