GroupDocs.Parser en un coup d’œil

SDK de parsing de documents pour réaliser un parsing haute précision dans les applications Java

Illustration parser

Extraire des données de documents

GroupDocs.Parser for Java API vous permet de récupérer le texte, les métadonnées et les images d’une large gamme de formats de fichiers tels que les documents Office, les e‑mails, les pièces jointes et les archives. Cet outil puissant vous aide à accéder et à traiter efficacement les informations précieuses contenues dans ces fichiers pour diverses applications comme l’analyse de données, l’indexation pour les moteurs de recherche ou les systèmes de gestion de contenu.

Analyser les documents

Extraire divers éléments tels que les hyperliens, les tableaux, les codes QR, les codes-barres et les données des formulaires PDF. Analysez également toute information souhaitée à partir de documents en utilisant des modèles personnalisés.

Personnaliser les résultats

Java API vous permet de récupérer des données dans divers formats tels que brut, structuré, HTML ou Markdown. De plus, l’API offre une fonction de recherche pour localiser des mots ou des expressions spécifiques dans le texte des documents.

Indépendance de plateforme

GroupDocs.Parser for Java prend en charge les systèmes d’exploitation, frameworks et gestionnaires de packages suivants

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Formats de fichiers pris en charge

GroupDocs.Parser for Java prend en charge les opérations avec les formats de fichiers suivants.

Formats Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Images et autres formats

  • Portable: PDF
  • Images: JPG, BMP, PNG, TIFF, GIF
  • Autres formats Office: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Autres formats

  • Web: HTML, MHTML
  • Archives: ZIP, TAR, 7Z
  • e-books: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java fonctionnalités

Extraire des données des PDF, documents Office, images et autres formats rapidement et avec précision grâce à notre SDK Java Document Parser

Feature icon

Extraire du texte

Extrayez les informations textuelles de divers formats de fichiers tels que les documents Office, les fichiers PDF et les images pour une lecture et une analyse aisées.

Feature icon

Extraire des images

Récupérez le contenu visuel de diverses sources comme les documents Office ou les fichiers PDF pour un accès et une utilisation pratiques.

Feature icon

Scanner les QR Codes

Détectez et décodez les QR codes présents dans les documents Office, les fichiers PDF ou le contenu visuel pour une récupération d’informations efficace.

Feature icon

Extraire des données des pièces jointes d’e‑mail et des archives

Recueillez des informations précieuses à partir des messages électroniques, des pièces jointes et des sources de données compressées pour une analyse et une utilisation efficaces.

Feature icon

Extraire les tableaux

Identifiez et extrayez les données tabulaires des documents PDF pour une analyse et une utilisation organisées.

Feature icon

Extraire les hyperliens

Localisez et extrayez les hyperliens et les adresses e‑mail dans les documents Office ou les fichiers PDF pour un accès efficace.

Feature icon

Analyser les formulaires PDF

Les formulaires PDF sont des documents numériques contenant des champs remplissables pour l’interaction utilisateur, permettant de saisir des informations électroniquement. L’API .NET peut être utilisée pour extraire les données de ces formulaires afin de les traiter efficacement.

Feature icon

Analyser les données à l’aide de modèles

Créez des modèles personnalisés et utilisez‑les avec l’API .NET pour analyser des informations spécifiques à partir de fichiers PDF, simplifiant ainsi les processus d’extraction de données.

Feature icon

Rechercher du texte dans les documents

Localisez rapidement des mots ou des motifs spécifiques dans les documents.

Exemples de code

Quelques cas d’utilisation des opérations typiques de GroupDocs.Parser for Java

Extraire des images de documents PDF

GroupDocs.Parser for Java facilite aux développeurs Java l’extraction d’images depuis les documents :

Extraire des images de documents PDF en Java

// Créez une instance de la classe Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Extrayez les images
    Iterable<PageImageArea> images = parser.getImages();

    // Vérifiez si quelque chose a été extrait
    if (images == null) {
        return;
    }

    // Itérez sur les images
    for (PageImageArea image : images) {
        // Affichez l'index de page, le rectangle et le type d'image
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Extraire les codes-barres des images

Utilisez notre API Java pour extraire les codes-barres depuis les images :

Extraire les codes-barres d'images en Java

// Chargez l'image source dans Parser
try (Parser parser = new Parser("source.jpg")){

    // Vérifiez si le fichier prend en charge l'extraction de codes-barres
    if (!parser.getFeatures().isBarcodes()) {

        // Extrayez les codes-barres du fichier
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Itérez sur les codes-barres
        for (PageBarcodeArea barcode : barcodes) {
            // Affichez l'index de page
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Affichez la valeur du code-barres
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

Prêt à commencer ?

Téléchargez GroupDocs.Parser gratuitement ou obtenez une licence d’essai pour un accès complet !

Ressources utiles

Explorez la documentation, les échantillons de code et le soutien communautaire pour améliorer votre expérience.

Conseils sur les licences temporaires

1
Inscrivez-vous avec votre adresse e-mail professionnelle. Les services de messagerie gratuits ne sont pas autorisés.
2
Utilisez le bouton Obtenir une licence temporaire à la deuxième étape.
 Français