GroupDocs.Parser در یک نگاه

SDK تجزیه‌گر سند برای انجام تجزیه دقیق اسناد در برنامه‌های Java

Illustration parser

استخراج داده‌ها از اسناد

API GroupDocs.Parser for Java به شما امکان می‌دهد تا متن، فراداده و تصاویر را از طیف وسیعی از قالب‌های فایل مانند اسناد Office، ایمیل‌ها، پیوست‌ها و بایگانی‌ها بازیابی کنید. این ابزار قدرتمند به شما کمک می‌کند تا به‌صورت کارآمد به اطلاعات ارزشمند موجود در این فایل‌ها دسترسی پیدا کنید و آنها را برای کاربردهای مختلفی مانند تحلیل داده، ایندکس‌گذاری موتورهای جستجو یا سیستم‌های مدیریت محتوا پردازش نمایید.

تجزیه اسناد

عناصر مختلفی مانند پیوندها، جداول، کدهای QR، بارکدها و داده‌ها را از فرم‌های PDF استخراج کنید. همچنین با استفاده از قالب‌های سفارشی، هر اطلاعات مورد نظر را از اسناد تجزیه کنید.

سفارشی‌سازی نتایج

Java API به شما امکان می‌دهد داده‌ها را در قالب‌های مختلفی مانند خام، ساختار یافته، HTML یا Markdown بازیابی کنید. علاوه بر این، API قابلیت جستجو برای یافتن کلمات یا عبارات خاص در متن اسناد را فراهم می‌کند.

استقلال پلتفرم

GroupDocs.Parser for Java سیستم‌عامل‌ها، چارچوب‌ها و مدیران بسته زیر را پشتیبانی می‌کند

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

قالب‌های فایل پشتیبانی شده

GroupDocs.Parser for Java عملیات با قالب‌های فایل زیر را پشتیبانی می‌کند.

فرمت‌های Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

تصاویر و فرمت‌های دیگر

  • قابل حمل: PDF
  • تصاویر: JPG, BMP, PNG, TIFF, GIF
  • قالب‌های دیگر آفیس: ODT, OTT, OTS, ODS, ODP, OTP, ODG

فرمت‌های دیگر

  • وب: HTML, MHTML
  • آرشیوها: ZIP, TAR, 7Z
  • کتاب‌های الکترونیکی: CHM, EPUB, FB2, MOBI

قابلیت‌های GroupDocs.Parser for Java

داده‌ها را از PDFها، اسناد Office، تصاویر و سایر فرمت‌ها به‌سرعت و با دقت با Java Document Parser SDK ما استخراج کنید.

Feature icon

استخراج متن

اطلاعات متنی را از فرمت‌های مختلف فایل مانند اسناد آفیس، فایل‌های PDF و تصاویر استخراج کنید تا قابلیت خواندن و تحلیل آسان را داشته باشید.

Feature icon

استخراج تصاویر

محتوای تصویری را از منابع متنوعی مانند اسناد آفیس و فایل‌های PDF بازیابی کنید برای دسترسی و استفاده راحت.

Feature icon

اسکن کدهای QR

کدهای QR موجود در اسناد آفیس، فایل‌های PDF یا محتوای تصویری را شناسایی و رمزگشایی کنید برای بازیابی مؤثر اطلاعات.

Feature icon

استخراج داده‌ها از پیوست‌های ایمیل و آرشیوها

اطلاعات ارزشمند را از پیام‌های ایمیل، پیوست‌های فایل و منابع داده فشرده جمع‌آوری کنید تا برای تجزیه و تحلیل و بهره‌برداری مؤثر به کار رود.

Feature icon

استخراج جداول

داده‌های جدولی را از اسناد PDF شناسایی و استخراج کنید برای تجزیه و تحلیل منظم و استفاده.

Feature icon

استخراج پیوندهای ابرمتنی

پیوندهای ابرمتنی و آدرس‌های ایمیل را در اسناد آفیس یا فایل‌های PDF پیدا کرده و استخراج کنید برای دسترسی کارآمد.

Feature icon

تجزیه فرم‌های PDF

فرم‌های PDF اسناد دیجیتالی هستند که دارای فیلدهای قابل پرکردن برای تعامل کاربر می‌باشند و به آنها امکان وارد کردن اطلاعات به‌صورت الکترونیکی را می‌دهند. می‌توان از API .NET برای استخراج داده‌ها از این فرم‌ها جهت پردازش کارآمد استفاده کرد.

Feature icon

تجزیه داده‌ها با قالب‌ها

قالب‌های سفارشی ایجاد کنید و با استفاده از API .NET، اطلاعات خاصی را از فایل‌های PDF تجزیه کنید، که فرآیند استخراج داده‌ها را ساده می‌کند.

Feature icon

جستجوی متن در اسناد

به‌سرعت کلمات یا الگوهای خاص را در اسناد پیدا کنید.

نمونه‌های کد

برخی موارد استفاده رایج از عملیات GroupDocs.Parser for Java

استخراج تصاویر از اسناد PDF

GroupDocs.Parser for Java برای توسعه‌دهندگان Java استخراج تصاویر از اسناد را آسان می‌کند:

استخراج تصاویر از اسناد PDF در Java

// یک نمونه از کلاس Parser ایجاد کنید
try (Parser parser = new Parser("source.pdf"))
{
    // استخراج تصاویر
    Iterable<PageImageArea> images = parser.getImages();

    // بررسی کنید آیا چیزی استخراج شده است
    if (images == null) {
        return;
    }

    // تکرار بر روی تصاویر
    for (PageImageArea image : images) {
        // چاپ شاخص صفحه، مستطیل و نوع تصویر
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

استخراج بارکدها از تصاویر

از API Java ما برای استخراج بارکدها از تصاویر استفاده کنید:

استخراج بارکدها از تصاویر در Java

// بارگذاری تصویر منبع به Parser
try (Parser parser = new Parser("source.jpg")){

    // بررسی کنید آیا فایل از استخراج بارکد پشتیبانی می‌کند
    if (!parser.getFeatures().isBarcodes()) {

        // استخراج بارکدها از فایل
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // تکرار بر روی بارکدها
        for (PageBarcodeArea barcode : barcodes) {
            // چاپ شاخص صفحه
            System.out.println("Page: " + barcode.getPage().getIndex());
            // چاپ مقدار بارکد
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

برای شروع آماده اید؟

GroupDocs.Parser را به صورت رایگان دانلود کنید یا یک مجوز آزمایشی برای دسترسی کامل دریافت کنید!

منابع مفید

برای ارتقاء تجربه خود ، مستندات ، نمونه های کد و پشتیبانی جامعه را کاوش کنید.

نکات مجوز موقت

1
با ایمیل کاری خود ثبت نام کنید. خدمات پست الکترونیکی رایگان مجاز نیستند.
2
در مرحله دوم از دکمه دریافت مجوز موقت استفاده کنید.
 فارسی