GroupDocs.Parser trong một cái nhìn tổng quan

Document Parser SDK để thực hiện phân tích tài liệu độ chính xác cao trong các ứng dụng Java

Illustration parser

Trích xuất dữ liệu từ tài liệu

GroupDocs.Parser for Java API cho phép bạn lấy văn bản, siêu dữ liệu và hình ảnh từ đa dạng định dạng tệp như tài liệu Office, email, tệp đính kèm và lưu trữ. Công cụ mạnh mẽ này giúp bạn truy cập và xử lý thông tin giá trị chứa trong các tệp một cách hiệu quả cho các ứng dụng như phân tích dữ liệu, lập chỉ mục công cụ tìm kiếm hoặc hệ thống quản lý nội dung.

Phân tích tài liệu

Trích xuất các yếu tố đa dạng như siêu liên kết, bảng, mã QR, mã vạch và dữ liệu từ biểu mẫu PDF. Ngoài ra, phân tích bất kỳ thông tin mong muốn nào từ tài liệu bằng cách sử dụng mẫu tùy chỉnh.

Tùy chỉnh kết quả

Java API cho phép bạn lấy dữ liệu ở các định dạng khác nhau như thô, có cấu trúc, HTML hoặc Markdown. Ngoài ra, API cung cấp tính năng tìm kiếm để xác định các từ hoặc cụm từ cụ thể trong văn bản của tài liệu.

Độc lập nền tảng

GroupDocs.Parser for Java hỗ trợ các hệ điều hành, framework và trình quản lý gói sau đây

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Các định dạng tệp được hỗ trợ

GroupDocs.Parser for Java hỗ trợ thao tác với các định dạng tệp sau đây.

Định dạng Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Hình ảnh & Các định dạng khác

  • Di động: PDF
  • Hình ảnh: JPG, BMP, PNG, TIFF, GIF
  • Các định dạng Office khác: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Các định dạng khác

  • Web: HTML, MHTML
  • Lưu trữ: ZIP, TAR, 7Z
  • Sách điện tử: CHM, EPUB, FB2, MOBI

Các tính năng của GroupDocs.Parser for Java

Trích xuất dữ liệu từ PDF, tài liệu Office, hình ảnh và các định dạng khác một cách nhanh chóng và chính xác với Java Document Parser SDK của chúng tôi

Feature icon

Trích xuất văn bản

Trích xuất thông tin văn bản từ các định dạng tệp khác nhau như tài liệu Office, tệp PDF và hình ảnh để dễ đọc và phân tích.

Feature icon

Trích xuất hình ảnh

Lấy nội dung hình ảnh từ các nguồn đa dạng như tài liệu Office, tệp PDF để truy cập và sử dụng thuận tiện.

Feature icon

Quét mã QR

Phát hiện và giải mã mã QR có trong tài liệu Office, tệp PDF hoặc nội dung hình ảnh để truy xuất thông tin một cách hiệu quả.

Feature icon

Trích xuất dữ liệu từ tệp đính kèm email và lưu trữ

Thu thập thông tin giá trị từ tin nhắn email, tệp đính kèm và nguồn dữ liệu nén để phân tích và sử dụng hiệu quả.

Feature icon

Trích xuất bảng

Xác định và trích xuất dữ liệu dạng bảng từ tài liệu PDF để phân tích và sử dụng có tổ chức.

Feature icon

Trích xuất siêu liên kết

Xác định và trích xuất siêu liên kết và địa chỉ email trong tài liệu Office hoặc tệp PDF để truy cập hiệu quả.

Feature icon

Phân tích biểu mẫu PDF

Biểu mẫu PDF là tài liệu kỹ thuật số có các trường có thể điền để người dùng tương tác, cho phép họ nhập thông tin điện tử. API .NET có thể được sử dụng để trích xuất dữ liệu từ các biểu mẫu này nhằm xử lý hiệu quả.

Feature icon

Phân tích dữ liệu theo mẫu

Tạo mẫu tùy chỉnh và sử dụng chúng cùng API .NET để phân tích thông tin cụ thể từ tệp PDF, đơn giản hóa quá trình trích xuất dữ liệu.

Feature icon

Tìm kiếm văn bản trong tài liệu

Nhanh chóng xác định các từ hoặc mẫu cụ thể trong tài liệu.

Mẫu code

Một số trường hợp sử dụng điển hình của các thao tác GroupDocs.Parser for Java

Trích xuất hình ảnh từ tài liệu PDF

GroupDocs.Parser for Java giúp các nhà phát triển Java dễ dàng trích xuất hình ảnh từ tài liệu:

Trích xuất hình ảnh từ tài liệu PDF trong Java

// Tạo một thể hiện của lớp Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Trích xuất hình ảnh
    Iterable<PageImageArea> images = parser.getImages();

    // Kiểm tra xem có gì được trích xuất không
    if (images == null) {
        return;
    }

    // Duyệt qua hình ảnh
    for (PageImageArea image : images) {
        // In chỉ số trang, hình chữ nhật và loại hình ảnh
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Trích xuất mã vạch từ hình ảnh

Sử dụng API Java của chúng tôi để trích xuất mã vạch từ hình ảnh:

Trích xuất mã vạch từ hình ảnh trong Java

// Tải hình ảnh nguồn vào Parser
try (Parser parser = new Parser("source.jpg")){

    // Kiểm tra xem tệp có hỗ trợ trích xuất mã vạch không
    if (!parser.getFeatures().isBarcodes()) {

        // Trích xuất mã vạch từ tệp
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Duyệt qua các mã vạch
        for (PageBarcodeArea barcode : barcodes) {
            // In chỉ số trang
            System.out.println("Page: " + barcode.getPage().getIndex());
            // In giá trị mã vạch
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

Sẵn sàng để bắt đầu?

Tải xuống GroupDocs.Parser miễn phí hoặc nhận giấy phép dùng thử để có toàn quyền truy cập!

Tài nguyên hữu ích

Khám phá tài liệu, mẫu mã và hỗ trợ cộng đồng để nâng cao trải nghiệm của bạn.

Lời khuyên về giấy phép tạm thời

1
Đăng ký bằng email công việc của bạn. Dịch vụ thư miễn phí không được phép.
2
Sử dụng nút Nhận giấy phép tạm thời ở Bước thứ hai.
 Tiếng Việt