GroupDocs.Parser trong một cái nhìn tổng quan

Document Parser SDK để thực hiện việc phân tích tài liệu độ chính xác cao trong các ứng dụng .NET

Illustration parser

Trích xuất dữ liệu từ tài liệu

GroupDocs.Parser for .NET API cho phép bạn lấy văn bản, siêu dữ liệu và hình ảnh từ nhiều định dạng tệp khác nhau như tài liệu Office, email, tệp đính kèm và lưu trữ. Công cụ mạnh mẽ này giúp bạn truy cập và xử lý thông tin quý giá trong các tệp một cách hiệu quả cho các ứng dụng như phân tích dữ liệu, lập chỉ mục công cụ tìm kiếm hoặc hệ thống quản lý nội dung.

Phân tích tài liệu

Trích xuất các thành phần khác nhau như siêu liên kết, bảng, mã QR, mã vạch và dữ liệu từ các biểu mẫu PDF. Đồng thời phân tích bất kỳ thông tin mong muốn nào từ tài liệu bằng cách sử dụng mẫu tùy chỉnh.

Tùy chỉnh kết quả

.NET API cho phép bạn lấy dữ liệu ở nhiều định dạng như thô, có cấu trúc, HTML hoặc Markdown. Ngoài ra, API cung cấp chức năng tìm kiếm để xác định các từ hoặc cụm từ cụ thể trong văn bản tài liệu.

Độc lập nền tảng

GroupDocs.Parser for .NET hỗ trợ các hệ điều hành, framework và trình quản lý gói sau đây

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

Các định dạng tệp được hỗ trợ

GroupDocs.Parser for .NET hỗ trợ thao tác với các định dạng tệp sau đây.

Định dạng Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Hình ảnh & Các định dạng khác

  • Di động: PDF
  • Hình ảnh: JPG, BMP, PNG, TIFF, GIF
  • Các định dạng Office khác: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Các định dạng khác

  • Web: HTML, MHTML
  • Lưu trữ: ZIP, TAR, 7Z
  • Sách điện tử: CHM, EPUB, FB2, MOBI

Các tính năng của GroupDocs.Parser for .NET

Trích xuất dữ liệu từ PDF, tài liệu Office, hình ảnh và các định dạng khác một cách nhanh chóng và chính xác với Document Parser SDK .NET của chúng tôi

Feature icon

Trích xuất văn bản

Trích xuất thông tin văn bản từ các định dạng tệp khác nhau như tài liệu Office, tệp PDF và hình ảnh để dễ đọc và phân tích.

Feature icon

Trích xuất hình ảnh

Lấy nội dung hình ảnh từ các nguồn đa dạng như tài liệu Office, tệp PDF để truy cập và sử dụng thuận tiện.

Feature icon

Quét mã QR

Phát hiện và giải mã mã QR có trong tài liệu Office, tệp PDF hoặc nội dung hình ảnh để truy xuất thông tin một cách hiệu quả.

Feature icon

Trích xuất dữ liệu từ tệp đính kèm email và lưu trữ

Thu thập thông tin giá trị từ tin nhắn email, tệp đính kèm và nguồn dữ liệu nén để phân tích và sử dụng hiệu quả.

Feature icon

Trích xuất bảng

Xác định và trích xuất dữ liệu dạng bảng từ tài liệu PDF để phân tích và sử dụng có tổ chức.

Feature icon

Trích xuất siêu liên kết

Xác định và trích xuất siêu liên kết và địa chỉ email trong tài liệu Office hoặc tệp PDF để truy cập hiệu quả.

Feature icon

Phân tích biểu mẫu PDF

Biểu mẫu PDF là tài liệu kỹ thuật số có các trường có thể điền để người dùng tương tác, cho phép họ nhập thông tin điện tử. API .NET có thể được sử dụng để trích xuất dữ liệu từ các biểu mẫu này nhằm xử lý hiệu quả.

Feature icon

Phân tích dữ liệu theo mẫu

Tạo mẫu tùy chỉnh và sử dụng chúng cùng API .NET để phân tích thông tin cụ thể từ tệp PDF, đơn giản hóa quá trình trích xuất dữ liệu.

Feature icon

Tìm kiếm văn bản trong tài liệu

Nhanh chóng xác định các từ hoặc mẫu cụ thể trong tài liệu.

Mẫu code

Một số ví dụ về các thao tác điển hình của GroupDocs.Parser for .NET

Trích xuất hình ảnh từ tài liệu PDF

GroupDocs.Parser for .NET giúp các nhà phát triển C# dễ dàng trích xuất hình ảnh từ tài liệu:

Trích xuất hình ảnh từ tài liệu PDF trong C#

// Tạo một thể hiện của lớp Parser
using (var parser = new Parser("source.pptx"))
{
    // Trích xuất hình ảnh
    var images = parser.GetImages();

    // Kiểm tra xem có gì được trích xuất không
    if (images == null)
    {
        return;
    }
    // Duyệt qua hình ảnh
    foreach (PageImageArea image in images)
    {
        // In chỉ số trang, hình chữ nhật và loại hình ảnh
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Type: {2}", 
            image.Page.Index, image.Rectangle, image.FileType));
    }
}

Trích xuất mã vạch từ hình ảnh

Sử dụng API .NET của chúng tôi để trích xuất mã vạch từ hình ảnh:

Trích xuất mã vạch từ hình ảnh trong C#

// Tải hình ảnh nguồn vào Parser
using (var parser = new Parser("source.jpg"))
{
    // Kiểm tra xem tệp có hỗ trợ trích xuất mã vạch không
    if (parser.Features.Barcodes)
    {
        // Trích xuất mã vạch từ tệp
        var barcodes = parser.GetBarcodes();

        // Duyệt qua các mã vạch
        foreach (var barcode in barcodes)
        {
            // In chỉ số trang
            Console.WriteLine("Page: " + barcode.Page.Index.ToString());
            // In giá trị mã vạch
            Console.WriteLine("Value: " + barcode.Value);
        }
    }
}

Sẵn sàng để bắt đầu?

Tải xuống GroupDocs.Parser miễn phí hoặc nhận giấy phép dùng thử để có toàn quyền truy cập!

Tài nguyên hữu ích

Khám phá tài liệu, mẫu mã và hỗ trợ cộng đồng để nâng cao trải nghiệm của bạn.

Lời khuyên về giấy phép tạm thời

1
Đăng ký bằng email công việc của bạn. Dịch vụ thư miễn phí không được phép.
2
Sử dụng nút Nhận giấy phép tạm thời ở Bước thứ hai.
 Tiếng Việt