GroupDocs.Parser trong một cái nhìn tổng quan
Document Parser SDK để thực hiện phân tích tài liệu độ chính xác cao trong các ứng dụng Java
Trích xuất dữ liệu từ tài liệu
GroupDocs.Parser for Java API cho phép bạn lấy văn bản, siêu dữ liệu và hình ảnh từ đa dạng định dạng tệp như tài liệu Office, email, tệp đính kèm và lưu trữ. Công cụ mạnh mẽ này giúp bạn truy cập và xử lý thông tin giá trị chứa trong các tệp một cách hiệu quả cho các ứng dụng như phân tích dữ liệu, lập chỉ mục công cụ tìm kiếm hoặc hệ thống quản lý nội dung.
Phân tích tài liệu
Trích xuất các yếu tố đa dạng như siêu liên kết, bảng, mã QR, mã vạch và dữ liệu từ biểu mẫu PDF. Ngoài ra, phân tích bất kỳ thông tin mong muốn nào từ tài liệu bằng cách sử dụng mẫu tùy chỉnh.
Tùy chỉnh kết quả
Java API cho phép bạn lấy dữ liệu ở các định dạng khác nhau như thô, có cấu trúc, HTML hoặc Markdown. Ngoài ra, API cung cấp tính năng tìm kiếm để xác định các từ hoặc cụm từ cụ thể trong văn bản của tài liệu.

