GroupDocs.Parser 한눈에 보기

Java 애플리케이션에서 고정밀 문서 파싱을 수행하기 위한 Document Parser SDK

Illustration parser

문서에서 데이터 추출

GroupDocs.Parser for Java API를 사용하면 Office 문서, 이메일, 첨부 파일 및 아카이브와 같은 다양한 파일 형식에서 텍스트, 메타데이터 및 이미지를 검색할 수 있습니다. 이 강력한 도구는 데이터 분석, 검색 엔진 인덱싱 또는 콘텐츠 관리 시스템과 같은 다양한 애플리케이션을 위해 파일에 포함된 귀중한 정보를 효율적으로 액세스하고 처리하는 데 도움을 줍니다.

문서 구문 분석

PDF 양식에서 하이퍼링크, 표, QR 코드, 바코드 및 데이터를 비롯한 다양한 요소를 추출합니다. 또한 사용자 정의 템플릿을 사용하여 문서에서 원하는 정보를 구문 분석합니다.

결과 사용자 지정

Java API를 사용하면 raw, structured, HTML, Markdown과 같은 다양한 형식으로 데이터를 검색할 수 있습니다. 또한 API는 문서 텍스트 내에서 특정 단어나 구를 찾는 검색 기능을 제공합니다.

플랫폼 독립성

GroupDocs.Parser for Java는 다음 운영 체제, 프레임워크 및 패키지 관리자를 지원합니다.

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

지원되는 파일 형식

GroupDocs.Parser for Java은(는) 다음 파일 형식에 대한 작업을 지원합니다.

Microsoft Office 형식

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

이미지 및 기타 형식

  • 휴대용: PDF
  • 이미지: JPG, BMP, PNG, TIFF, GIF
  • 기타 오피스 형식: ODT, OTT, OTS, ODS, ODP, OTP, ODG

기타 형식

  • 웹: HTML, MHTML
  • 아카이브: ZIP, TAR, 7Z
  • 전자책: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java 기능

우리의 Java Document Parser SDK를 사용하여 PDF, Office 문서, 이미지 및 기타 형식에서 데이터를 신속하고 정확하게 추출합니다.

Feature icon

텍스트 추출

Office 문서, PDF 파일 및 이미지와 같은 다양한 파일 형식에서 텍스트 정보를 추출해 가독성과 분석을 용이하게 합니다.

Feature icon

이미지 추출

Office 문서, PDF 파일 등 다양한 소스에서 시각적 콘텐츠를 검색해 편리하게 액세스하고 사용할 수 있습니다.

Feature icon

QR 코드 스캔

Office 문서, PDF 파일 또는 시각적 콘텐츠에 포함된 QR 코드를 감지하고 디코딩해 효율적인 정보 검색을 지원합니다.

Feature icon

이메일 첨부 파일 및 아카이브에서 데이터 추출

이메일 메시지, 파일 첨부 및 압축 데이터 소스에서 귀중한 정보를 수집하여 효과적인 분석 및 활용을 수행합니다.

Feature icon

테이블 추출

PDF 문서에서 표 형식 데이터를 식별하고 추출하여 체계적인 분석 및 활용에 사용할 수 있습니다.

Feature icon

하이퍼링크 추출

오피스 문서나 PDF 파일 내의 하이퍼링크 및 이메일 주소를 찾아 추출하여 효율적인 액세스를 가능하게 합니다.

Feature icon

PDF 양식 파싱

PDF 양식은 사용자가 전자적으로 정보를 입력할 수 있는 입력 가능한 필드를 포함한 디지털 문서입니다. .NET API를 사용하여 이러한 양식에서 데이터를 추출하고 효율적으로 처리할 수 있습니다.

Feature icon

템플릿으로 데이터 파싱

사용자 정의 템플릿을 생성하고 이를 .NET API와 함께 사용하여 PDF 파일에서 특정 정보를 파싱함으로써 데이터 추출 프로세스를 간소화합니다.

Feature icon

문서 내 텍스트 검색

문서 내에서 특정 단어나 패턴을 신속하게 찾습니다.

코드 샘플

일반적인 GroupDocs.Parser for Java 작업의 몇 가지 사용 사례

PDF 문서에서 이미지 추출

GroupDocs.Parser for Java는 Java 개발자가 문서에서 이미지를 쉽게 추출할 수 있도록 합니다:

Java에서 PDF 문서에서 이미지 추출

// Parser 클래스의 인스턴스를 생성합니다.
try (Parser parser = new Parser("source.pdf"))
{
    // 이미지 추출
    Iterable<PageImageArea> images = parser.getImages();

    // 무언가가 추출되었는지 확인합니다
    if (images == null) {
        return;
    }

    // 이미지를 반복 처리합니다
    for (PageImageArea image : images) {
        // 페이지 인덱스, 사각형 및 이미지 유형을 출력합니다
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

이미지에서 바코드 추출

Java API를 사용하여 이미지에서 바코드를 추출합니다:

Java에서 이미지에서 바코드 추출

// Parser에 소스 이미지를 로드합니다
try (Parser parser = new Parser("source.jpg")){

    // 파일이 바코드 추출을 지원하는지 확인합니다
    if (!parser.getFeatures().isBarcodes()) {

        // 파일에서 바코드 추출
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // 바코드를 반복 처리합니다
        for (PageBarcodeArea barcode : barcodes) {
            // 페이지 인덱스를 출력합니다
            System.out.println("Page: " + barcode.getPage().getIndex());
            // 바코드 값을 출력합니다
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

시작할 준비가 되셨나요?

GroupDocs.Parser를 무료로 다운로드하거나 전체 액세스를 위한 평가판 라이센스를 받으세요!

유용한 리소스

경험을 향상시키기 위해 문서, 코드 샘플 및 커뮤니티 지원을 탐색하십시오.

임시 라이센스 팁

1
직장 이메일로 가입하세요. 무료 메일 서비스는 허용되지 않습니다.
2
두 번째 단계에서 임시 라이센스 받기 버튼을 사용하세요.
 한국인