Parser สำหรับ Python

Document Parser SDK สำหรับ Python

เพิ่มการแยกเอกสารที่เร็วและแม่นยำให้กับแอป Python ของคุณและสกัดข้อความ, รูปภาพ, metadata และข้อมูลเชิงโครงสร้างจากเอกสารและรูปภาพ

ดาวน์โหลด PyPI เริ่มทดลองใช้ฟรี

from groupdocs.parser import Parser

# โหลดเอกสาร
with Parser("sample.pdf") as parser:
    # สกัดข้อความจากเอกสาร
    text = parser.GetText()

    # พิมพ์ข้อความที่สกัดทั้งหมด
    print(text)

pip install groupdocs-parser-net

GroupDocs.Parser อย่างคร่าวๆ

Document Parser SDK สำหรับการแยกเอกสารที่ความแม่นยำสูงในแอปพลิเคชัน Python

สกัดข้อมูลจากเอกสาร

GroupDocs.Parser for Python via .NET API ช่วยให้คุณดึงข้อความ, metadata, และรูปภาพจากรูปแบบไฟล์หลากหลาย เช่น เอกสาร Office, อีเมล, ไฟล์แนบ และไฟล์บีบอัด เครื่องมือนี้ช่วยให้คุณเข้าถึงและประมวลผลข้อมูลที่มีค่าในไฟล์เหล่านี้ได้อย่างมีประสิทธิภาพสำหรับการใช้งานต่างๆ เช่น การวิเคราะห์ข้อมูล, การทำดัชนีของเครื่องมือค้นหา, หรือระบบจัดการเนื้อหา

แยกเอกสาร

สกัดส่วนประกอบต่าง ๆ เช่น ไฮเปอร์ลิงก์, ตาราง, QR code, barcode และข้อมูลจากแบบฟอร์ม PDF. นอกจากนี้ยังสามารถแยกข้อมูลที่ต้องการใด ๆ จากเอกสารโดยใช้เทมเพลตกำหนดเอง

ปรับแต่งผลลัพธ์

Python API ช่วยให้คุณดึงข้อมูลในรูปแบบต่าง ๆ เช่น raw, structured, HTML หรือ Markdown. นอกจากนี้ API ยังมีฟังก์ชันการค้นหาเพื่อหาคำหรือวลีเฉพาะในข้อความของเอกสาร

ความเป็นอิสระของแพลตฟอร์ม

GroupDocs.Parser for Python via .NET รองรับระบบปฏิบัติการ, เฟรมเวิร์กและตัวจัดการแพคเกจต่อไปนี้

รูปแบบไฟล์ที่รองรับ

GroupDocs.Parser for Python via .NET รองรับการทำงานกับ รูปแบบไฟล์ ต่อไปนี้.

รูปแบบ Microsoft Office

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

รูปภาพและรูปแบบอื่น ๆ

พกพา: PDF
รูปภาพ: JPG, BMP, PNG, TIFF, GIF
รูปแบบ Office อื่น ๆ: ODT, OTT, OTS, ODS, ODP, OTP, ODG

รูปแบบอื่น ๆ

เว็บ: HTML, MHTML
ไฟล์เก็บข้อมูล: ZIP, TAR, 7Z
อีบุ๊ค: CHM, EPUB, FB2, MOBI

คุณลักษณะของ GroupDocs.Parser for Python via .NET

สกัดข้อมูลจาก PDF, เอกสาร Office, รูปภาพและรูปแบบอื่น ๆ อย่างรวดเร็วและแม่นยำด้วย Python Document Parser SDK ของเรา

สกัดข้อความ

สกัดข้อมูลข้อความจากรูปแบบไฟล์ต่าง ๆ เช่น เอกสาร Office, ไฟล์ PDF และรูปภาพ เพื่อความง่ายในการอ่านและวิเคราะห์

สกัดรูปภาพ

ดึงเนื้อหาภาพจากแหล่งต่าง ๆ เช่น เอกสาร Office, ไฟล์ PDF เพื่อการเข้าถึงและใช้งานที่สะดวก

สแกน QR Code

ตรวจหาและถอดรหัส QR code ที่อยู่ในเอกสาร Office, ไฟล์ PDF หรือเนื้อหาภาพเพื่อการรับข้อมูลที่มีประสิทธิภาพ

สกัดข้อมูลจากไฟล์แนบอีเมลและไฟล์บีบอัด

รวบรวมข้อมูลที่มีค่าจากข้อความอีเมล, ไฟล์แนบ และแหล่งข้อมูลที่บีบอัดเพื่อการวิเคราะห์และใช้งานอย่างมีประสิทธิภาพ

สกัดตาราง

ระบุและสกัดข้อมูลในรูปแบบตารางจากเอกสาร PDF เพื่อการวิเคราะห์และใช้งานอย่างเป็นระบบ

สกัดไฮเปอร์ลิงก์

ค้นหาและดึงลิงก์ไฮเปอร์และที่อยู่อีเมลภายในเอกสาร office หรือไฟล์ PDF เพื่อการเข้าถึงที่มีประสิทธิภาพ

ประมวลผลฟอร์ม PDF

ฟอร์ม PDF คือเอกสารดิจิทัลที่มีช่องกรอกข้อมูลให้ผู้ใช้กรอกข้อมูลได้อย่างอิเล็กทรอนิกส์ API ของ Python สามารถใช้เพื่อดึงข้อมูลจากฟอร์มเหล่านี้เพื่อการประมวลผลที่มีประสิทธิภาพ

ประมวลผลข้อมูลด้วยเทมเพลต

สร้างเทมเพลตที่กำหนดเองและใช้ร่วมกับ API ของ Python เพื่อแยกข้อมูลเฉพาะจากไฟล์ PDF ลดความซับซ้อนของกระบวนการดึงข้อมูล

ค้นหาข้อความในเอกสาร

ค้นหาคำหรือรูปแบบเฉพาะในเอกสารได้อย่างรวดเร็ว

ตัวอย่างโค้ด

นอกเหนือจากการดึงข้อความพื้นฐาน นี่คือกรณีการใช้งานที่พบบ่อยที่สุดสำหรับการดึงข้อความ ภาพ และเมตาดาต้าอย่างรวดเร็ว

ค้นหาข้อความในเอกสาร

ตัวอย่างนี้แสดงวิธีการค้นหาวลีเฉพาะในเอกสาร PDF และพิมพ์ตำแหน่งที่พบ

ค้นหาข้อความในเอกสารด้วย Python

from groupdocs.parser import Parser

# โหลดเอกสาร
with Parser("sample.pdf") as parser:
    # พิมพ์ดัชนีหน้าและสี่เหลี่ยมที่พบวลี
    for area in parser.Search("Total Amount"):
        # พิมพ์ดัชนีหน้าและสี่เหลี่ยมที่พบวลี
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

ดึงรูปภาพจากเอกสาร

ตัวอย่างนี้แสดงวิธีการดึงรูปภาพจากเอกสาร PDF และบันทึกลงไฟล์

ดึงรูปภาพจากเอกสารด้วย Python

from groupdocs.parser import Parser

# โหลดเอกสาร
with Parser("sample.docx") as parser:
    # ดึงรูปภาพจากเอกสาร
    images = parser.GetImages()

    # บันทึกรูปภาพลงไฟล์
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

ดึงเมตาดาต้าจากเอกสาร

ตัวอย่างนี้แสดงวิธีการดึงเมตาดาต้าจากเอกสาร PDF และพิมพ์ออก

ดึงเมตาดาต้าจากเอกสารด้วย Python

from groupdocs.parser import Parser

# โหลดเอกสาร
with Parser("sample.pdf") as parser:
    # ดึงเมตาดาต้าจากเอกสาร
    metadata = parser.GetMetadata()

    # พิมพ์เมตาดาต้า
    for item in metadata:
        print(f"{item.Name}: {item.Value}")