HWP (한글)

문서 로더

다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다.

AI
RAG
LangChain
저자

Kwangmin Kim

공개

2024년 12월 31일

한글(HWP)은 한글과컴퓨터에서 개발한 워드프로세서로, 한국의 대표적인 문서 작성 프로그램입니다.

파일 확장자로 .hwp를 사용하며, 기업, 학교, 정부 기관 등에서 널리 활용되고 있습니다. 그렇기 때문에 대한민국 개발자라면 .hwp 문서를 처리해야 하는 경험을 해보았을 것입니다. (혹은 해볼 예정이다)

아쉽게도 LangChain 에는 아직 integration 이 되지 않아 직접 구현한 HWPLoader 를 사용해야 합니다.

# 설치
# !pip install -qU langchain-teddynote
from langchain_teddynote.document_loaders import HWPLoader

# HWP Loader 객체 생성
loader = HWPLoader("./data/디지털 정부혁신 추진계획.hwp")

# 문서 로드
docs = loader.load()
# 결과 출력
print(docs[0].page_content[:1000])
len(docs)
print(docs[0].page_content)

metadata 에는 파일명 정보가 담겨 있습니다.

# 결과 출력
print(docs[0].metadata)

Subscribe

Enjoy this blog? Get notified of new posts by email: