한글(HWP)은 한글과컴퓨터에서 개발한 워드프로세서로, 한국의 대표적인 문서 작성 프로그램입니다.
파일 확장자로 .hwp를 사용하며, 기업, 학교, 정부 기관 등에서 널리 활용되고 있습니다. 그렇기 때문에 대한민국 개발자라면 .hwp 문서를 처리해야 하는 경험을 해보았을 것입니다. (혹은 해볼 예정이다)
아쉽게도 LangChain 에는 아직 integration 이 되지 않아 직접 구현한 HWPLoader 를 사용해야 합니다.
from langchain_teddynote.document_loaders import HWPLoader
# HWP Loader 객체 생성
loader = HWPLoader("./data/디지털 정부혁신 추진계획.hwp")
# 문서 로드
docs = loader.load()metadata 에는 파일명 정보가 담겨 있습니다.