Microsoft Word

문서 로더

다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다.

AI
RAG
LangChain
저자

Kwangmin Kim

공개

2024년 12월 31일

Microsoft Word는 Microsoft에서 개발한 워드 프로세서입니다.

이는 Word 문서를 하류에서 사용할 수 있는 문서 형식으로 로드하는 방법을 다룹니다.

1 Docx2txtLoader

Docx2txt를 사용하여 .docx 파일을 문서로 불러올 수 있습니다.

# 설치
# !pip install -qU docx2txt
from langchain_community.document_loaders import Docx2txtLoader

loader = Docx2txtLoader("./data/sample-word-document.docx")  # 문서 로더 초기화

docs = loader.load()  # 문서 로딩

print(len(docs))

2 UnstructuredWordDocumentLoader

from langchain_community.document_loaders import UnstructuredWordDocumentLoader

# 비구조화된 워드 문서 로더 인스턴스화
loader = UnstructuredWordDocumentLoader("./data/sample-word-document.docx")

# 문서 로드
docs = loader.load()

print(len(docs))

결과는 1개의 단일 Document 로 로드됩니다.

# metadata 출력
print(docs[0].metadata)

내부적으로 비정형은 텍스트 덩어리마다 서로 다른 “요소”를 만듭니다.

기본적으로 이들은 함께 결합되어 있지만 mode="elements" 를 지정하여 쉽게 분리할 수 있습니다.

# UnstructuredWordDocumentLoader
loader = UnstructuredWordDocumentLoader(
    "./data/sample-word-document.docx", mode="elements"
)

# 데이터 로드
docs = loader.load()

# 로드한 문서의 개수 출력
print(len(docs))
# 첫번째 문서의 내용 출력
print(docs[0].page_content)
# 첫번째 문서의 내용 출력
docs[0].metadata

Subscribe

Enjoy this blog? Get notified of new posts by email: