Microsoft Word는 Microsoft에서 개발한 워드 프로세서입니다.
이는 Word 문서를 하류에서 사용할 수 있는 문서 형식으로 로드하는 방법을 다룹니다.
1 Docx2txtLoader
Docx2txt를 사용하여 .docx 파일을 문서로 불러올 수 있습니다.
2 UnstructuredWordDocumentLoader
from langchain_community.document_loaders import UnstructuredWordDocumentLoader
# 비구조화된 워드 문서 로더 인스턴스화
loader = UnstructuredWordDocumentLoader("./data/sample-word-document.docx")
# 문서 로드
docs = loader.load()
print(len(docs))결과는 1개의 단일 Document 로 로드됩니다.
내부적으로 비정형은 텍스트 덩어리마다 서로 다른 “요소”를 만듭니다.
기본적으로 이들은 함께 결합되어 있지만 mode="elements" 를 지정하여 쉽게 분리할 수 있습니다.