UnstructuredExcelLoader는 Microsoft Excel 파일을 로드하는 데 사용됩니다.
이 로더는 .xlsx 및 .xls 파일 모두에서 작동합니다. 페이지 내용은 Excel 파일의 원시 텍스트가 됩니다.
"elements" 모드에서 로더를 사용하는 경우, 문서 메타데이터의 text_as_html 키 아래에서 Excel 파일의 HTML 표현이 제공됩니다.
from langchain_community.document_loaders import UnstructuredExcelLoader
# UnstructuredExcelLoader 생성
loader = UnstructuredExcelLoader("./data/titanic.xlsx", mode="elements")
# 문서 로드
docs = loader.load()
# 문서 길이 출력
print(len(docs))1개의 문서로 로드되었음을 확인합니다.
page_content 에는 각 행의 데이터가 저장되고, metadata 의 text_as_html 에는 각 행의 데이터를 HTML 형식으로 저장합니다.
1 DataFrameLoader
- CSV 파일과 마찬가지로 Excel 파일을 로드하는
read_excel()기능을 사용하여 DataFrame 으로 만든 뒤, 로드합니다.