Excel

문서 로더

다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다.

AI
RAG
LangChain
저자

Kwangmin Kim

공개

2024년 12월 31일

UnstructuredExcelLoaderMicrosoft Excel 파일을 로드하는 데 사용됩니다.

이 로더는 .xlsx.xls 파일 모두에서 작동합니다. 페이지 내용은 Excel 파일의 원시 텍스트가 됩니다.

"elements" 모드에서 로더를 사용하는 경우, 문서 메타데이터의 text_as_html 키 아래에서 Excel 파일의 HTML 표현이 제공됩니다.

# 설치
# !pip install -qU langchain-community unstructured openpyxl
from langchain_community.document_loaders import UnstructuredExcelLoader

# UnstructuredExcelLoader 생성
loader = UnstructuredExcelLoader("./data/titanic.xlsx", mode="elements")

# 문서 로드
docs = loader.load()

# 문서 길이 출력
print(len(docs))

1개의 문서로 로드되었음을 확인합니다.

page_content 에는 각 행의 데이터가 저장되고, metadatatext_as_html 에는 각 행의 데이터를 HTML 형식으로 저장합니다.

# 문서 출력
print(docs[0].page_content[:200])
# metadata 의 text_as_html 출력
print(docs[0].metadata["text_as_html"][:1000])

1 DataFrameLoader

  • CSV 파일과 마찬가지로 Excel 파일을 로드하는 read_excel() 기능을 사용하여 DataFrame 으로 만든 뒤, 로드합니다.
import pandas as pd

# Excel 파일 읽기
df = pd.read_excel("./data/titanic.xlsx")
from langchain_community.document_loaders import DataFrameLoader

# 데이터 프레임 로더 설정, 페이지 내용 컬럼 지정
loader = DataFrameLoader(df, page_content_column="Name")

# 문서 로드
docs = loader.load()

# 데이터 출력
print(docs[0].page_content)

# 메타데이터 출력
print(docs[0].metadata)

Subscribe

Enjoy this blog? Get notified of new posts by email: