Microsoft PowerPoint

문서 로더

다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다.

AI
RAG
LangChain
저자

Kwangmin Kim

공개

2024년 12월 31일

Microsoft PowerPoint는 Microsoft에서 개발한 프레젠테이션 프로그램입니다.

이는 Microsoft PowerPoint 문서를 다운스트림에서 사용할 수 있는 문서 형식으로 로드하는 방법을 다룹니다.

자세한 Unstructured 설정 방법은 공식 도큐먼트를 참조하십시오.

# 패키지 설치
# !pip install -qU unstructured python-pptx
from langchain_community.document_loaders import UnstructuredPowerPointLoader

# UnstructuredPowerPointLoader 생성
loader = UnstructuredPowerPointLoader("./data/sample-ppt.pptx")

# 데이터 로드
docs = loader.load()

# 로드한 문서의 개수 출력
print(len(docs))

Unstructured는 텍스트의 다양한 chunks에 대해 다양한 “elements”를 생성합니다.

기본적으로 결합되어 하나의 document 로 반환하지만, mode="elements"를 지정함으로써 쉽게 요소들을 분리할 수 있습니다.

# UnstructuredPowerPointLoader 생성
loader = UnstructuredPowerPointLoader("./data/sample-ppt.pptx", mode="elements")

# 데이터 로드
docs = loader.load()

print(len(docs))
print(docs[0].page_content)
docs[0].metadata

Subscribe

Enjoy this blog? Get notified of new posts by email: