Microsoft PowerPoint는 Microsoft에서 개발한 프레젠테이션 프로그램입니다.
이는 Microsoft PowerPoint 문서를 다운스트림에서 사용할 수 있는 문서 형식으로 로드하는 방법을 다룹니다.
자세한 Unstructured 설정 방법은 공식 도큐먼트를 참조하십시오.
from langchain_community.document_loaders import UnstructuredPowerPointLoader
# UnstructuredPowerPointLoader 생성
loader = UnstructuredPowerPointLoader("./data/sample-ppt.pptx")
# 데이터 로드
docs = loader.load()
# 로드한 문서의 개수 출력
print(len(docs))Unstructured는 텍스트의 다양한 chunks에 대해 다양한 “elements”를 생성합니다.
기본적으로 결합되어 하나의 document 로 반환하지만, mode="elements"를 지정함으로써 쉽게 요소들을 분리할 수 있습니다.