Spaces:

captain-awesome
/

docuverse

Runtime error

App Files Files Community

captain-awesome commited on Sep 11, 2023

Commit

f241b97

1 Parent(s): 523d9c4

Update app.py

Browse files

Files changed (1) hide show

app.py +0 -69

app.py CHANGED Viewed

@@ -149,75 +149,6 @@ def create_vector_database(loaded_documents):
     and finally persists the embeddings into a Chroma vector database.
     """
-    # Initialize loaders for different file types
-    # loaders = {
-    #     "pdf": UnstructuredPDFLoader,
-    #     "md": UnstructuredMarkdownLoader,
-    #     "txt": TextLoader,
-    #     "csv": CSVLoader,
-    #     "py": PythonLoader,
-    #     "epub": UnstructuredEPubLoader,
-    #     "html": UnstructuredHTMLLoader,
-    #     "ppt": UnstructuredPowerPointLoader,
-    #     "pptx": UnstructuredPowerPointLoader,
-    #     "doc": UnstructuredWordDocumentLoader,
-    #     "docx": UnstructuredWordDocumentLoader,
-    #     "odt": UnstructuredODTLoader,
-    #     "ipynb": NotebookLoader
-    # }
-    # pdf_loader = DirectoryLoader("data/", glob="**/*.pdf", loader_cls=PyPDFLoader)
-    # markdown_loader = DirectoryLoader("data/", glob="**/*.md", loader_cls=UnstructuredMarkdownLoader)
-    # text_loader = DirectoryLoader("data/", glob="**/*.txt", loader_cls=TextLoader)
-    # csv_loader = DirectoryLoader("data/", glob="**/*.csv", loader_cls=CSVLoader)
-    # python_loader = DirectoryLoader("data/", glob="**/*.py", loader_cls=PythonLoader)
-    # epub_loader = DirectoryLoader("data/", glob="**/*.epub", loader_cls=UnstructuredEPubLoader)
-    # html_loader = DirectoryLoader("data/", glob="**/*.html", loader_cls=UnstructuredHTMLLoader)
-    # ppt_loader = DirectoryLoader("data/", glob="**/*.ppt", loader_cls=UnstructuredPowerPointLoader)
-    # pptx_loader = DirectoryLoader("data/", glob="**/*.pptx", loader_cls=UnstructuredPowerPointLoader)
-    # doc_loader = DirectoryLoader("data/", glob="**/*.doc", loader_cls=UnstructuredWordDocumentLoader)
-    # docx_loader = DirectoryLoader("data/", glob="**/*.docx", loader_cls=UnstructuredWordDocumentLoader)
-    # odt_loader = DirectoryLoader("data/", glob="**/*.odt", loader_cls=UnstructuredODTLoader)
-    # notebook_loader = DirectoryLoader("data/", glob="**/*.ipynb", loader_cls=NotebookLoader)
-    # FILE_LOADER_MAPPING = {
-    #     ".csv": (CSVLoader, {"encoding": "utf-8"}),
-    #     ".doc": (UnstructuredWordDocumentLoader, {}),
-    #     ".docx": (UnstructuredWordDocumentLoader, {}),
-    #     ".enex": (EverNoteLoader, {}),
-    #     ".epub": (UnstructuredEPubLoader, {}),
-    #     ".html": (UnstructuredHTMLLoader, {}),
-    #     ".md": (UnstructuredMarkdownLoader, {}),
-    #     ".odt": (UnstructuredODTLoader, {}),
-    #     ".pdf": (PyPDFLoader, {}),
-    #     ".ppt": (UnstructuredPowerPointLoader, {}),
-    #     ".pptx": (UnstructuredPowerPointLoader, {}),
-    #     ".txt": (TextLoader, {"encoding": "utf8"}),
-    #     ".ipynb": (NotebookLoader, {}),
-    #     ".py": (PythonLoader, {}),
-    #     # Add more mappings for other file extensions and loaders as needed
-    # }
-    # Load documents from uploaded files using the appropriate loaders
-    # loaded_documents = []
-    # for uploaded_file in uploaded_files:
-    # # file_extension = os.path.splitext(uploaded_file.name)[-1].lower()[1:]
-    #     file_extension = os.path.splitext(uploaded_file.name)[-1][1:].lower()
-    #     if file_extension in loaders:
-    #         # Read the content of the uploaded file
-    #         file_content = uploaded_file.read()
-    #         # Pass the content to the loader for processing
-    #         loader = loaders[file_extension](file_content)
-    #         loaded_documents.extend(loader.load())
-            # loader = loaders[file_extension](uploaded_file)
-            # # loader = loader_cls.load(uploaded_file.name) # Pass the file path to the loader constructor
-            # # # content = uploaded_file.read()  # Read the file content
-            # loaded_documents.extend(loader.load())
-    # all_loaders = [pdf_loader, markdown_loader, text_loader, csv_loader, python_loader, epub_loader, html_loader, ppt_loader, pptx_loader, doc_loader, docx_loader, odt_loader, notebook_loader]
-    # Load documents from all loaders
-    # for loader in all_loaders:
-    #     loaded_documents.extend(loader.load())
     # Split loaded documents into chunks
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=40)

     and finally persists the embeddings into a Chroma vector database.
     """
     # Split loaded documents into chunks
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=40)