Spaces:

GameScribes
/

Multipurpose-AI-Agent-Development

Paused

devve1 commited on Jun 24

Commit

caa9d03

•

1 Parent(s): 227cdd7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,7 +10,6 @@ import streamlit as st
 from io import BytesIO
 from numpy import ndarray
 from llama_cpp import Llama
-from charset_normalizer import from_bytes
 from langchain_core.documents.base import Document
 from scipy.sparse import csr_matrix, save_npz, load_npz, vstack
 from qdrant_client import QdrantClient, models
@@ -407,20 +406,12 @@ if __name__ == '__main__':
                              hi_res_model_name='yolox',
                              include_page_breaks=True
                             )
-        bytes_content = uploaded_file.getvalue()
-        encoding = str(
-            from_bytes(
-                bytes_content
-            ).best()
-        )
-        print(f'Encoding: {encoding}')
-        uploaded_file_name = bytes_content.decode(encoding)
-        print(uploaded_file_name)
         texts, metadatas = [], []
         for elem in elements:
             texts.append(elem.text)
-            metadatas.append(elem.metadata.to_dict())
         texts, metadatas, dense_embeddings, sparse_embeddings = chunk_documents(texts, metadatas, dense_model, sparse_model)

 from io import BytesIO
 from numpy import ndarray
 from llama_cpp import Llama
 from langchain_core.documents.base import Document
 from scipy.sparse import csr_matrix, save_npz, load_npz, vstack
 from qdrant_client import QdrantClient, models
                              hi_res_model_name='yolox',
                              include_page_breaks=True
                             )
+        metadata_dict = {"source": uploaded_file.name}
         texts, metadatas = [], []
         for elem in elements:
             texts.append(elem.text)
+            metadatas.append(metadata_dict)
         texts, metadatas, dense_embeddings, sparse_embeddings = chunk_documents(texts, metadatas, dense_model, sparse_model)