Spaces:

GameScribes
/

Multipurpose-AI-Agent-Development

Running on T4

App Files Files Community

devve1 commited on Aug 8

Commit

5481353

•

1 Parent(s): 3fa2224

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -24

app.py CHANGED Viewed

@@ -27,7 +27,7 @@ from streamlit_navigation_bar import st_navbar
 from ppt_chunker import ppt_chunk
 from unstructured.cleaners.core import clean
 from unstructured.partition.pptx import partition_pptx
-from fastembed import SparseEmbedding, SparseTextEmbedding
 from unstructured.nlp.tokenize import download_nltk_packages
 from scipy.sparse import csr_matrix, save_npz, load_npz, vstack
 from langchain_experimental.text_splitter import SemanticChunker
@@ -67,23 +67,6 @@ icon_to_types = {
            'Excel')
 }
-def make_points(texts: List[str], metadatas: List[dict], dense: List[List[float]], sparse: List[SparseEmbedding])-> List[PointStruct]:
-    points = []
-    for idx, (text, metadata, sparse_vector, dense_vector) in enumerate(zip(texts, metadatas, sparse, dense)):
-        sparse_vec = SparseVector(indices=sparse_vector.indices.tolist(), values=sparse_vector.values.tolist())
-        point = PointStruct(
-            id=idx,
-            vector={
-                "text-sparse": sparse_vec,
-                "text-dense": dense_vector,
-            },
-            payload={
-                "text": text,
-                "metadata": metadata
-            }
-        )
-        points.append(point)
-    return points
 def transform_query(query: str) -> str:
     """ For retrieval, add the prompt for query (not for documents).
@@ -325,14 +308,18 @@ def load_models_and_documents():
                 sparse_embeddings.append(embedding)
         st.write('Ingesting saved documents on disk into our Qdrant Vector Database...')
         client.upsert(
             collection_name,
-            make_points(
-                docs_texts,
-                docs_metadatas,
-                dense_embeddings,
-                sparse_embeddings
             )
         )

 from ppt_chunker import ppt_chunk
 from unstructured.cleaners.core import clean
 from unstructured.partition.pptx import partition_pptx
+from fastembed import SparseTextEmbedding
 from unstructured.nlp.tokenize import download_nltk_packages
 from scipy.sparse import csr_matrix, save_npz, load_npz, vstack
 from langchain_experimental.text_splitter import SemanticChunker
            'Excel')
 }
 def transform_query(query: str) -> str:
     """ For retrieval, add the prompt for query (not for documents).
                 sparse_embeddings.append(embedding)
         st.write('Ingesting saved documents on disk into our Qdrant Vector Database...')
         client.upsert(
             collection_name,
+            points=Batch(
+                payload={
+                    'texts': docs_texts,
+                    'metadatas': docs_metadatas
+                }
+                vectors={
+                    'text-dense': dense_embeddings,
+                    'text-sparse': sparse_embeddings
+                }
             )
         )