Spaces:

GameScribes
/

Multipurpose-AI-Agent-Development

Starting on T4

devve1 commited on Jul 5

Commit

1bd836f

•

1 Parent(s): 33834b7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -37,7 +37,7 @@ def transform_query(query: str) -> str:
 def query_hybrid_search(col: Collection, query: str):
     query_dense_embeddings = dense_model(transform_query(query))
-    query_sparse_embeddings = sparse_model.encode(query)
     sparse_req = AnnSearchRequest(query_sparse_embeddings, "sparse_vector", {"metric_type": "IP"}, limit=10)
     dense_req = AnnSearchRequest(query_dense_embeddings, "dense_vector", {"metric_type": "COSINE"}, limit=10)
@@ -46,7 +46,7 @@ def query_hybrid_search(col: Collection, query: str):
     return res
-def main(query: str, client: MilvusClient, collection_name: str, llm, dense_model: FastEmbedEncoder, sparse_model: SparseTextEmbedding):
     dense_query = list(dense_model(query,32))
     sparse_query = list(sparse_model.embed(query, 32))
@@ -247,7 +247,7 @@ def load_models_and_documents():
     return client, collection_name, llm, dense_model, sparse_model
-def chunk_documents(texts: List[str], metadatas: List[dict], dense_model: FastEmbedEncoder, sparse_model: SparseTextEmbedding):
     import time
     text_splitter = StatisticalChunker(
         dense_model
@@ -262,7 +262,7 @@ def chunk_documents(texts: List[str], metadatas: List[dict], dense_model: FastEm
     documents, metadatas_docs = [list(t) for t in zip(*documents_and_metadatas)]
     dense_embeddings = dense_model(documents, 32)
-    sparse_embeddings = list(sparse_model.embed(documents, 32))
     return documents, metadatas_docs, dense_embeddings, sparse_embeddings

 def query_hybrid_search(col: Collection, query: str):
     query_dense_embeddings = dense_model(transform_query(query))
+    query_sparse_embeddings = sparse_model.query_embed(query)
     sparse_req = AnnSearchRequest(query_sparse_embeddings, "sparse_vector", {"metric_type": "IP"}, limit=10)
     dense_req = AnnSearchRequest(query_dense_embeddings, "dense_vector", {"metric_type": "COSINE"}, limit=10)
     return res
+def main(query: str, client: MilvusClient, collection_name: str, llm, dense_model: OptimumEncoder, sparse_model: Bm42):
     dense_query = list(dense_model(query,32))
     sparse_query = list(sparse_model.embed(query, 32))
     return client, collection_name, llm, dense_model, sparse_model
+def chunk_documents(texts: List[str], metadatas: List[dict], dense_model: OptimumEncoder, sparse_model: Bm42):
     import time
     text_splitter = StatisticalChunker(
         dense_model
     documents, metadatas_docs = [list(t) for t in zip(*documents_and_metadatas)]
     dense_embeddings = dense_model(documents, 32)
+    sparse_embeddings = list(sparse_model.embed(documents, 32, 0))
     return documents, metadatas_docs, dense_embeddings, sparse_embeddings