hadiths-finder-be

Sleeping

Bofandra commited on Sep 7, 2024

Commit

7c29081

verified ·

1 Parent(s): 1b0b902

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -34,7 +34,7 @@ def find(query):
     queries = [
         get_detailed_instruct(task, query)
     ]
-    print("start\n")
     print(time.time())
     hadiths = pd.read_csv('all_hadiths_clean.csv', delimiter=",")
@@ -42,18 +42,21 @@ def find(query):
     document_embeddings = torch.load('encoded_hadiths_multilingual-e5-large-instruct (1).sav',map_location ='cpu')
     #file = open('encoded_hadiths_multilingual-e5-large-instruct (1).sav','rb')
     #document_embeddings = pickle.load(file)
-    print("load hadiths\n")
     print(time.time())
     query_embeddings = model.encode(queries, convert_to_tensor=True, normalize_embeddings=True)
     scores = (query_embeddings @ document_embeddings.T) * 100
-    print("consine similarity\n")
     print(time.time())
     # insert the similarity value to dataframe & sort it
     hadiths['similarity'] = scores.tolist()[0]
     sorted_hadiths = hadiths.sort_values(by='similarity', ascending=False)
-    print("sort hadiths\n")
     print(time.time())
     results = sorted_hadiths.head(3).drop(columns=['id', 'hadith_id', 'chain_indx'])
@@ -67,7 +70,7 @@ def find(query):
     results['text'] = '<a href="'+url+'">'+results['text_en']+ '</a>' + ' (' + results['source'].astype(str) + ')'
     results = results.drop(columns=['source', 'chapter_no', 'hadith_no', 'chapter', 'similarity', 'text_ar', 'text_en'])
-    print("prepare results\n")
     print(time.time())
     #return sorted_quran

     queries = [
         get_detailed_instruct(task, query)
     ]
+    print("start")
     print(time.time())
     hadiths = pd.read_csv('all_hadiths_clean.csv', delimiter=",")
     document_embeddings = torch.load('encoded_hadiths_multilingual-e5-large-instruct (1).sav',map_location ='cpu')
     #file = open('encoded_hadiths_multilingual-e5-large-instruct (1).sav','rb')
     #document_embeddings = pickle.load(file)
+    print("load hadiths")
     print(time.time())
     query_embeddings = model.encode(queries, convert_to_tensor=True, normalize_embeddings=True)
+    print("embed query")
+    print(time.time())
     scores = (query_embeddings @ document_embeddings.T) * 100
+    print("consine similarity")
     print(time.time())
     # insert the similarity value to dataframe & sort it
     hadiths['similarity'] = scores.tolist()[0]
     sorted_hadiths = hadiths.sort_values(by='similarity', ascending=False)
+    print("sort hadiths")
     print(time.time())
     results = sorted_hadiths.head(3).drop(columns=['id', 'hadith_id', 'chain_indx'])
     results['text'] = '<a href="'+url+'">'+results['text_en']+ '</a>' + ' (' + results['source'].astype(str) + ')'
     results = results.drop(columns=['source', 'chapter_no', 'hadith_no', 'chapter', 'similarity', 'text_ar', 'text_en'])
+    print("prepare results")
     print(time.time())
     #return sorted_quran