Spaces:

hatim00101
/

Hotel-search-engine-Information-retrieval-project-CCIS484

Sleeping

App Files Files Community

hatim00101 commited on 15 days ago

Commit

c834b91

•

1 Parent(s): 9dfe3e2

Update app.py

Files changed (1) hide show

app.py +14 -15

app.py CHANGED Viewed

@@ -1,8 +1,8 @@
 import gradio as gr
 import pandas as pd
 import numpy as np
 from sentence_transformers import SentenceTransformer
-from sklearn.metrics.pairwise import cosine_similarity
 model = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
@@ -11,19 +11,18 @@ embeddings_ar = np.load("normalized_embeddings_ar.pkl", allow_pickle=True)
 df_hotels = pd.read_csv("hotel_dataset_processed.csv")
 df_ar = pd.read_csv("df_ar_1.csv")
-def search_in_combined(query_text, model, k=5):
-    query_embedding = model.encode(query_text, convert_to_tensor=True).cpu().numpy().reshape(1, -1)
-    similarities_hotels = cosine_similarity(query_embedding, embeddings_hotels).flatten()
-    similarities_ar = cosine_similarity(query_embedding, embeddings_ar).flatten()
-    top_indices_hotels = np.argsort(similarities_hotels)[::-1][:k]
-    top_indices_ar = np.argsort(similarities_ar)[::-1][:k]
-    top_hotels = df_hotels.iloc[top_indices_hotels].copy()
-    top_ar = df_ar.iloc[top_indices_ar].copy()
-    top_hotels["similarity"] = similarities_hotels[top_indices_hotels]
-    top_ar["similarity"] = similarities_ar[top_indices_ar]
-    combined_top_results = pd.concat([top_hotels, top_ar], ignore_index=True)
-    combined_top_results = combined_top_results.sort_values(by="similarity", ascending=False)
-    return combined_top_results.head(k)
 def format_results(results):
     formatted_results = []
@@ -63,7 +62,7 @@ def format_results(results):
     return "<br><br>".join(formatted_results)
 def search_interface(query_text):
-    results = search_in_combined(query_text, model, 7)
     return format_results(results)
 iface = gr.Interface(

 import gradio as gr
 import pandas as pd
 import numpy as np
+import faiss
 from sentence_transformers import SentenceTransformer
 model = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
 df_hotels = pd.read_csv("hotel_dataset_processed.csv")
 df_ar = pd.read_csv("df_ar_1.csv")
+embeddings_combined = np.vstack((embeddings_hotels, embeddings_ar))
+df_combined = pd.concat([df_hotels, df_ar], ignore_index=True)
+dimension = embeddings_combined.shape[1]
+index = faiss.IndexFlatL2(dimension)
+index.add(embeddings_combined)
+def search_in_faiss(query_text, model, k=5):
+    query_embedding = model.encode(query_text).reshape(1, -1).astype("float32")
+    _, indices = index.search(query_embedding, k)
+    top_results = df_combined.iloc[indices[0]]
+    return top_results
 def format_results(results):
     formatted_results = []
     return "<br><br>".join(formatted_results)
 def search_interface(query_text):
+    results = search_in_faiss(query_text, model, 7)
     return format_results(results)
 iface = gr.Interface(