Spaces:

capradeepgujaran
/

ChatWithDocuments

Running

App Files Files Community

capradeepgujaran commited on 5 days ago

Commit

afd4764

•

1 Parent(s): 4edc165

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -21

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import os
 import tempfile
 import gradio as gr
 import PyPDF2
 from pdf2image import convert_from_path
@@ -10,7 +11,6 @@ from llama_index.llms.openai import OpenAI
 from llama_index.core import get_response_synthesizer
 from dotenv import load_dotenv
 from sentence_transformers import SentenceTransformer, util
-import logging
 # Set up logging configuration
 logging.basicConfig(level=logging.INFO, format='%(asctime)s | %(levelname)s | %(message)s')
@@ -25,26 +25,38 @@ sentence_model = SentenceTransformer('all-MiniLM-L6-v2')
 def extract_text_from_pdf(pdf_path):
     text = ""
-    with open(pdf_path, 'rb') as file:
-        pdf_reader = PyPDF2.PdfReader(file)
-        for page in pdf_reader.pages:
-            page_text = page.extract_text()
-            if page_text.strip():
-                text += page_text
-            else:
-                # If text extraction fails, convert the page to an image
-                images = convert_from_path(pdf_path, first_page=pdf_reader.pages.index(page) + 1, last_page=pdf_reader.pages.index(page) + 1)
-                if images:
-                    text += f"[Image on page {pdf_reader.pages.index(page) + 1}]\n"
     return text
 def load_docx_file(docx_path):
-    doc = docx.Document(docx_path)
-    return '\n'.join([para.text for para in doc.paragraphs])
 def load_txt_file(txt_path):
-    with open(txt_path, 'r', encoding='utf-8') as f:
-        return f.read()
 def load_file_based_on_extension(file_path):
     if file_path.lower().endswith('.pdf'):
@@ -66,19 +78,28 @@ def process_upload(api_key, files):
         return "No files uploaded.", None
     documents = []
     for file_path in files:
         try:
             text = load_file_based_on_extension(file_path)
             documents.append(Document(text=text))
         except Exception as e:
-            return f"Error processing file {file_path}: {str(e)}", None
     if documents:
-        embed_model = OpenAIEmbedding(model="text-embedding-3-large", api_key=api_key)
-        vector_index = VectorStoreIndex.from_documents(documents, embed_model=embed_model)
-        return f"Successfully indexed {len(documents)} files.", vector_index
     else:
-        return "No valid documents were indexed.", None
 def calculate_similarity(response, ground_truth):
     response_embedding = sentence_model.encode(response, convert_to_tensor=True)

 import os
 import tempfile
+import logging
 import gradio as gr
 import PyPDF2
 from pdf2image import convert_from_path
 from llama_index.core import get_response_synthesizer
 from dotenv import load_dotenv
 from sentence_transformers import SentenceTransformer, util
 # Set up logging configuration
 logging.basicConfig(level=logging.INFO, format='%(asctime)s | %(levelname)s | %(message)s')
 def extract_text_from_pdf(pdf_path):
     text = ""
+    try:
+        with open(pdf_path, 'rb') as file:
+            pdf_reader = PyPDF2.PdfReader(file)
+            for page_num, page in enumerate(pdf_reader.pages, 1):
+                page_text = page.extract_text()
+                if page_text.strip():
+                    text += page_text
+                else:
+                    # If text extraction fails, convert the page to an image
+                    images = convert_from_path(pdf_path, first_page=page_num, last_page=page_num)
+                    if images:
+                        text += f"[Image on page {page_num}]\n"
+    except Exception as e:
+        logging.error(f"Error processing PDF {pdf_path}: {str(e)}")
+        text += f"[Error processing PDF: {str(e)}]\n"
     return text
 def load_docx_file(docx_path):
+    try:
+        doc = docx.Document(docx_path)
+        return '\n'.join([para.text for para in doc.paragraphs])
+    except Exception as e:
+        logging.error(f"Error processing DOCX {docx_path}: {str(e)}")
+        return f"[Error processing DOCX: {str(e)}]\n"
 def load_txt_file(txt_path):
+    try:
+        with open(txt_path, 'r', encoding='utf-8') as f:
+            return f.read()
+    except Exception as e:
+        logging.error(f"Error processing TXT {txt_path}: {str(e)}")
+        return f"[Error processing TXT: {str(e)}]\n"
 def load_file_based_on_extension(file_path):
     if file_path.lower().endswith('.pdf'):
         return "No files uploaded.", None
     documents = []
+    error_messages = []
     for file_path in files:
         try:
             text = load_file_based_on_extension(file_path)
             documents.append(Document(text=text))
         except Exception as e:
+            error_message = f"Error processing file {file_path}: {str(e)}"
+            logging.error(error_message)
+            error_messages.append(error_message)
     if documents:
+        try:
+            embed_model = OpenAIEmbedding(model="text-embedding-3-large", api_key=api_key)
+            vector_index = VectorStoreIndex.from_documents(documents, embed_model=embed_model)
+            success_message = f"Successfully indexed {len(documents)} files."
+            if error_messages:
+                return f"{success_message}\nErrors: {'; '.join(error_messages)}", vector_index
+            return success_message, vector_index
+        except Exception as e:
+            return f"Error creating index: {str(e)}", None
     else:
+        return f"No valid documents were indexed. Errors: {'; '.join(error_messages)}", None
 def calculate_similarity(response, ground_truth):
     response_embedding = sentence_model.encode(response, convert_to_tensor=True)