Spaces:

CamiloVega
/

Fislac_Bot

Sleeping

App Files Files Community

CamiloVega commited on Nov 17, 2024

Commit

e5afc54

verified ·

1 Parent(s): d0f4bec

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -38

app.py CHANGED Viewed

@@ -1,6 +1,17 @@
 import os
 import logging
 from typing import List, Dict
 # Configure logging
 logging.basicConfig(
@@ -9,34 +20,12 @@ logging.basicConfig(
 )
 logger = logging.getLogger(__name__)
-try:
-    # Basic imports first
-    import torch
-    import gradio as gr
-    from langchain.text_splitter import RecursiveCharacterTextSplitter
-    from langchain.embeddings import HuggingFaceEmbeddings
-    from langchain.vectorstores import FAISS
-    from langchain.chains import RetrievalQA
-    from langchain.prompts import PromptTemplate
-    from langchain.llms import HuggingFacePipeline
-    from langchain_community.document_loaders import PyPDFLoader
-    # Now try to import transformers components one by one
-    from transformers.pipelines import pipeline
-    from transformers import AutoTokenizer, AutoModelForCausalLM
-    # If all imports successful, proceed with spaces import
-    import spaces
-except ImportError as e:
-    logger.error(f"Error importing dependencies: {str(e)}")
-    logger.error("Trying to install missing packages...")
-    os.system('pip install -q transformers torch accelerate safetensors')
-    # Try imports again after installation
-    from transformers.pipelines import pipeline
-    from transformers import AutoTokenizer, AutoModelForCausalLM
-    import spaces
 # Constants
 MODEL_NAME = "meta-llama/Llama-2-7b-chat-hf"
@@ -54,6 +43,10 @@ class DocumentLoader:
             (f.startswith('valencia') or 'fislac' in f.lower() or 'Valencia' in f)
         ]
         for pdf_file in pdf_files:
             pdf_path = os.path.join(directory_path, pdf_file)
             try:
@@ -73,9 +66,6 @@ class DocumentLoader:
             except Exception as e:
                 logger.error(f"Error loading {pdf_file}: {str(e)}")
-        if not documents:
-            logger.warning("No PDF documents found in the specified directory")
         return documents
 class TextProcessor:
@@ -129,39 +119,47 @@ class RAGSystem:
             # Load and process documents
             loader = DocumentLoader()
             documents = loader.load_pdfs(KNOWLEDGE_BASE_DIR)
             processor = TextProcessor()
             processed_chunks = processor.process_documents(documents)
             # Initialize embeddings
             self.embeddings = HuggingFaceEmbeddings(
                 model_name="intfloat/multilingual-e5-large",
-                model_kwargs={'device': 'cuda'},
                 encode_kwargs={'normalize_embeddings': True}
             )
             # Create vector store
             self.vector_store = FAISS.from_documents(
                 processed_chunks,
                 self.embeddings
             )
             # Initialize LLM
             self.tokenizer = AutoTokenizer.from_pretrained(
                 self.model_name,
-                trust_remote_code=True,
-                token=hf_token
             )
             self.model = AutoModelForCausalLM.from_pretrained(
                 self.model_name,
                 torch_dtype=torch.float16,
                 trust_remote_code=True,
-                token=hf_token,
                 device_map="auto"
             )
             # Create generation pipeline
             pipe = pipeline(
                 "text-generation",
                 model=self.model,
@@ -191,6 +189,7 @@ class RAGSystem:
             )
             # Set up QA chain
             self.qa_chain = RetrievalQA.from_chain_type(
                 llm=llm,
                 chain_type="stuff",
@@ -258,9 +257,13 @@ def process_response(user_input: str, chat_history: List) -> tuple:
 # Initialize RAG system
 logger.info("Initializing RAG system...")
-rag_system = RAGSystem()
-rag_system.initialize_system()
-logger.info("RAG system initialization completed")
 # Create Gradio interface
 try:

 import os
 import logging
 from typing import List, Dict
+import torch
+import gradio as gr
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.vectorstores import FAISS
+from langchain.chains import RetrievalQA
+from langchain.prompts import PromptTemplate
+from langchain.llms import HuggingFacePipeline
+from langchain_community.document_loaders import PyPDFLoader
+from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer
+import spaces
 # Configure logging
 logging.basicConfig(
 )
 logger = logging.getLogger(__name__)
+# Get HuggingFace token from environment variables
+hf_token = os.environ.get('HUGGINGFACE_TOKEN') or os.environ.get('HF_TOKEN')
+if not hf_token:
+    logger.error("No Hugging Face token found in environment variables")
+    logger.error("Please set either HUGGINGFACE_TOKEN or HF_TOKEN in your Space settings")
+    raise ValueError("Missing Hugging Face token. Please configure it in the Space settings under Repository Secrets.")
 # Constants
 MODEL_NAME = "meta-llama/Llama-2-7b-chat-hf"
             (f.startswith('valencia') or 'fislac' in f.lower() or 'Valencia' in f)
         ]
+        if not pdf_files:
+            logger.warning(f"No matching PDF files found in {directory_path}")
+            return documents
         for pdf_file in pdf_files:
             pdf_path = os.path.join(directory_path, pdf_file)
             try:
             except Exception as e:
                 logger.error(f"Error loading {pdf_file}: {str(e)}")
         return documents
 class TextProcessor:
             # Load and process documents
             loader = DocumentLoader()
             documents = loader.load_pdfs(KNOWLEDGE_BASE_DIR)
+            if not documents:
+                raise ValueError("No documents were loaded. Please check the PDF files in the root directory.")
             processor = TextProcessor()
             processed_chunks = processor.process_documents(documents)
+            if not processed_chunks:
+                raise ValueError("No chunks were created from the documents.")
             # Initialize embeddings
+            logger.info("Initializing embeddings...")
             self.embeddings = HuggingFaceEmbeddings(
                 model_name="intfloat/multilingual-e5-large",
+                model_kwargs={'device': 'cuda' if torch.cuda.is_available() else 'cpu'},
                 encode_kwargs={'normalize_embeddings': True}
             )
             # Create vector store
+            logger.info("Creating vector store...")
             self.vector_store = FAISS.from_documents(
                 processed_chunks,
                 self.embeddings
             )
             # Initialize LLM
+            logger.info("Initializing language model...")
             self.tokenizer = AutoTokenizer.from_pretrained(
                 self.model_name,
+                token=hf_token,
+                trust_remote_code=True
             )
             self.model = AutoModelForCausalLM.from_pretrained(
                 self.model_name,
+                token=hf_token,
                 torch_dtype=torch.float16,
                 trust_remote_code=True,
                 device_map="auto"
             )
             # Create generation pipeline
+            logger.info("Creating generation pipeline...")
             pipe = pipeline(
                 "text-generation",
                 model=self.model,
             )
             # Set up QA chain
+            logger.info("Setting up QA chain...")
             self.qa_chain = RetrievalQA.from_chain_type(
                 llm=llm,
                 chain_type="stuff",
 # Initialize RAG system
 logger.info("Initializing RAG system...")
+try:
+    rag_system = RAGSystem()
+    rag_system.initialize_system()
+    logger.info("RAG system initialization completed")
+except Exception as e:
+    logger.error(f"Failed to initialize RAG system: {str(e)}")
+    raise
 # Create Gradio interface
 try: