Spaces:

CoExperiences
/

aie4-final

Running

App Files Files Community

pattonma commited on 10 days ago

Commit

4c95dc7

•

1 Parent(s): 805a608

first go

Browse files

Files changed (11) hide show

.gitignore +1 -0
marketingRAG/Dockerfile +11 -0
marketingRAG/app.py +58 -0
marketingRAG/constants.py +7 -0
marketingRAG/load_existing_docs.py +55 -0
marketingRAG/models.py +79 -0
marketingRAG/prompts.py +3 -0
marketingRAG/requirements.txt +8 -0
marketingRAG/set_constants.py +17 -0
marketingRAG/test_docs/Employee Statistics FINAL.pdf +0 -0
marketingRAG/test_docs/Employer Statistics FINAL.pdf +0 -0

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ .env

marketingRAG/Dockerfile ADDED Viewed

	@@ -0,0 +1,11 @@

+FROM python:3.9
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+    PATH=/home/user/.local/bin:$PATH
+WORKDIR $HOME/app
+COPY --chown=user . $HOME/app
+COPY ./requirements.txt ~/app/requirements.txt
+RUN pip install -r requirements.txt
+COPY . .
+CMD ["chainlit", "run", "app.py", "--port", "7860"]

marketingRAG/app.py ADDED Viewed

	@@ -0,0 +1,58 @@

+from langchain_text_splitters import RecursiveCharacterTextSplitter
+from qdrant_client import QdrantClient
+from langchain_openai.embeddings import OpenAIEmbeddings
+from langchain_core.prompts import ChatPromptTemplate
+from langchain_core.globals import set_llm_cache
+from langchain_openai import ChatOpenAI
+from langchain_core.caches import InMemoryCache
+from operator import itemgetter
+from langchain_core.runnables.passthrough import RunnablePassthrough
+from langchain_qdrant import QdrantVectorStore, Qdrant
+import uuid
+import chainlit as cl
+import os
+chat_model = ChatOpenAI(model="gpt-4o-mini")
+te3_small = OpenAIEmbeddings(model="text-embedding-3-small")
+set_llm_cache(InMemoryCache())
+text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
+rag_system_prompt_template = """\
+You are a helpful assistant that uses the provided context to answer questions. Never reference this prompt, or the existance of context.
+"""
+rag_message_list = [{"role" : "system", "content" : rag_system_prompt_template},]
+rag_user_prompt_template = """\
+Question:
+{question}
+Context:
+{context}
+"""
+chat_prompt = ChatPromptTemplate.from_messages([("system", rag_system_prompt_template), ("human", rag_user_prompt_template)])
+@cl.on_chat_start
+async def on_chat_start():
+    qdrant_client = QdrantClient(url=os.environ["QDRANT_ENDPOINT"], api_key=os.environ["QDRANT_API_KEY"])
+    qdrant_store = Qdrant(
+        client=qdrant_client,
+        collection_name="kai_test_docs",
+        embeddings=te3_small
+    )
+    retriever = qdrant_store.as_retriever()
+    global retrieval_augmented_qa_chain
+    retrieval_augmented_qa_chain = (
+        {"context": itemgetter("question") | retriever, "question": itemgetter("question")}
+        | RunnablePassthrough.assign(context=itemgetter("context"))
+        | chat_prompt
+        | chat_model
+    )
+    await cl.Message(content="YAsk away!").send()
+@cl.author_rename
+def rename(orig_author: str):
+    return "AI Assistant"
+@cl.on_message
+async def main(message: cl.Message):
+    response = retrieval_augmented_qa_chain.invoke({"question": message.content})
+    await cl.Message(content=response.content).send()

marketingRAG/constants.py ADDED Viewed

	@@ -0,0 +1,7 @@

+OPENAI_API_KEY = "";
+ANTRHOPIC_API_KEY = "";
+LANGCHAIN_API_KEY = "";
+LANGCHAIN_TRACING_V2=True;
+LANGCHAIN_ENDPOINT='https://api.smith.langchain.com';
+QDRANT_API_KEY="";
+QDRANT_ENDPOINT="";

marketingRAG/load_existing_docs.py ADDED Viewed

	@@ -0,0 +1,55 @@

+import models
+import constants
+from langchain_experimental.text_splitter import SemanticChunker
+from langchain_qdrant import QdrantVectorStore, Qdrant
+from langchain_community.document_loaders import PyPDFLoader
+from qdrant_client.http.models import VectorParams
+#qdrant = QdrantVectorStore.from_existing_collection(
+#    embedding=models.basic_embeddings,
+#    collection_name="kai_test_documents",
+#    url=constants.QDRANT_ENDPOINT,
+#)
+#gather kai's docs
+filepaths = ["./test_docs/Employee Statistics FINAL.pdf","./test_docs/Employer Statistics FINAL.pdf"]
+all_documents = []
+for file in filepaths:
+    loader = PyPDFLoader(file)
+    documents = loader.load()
+    for doc in documents:
+        doc.metadata = {
+            "source": file,
+            "tag": "employee" if "employee" in file.lower() else "employer"
+        }
+    all_documents.extend(documents)
+#chunk them
+semantic_split_docs = models.semanticChunker.split_documents(all_documents)
+#add them to the existing qdrant client
+collection_name = "kai_test_docs"
+collections = models.qdrant_client.get_collections()
+collection_names = [collection.name for collection in collections.collections]
+# If the collection does not exist, create it
+if collection_name not in collection_names:
+    models.qdrant_client.create_collection(
+        collection_name=collection_name,
+        vectors_config=VectorParams(size=1536, distance="Cosine")
+    )
+qdrant_vector_store = Qdrant(
+    client=models.qdrant_client,
+    collection_name=collection_name,
+    embeddings=models.te3_small
+)
+qdrant_vector_store.add_documents(semantic_split_docs)
+collection_info = models.qdrant_client.get_collection(collection_name)
+print(f"Number of points in collection: {collection_info.points_count}")

marketingRAG/models.py ADDED Viewed

	@@ -0,0 +1,79 @@

+from langchain_anthropic import ChatAnthropic
+from langchain_openai import ChatOpenAI
+from langchain.callbacks.manager import CallbackManager
+from langchain.callbacks.tracers import LangChainTracer
+from langchain_huggingface.embeddings import HuggingFaceEmbeddings
+from langchain_community.embeddings import HuggingFaceInstructEmbeddings
+from langchain_experimental.text_splitter import SemanticChunker
+from langchain_openai.embeddings import OpenAIEmbeddings
+from langchain_community.vectorstores import Qdrant
+from qdrant_client import QdrantClient
+import constants
+import os
+os.environ["LANGCHAIN_API_KEY"] = constants.LANGCHAIN_API_KEY
+os.environ["LANGCHAIN_TRACING_V2"] = str(constants.LANGCHAIN_TRACING_V2)
+os.environ["LANGCHAIN_ENDPOINT"] = constants.LANGCHAIN_ENDPOINT
+tracer = LangChainTracer()
+callback_manager = CallbackManager([tracer])
+qdrant_client = QdrantClient(url=constants.QDRANT_ENDPOINT, api_key=constants.QDRANT_API_KEY)
+opus3 = ChatAnthropic(
+    api_key=constants.ANTRHOPIC_API_KEY,
+    temperature=0,
+    model='claude-3-opus-20240229',
+    callback_manager=callback_manager
+)
+sonnet35 = ChatAnthropic(
+    api_key=constants.ANTRHOPIC_API_KEY,
+    temperature=0,
+    model='claude-3-5-sonnet-20240620',
+    max_tokens=4096,
+    callback_manager=callback_manager
+)
+gpt4 = ChatOpenAI(
+    model="gpt-4",
+    temperature=0,
+    max_tokens=None,
+    timeout=None,
+    max_retries=2,
+    api_key=constants.OPENAI_API_KEY,
+    callback_manager=callback_manager
+)
+gpt4o = ChatOpenAI(
+    model="gpt-4o",
+    temperature=0,
+    max_tokens=None,
+    timeout=None,
+    max_retries=2,
+    api_key=constants.OPENAI_API_KEY,
+    callback_manager=callback_manager
+)
+gpt4o_mini = ChatOpenAI(
+    model="gpt-4o-mini",
+    temperature=0,
+    max_tokens=None,
+    timeout=None,
+    max_retries=2,
+    api_key=constants.OPENAI_API_KEY,
+    callback_manager=callback_manager
+)
+basic_embeddings = HuggingFaceEmbeddings(model_name="snowflake/snowflake-arctic-embed-l")
+#hkunlp_instructor_large = HuggingFaceInstructEmbeddings(
+#    model_name = "hkunlp/instructor-large",
+#    query_instruction="Represent the query for retrieval: "
+#)
+te3_small = OpenAIEmbeddings(api_key=constants.OPENAI_API_KEY, model="text-embedding-3-small")
+semanticChunker = SemanticChunker(
+    te3_small,
+    breakpoint_threshold_type="percentile"
+)

marketingRAG/prompts.py ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ from langchain_core.prompts import ChatPromptTemplate, HumanMessagePromptTemplate, MessagesPlaceholder, PromptTemplate
2	+ from langchain.schema import SystemMessage
3	+

marketingRAG/requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+langchain
+langchain-experimental
+langchain-qdrant
+langchain-community
+qdrant-client
+langchain-anthropic
+langchain-openai
+langchain-huggingface

marketingRAG/set_constants.py ADDED Viewed

	@@ -0,0 +1,17 @@

+import constants
+import os
+from dotenv import load_dotenv, find_dotenv
+load_dotenv(find_dotenv())
+current_directory = os.path.dirname(os.path.abspath(__file__))
+file_path = os.path.join(current_directory, 'constants.py')
+constantsFile = open(file_path, "w")
+constantsFile.write("OPENAI_API_KEY='" + os.getenv("OPENAI_API_KEY") + "';\n");
+constantsFile.write("ANTRHOPIC_API_KEY='" + os.getenv("ANTRHOPIC_API_KEY") + "';\n");
+constantsFile.write("LANGCHAIN_API_KEY='" + os.getenv("LANGCHAIN_API_KEY") + "';\n");
+constantsFile.write("LANGCHAIN_TRACING_V2=True;\n");
+constantsFile.write("LANGCHAIN_ENDPOINT='https://api.smith.langchain.com';\n");
+constantsFile.write("QDRANT_API_KEY='" + os.getenv("QDRANT_API_KEY") + "';\n");
+constantsFile.write("QDRANT_ENDPOINT='" + os.getenv("QDRANT_ENDPOINT") + "';\n");
+constantsFile.close()

marketingRAG/test_docs/Employee Statistics FINAL.pdf ADDED Viewed

Binary file (92.2 kB). View file

marketingRAG/test_docs/Employer Statistics FINAL.pdf ADDED Viewed

Binary file (113 kB). View file