eibeel
/

gpt_RAG_TFG

Model card Files Files and versions Community

eibeel commited on May 27, 2024

Commit

00c003d

·

verified ·

1 Parent(s): 780cc24

Update GPT_RAG.py

Files changed (1) hide show

GPT_RAG.py +5 -34

GPT_RAG.py CHANGED Viewed

@@ -1,12 +1,4 @@
-# -*- coding: utf-8 -*-
-"""nomic_embedding_rag.ipynb
-Automatically generated by Colab.
-Original file is located at
-    https://colab.research.google.com/drive/1vAQoZx_07yU0nVCkFxJQkcVeymgNpzFF
 """
 !pip install nomic
 !pip install --upgrade langchain
@@ -15,19 +7,9 @@ Original file is located at
 ! nomic login nk-bqukmTuFJHW8tgXzXXBw1qDL062-pth-ACecKP7CkXs
 ! pip install -U langchain-nomic langchain_community tiktoken langchain-openai chromadb langchain
-# Optional: LangSmith API keys
-import os
-os.environ["LANGCHAIN_TRACING_V2"] = "true"
-os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com"
-os.environ["LANGCHAIN_API_KEY"] = "api_key"
-"""## Document Loading
-Let's test 3 interesting blog posts.
 """
 import json
 from langchain_community.document_loaders import JSONLoader
 from langchain.docstore.document import Document
@@ -64,18 +46,8 @@ for conversation in data:
 for doc in docs_list:
     print(doc.page_content, doc.metadata)
-"""from langchain_community.document_loaders import WebBaseLoader
-urls = [
-    "https://lilianweng.github.io/posts/2023-06-23-agent/",
-    "https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/",
-    "https://lilianweng.github.io/posts/2023-10-25-adv-attack-llm/",
-]"""
-"""docs = [WebBaseLoader(url).load() for url in urls]""
-"""docs_list = [item for sublist in docs for item in sublist]
 ## Splitting
 Long context retrieval,
@@ -94,6 +66,7 @@ doc_splits = text_splitter.split_documents(docs_list)
 for split in doc_splits:
     print(split.page_content, split.metadata)
 import tiktoken
 encoding = tiktoken.get_encoding("cl100k_base")
@@ -122,10 +95,8 @@ vectorstore = Chroma.from_documents(
 )
 retriever = vectorstore.as_retriever()
-"""## RAG Chain
-We can use the
-"""
 import os
 from sklearn.metrics import precision_score, recall_score, f1_score
@@ -146,7 +117,7 @@ Question: {question}
 prompt = ChatPromptTemplate.from_template(template)
 # LLM API
-model = ChatOpenAI(temperature=0, model="gpt-4-1106-preview")
 # Placeholder para `retriever`
 class DummyRetriever:

 """
 !pip install nomic
 !pip install --upgrade langchain
 ! nomic login nk-bqukmTuFJHW8tgXzXXBw1qDL062-pth-ACecKP7CkXs
 ! pip install -U langchain-nomic langchain_community tiktoken langchain-openai chromadb langchain
 """
 import json
 from langchain_community.document_loaders import JSONLoader
 from langchain.docstore.document import Document
 for doc in docs_list:
     print(doc.page_content, doc.metadata)
+"""
 ## Splitting
 Long context retrieval,
 for split in doc_splits:
     print(split.page_content, split.metadata)
 import tiktoken
 encoding = tiktoken.get_encoding("cl100k_base")
 )
 retriever = vectorstore.as_retriever()
+# RAG Chain
 import os
 from sklearn.metrics import precision_score, recall_score, f1_score
 prompt = ChatPromptTemplate.from_template(template)
 # LLM API
+model = ChatOpenAI(temperature=0, model="gpt-3.5-turbo")
 # Placeholder para `retriever`
 class DummyRetriever: