Spaces:

danicafisher
/

implications-of-AI

Sleeping

danicafisher commited on about 1 month ago

Commit

008dbaf

•

1 Parent(s): 768b51c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -35,12 +35,22 @@ text_splitter = RecursiveCharacterTextSplitter(
 )
 rag_documents = text_splitter.split_documents(documents)
-# Alternative chunking: Tokens (more accurate for OpenAI models)
-token_text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
-    encoding="cl100k_base", chunk_size=100, chunk_overlap=0
 )
-token_rag_documents = token_text_splitter.split_documents(documents)
-# TO DO ^^ test
 embedding = OpenAIEmbeddings(model="text-embedding-3-small")

 )
 rag_documents = text_splitter.split_documents(documents)
+# # Alternative chunking: Tokens (more accurate for OpenAI models)
+# token_text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
+#     encoding="cl100k_base", chunk_size=100, chunk_overlap=0
+# )
+# token_rag_documents = token_text_splitter.split_documents(documents)
+# # TO DO ^^ test
+# Split the documents by character
+text_splitter = CharacterTextSplitter(
+    separator="\n\n",
+    chunk_size=1000,
+    chunk_overlap=200,
+    length_function=len,
+    is_separator_regex=False,
 )
+character_rag_documents = text_splitter.split_documents(documents)
 embedding = OpenAIEmbeddings(model="text-embedding-3-small")