Spaces:

MefhigosetH
/

Nuevo-Regimen-Academico

Sleeping

File size: 898 Bytes

7ffe358

"""
Modulo para procesar el PDF de la resolucion e indexar su contenido en la DB, para su posterior utilización por parte del chatbot.

Por simplicidad, se indexo un documento por cada página completa del documento. TODO: Implementar estrategia ParentDocumentRetriever.
"""
#from langchain_community.document_loaders import PyPDFLoader
from chatbot.embeddings import init_embeddings
from chatbot.vectorstore import ChromaDB

if __name__ == "__main__":
    #loader = PyPDFLoader("2024_DP_134.pdf")
    embedding_model = init_embeddings()

    vector_store = ChromaDB(embedding_model)

    #for page in loader.lazy_load():
        #print(f"Procesando pagina {page.metadata['page']} - len: {len(page.page_content)}")
        #vector_store.add_documents([page])

    results = vector_store.db.similarity_search(
        "Cuantos anexos contiene la resolucion?",
        k=2,
    )

    print(results)