Spaces:

GameScribes
/

Multipurpose-AI-Agent-Development

Paused

File size: 38,769 Bytes

a267b49
44b8cfd
fdac275
03c7545
a267b49
9cd87f4
f57dc09
815b38b
79c013d
fe3d214
ee34418
5e52199
16dc9e5
fdc7196
15d08bb
a267b49
ab422ce
a267b49
215b4f6
a267b49
9cd87f4
4f26794
8b5cd21
6fe701f
9cd87f4
7831057
be0c4d6
4966e90
ce518a9
 
b4676f8
1fad9e0
346e521
ee34418
50c35e3
15d08bb
ee34418
 
 
 
 
 
 
 
 
9cd87f4
2ab448b
 
 
 
 
 
b40229f
 
557005f
 
0cdc7ec
4a5c98c
 
 
 
1e93f85
a9cba95
 
 
 
 
 
 
0cdc7ec
 
ee34418
743bad7
 
 
 
 
ee34418
 
 
836444c
ee34418
 
 
d88ca48
ee34418
 
 
 
836444c
a267b49
6fe701f
ee34418
a18030e
ee34418
 
a267b49
8324d7c
69d7f54
 
f368b42
19a1340
69d7f54
 
 
 
6fe701f
7623b62
6fe701f
 
 
 
0886785
62ab310
3eae162
62ab310
3eae162
 
62ab310
3eae162
 
0c81177
7831057
0c81177
a648bb8
6fe701f
 
 
 
 
 
 
 
 
 
 
0886785
62ab310
3eae162
62ab310
3eae162
 
62ab310
3eae162
 
8324d7c
62ab310
854bce1
9cc997c
 
 
 
c42b490
a267b49
fdc7196
 
 
 
 
 
 
 
 
 
 
089f309
 
 
fdc7196
 
 
 
 
 
 
 
 
 
 
 
40162e5
fdc7196
 
 
fd4a890
957f5de
fd4a890
 
 
9131110
 
 
 
 
 
 
 
 
 
 
 
 
 
 
fd4a890
346e521
c02020e
fd4a890
290fee1
3282011
9cd87f4
 
a579acb
9cd87f4
 
a27226c
c02020e
9131110
eb42954
3282011
6143b5b
9cd87f4
215effb
9131110
fd4a890
755634f
 
662b291
fd4a890
 
a18030e
fd4a890
 
 
 
 
 
 
 
 
ee34418
fd4a890
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ee34418
 
 
 
 
6143b5b
fdc7196
ee34418
 
fdc7196
6143b5b
ee34418
 
4b4f3b9
fd4a890
 
731b64e
846607c
 
 
 
 
6143b5b
8053dc6
 
 
828cea7
b256ccf
828cea7
fd4a890
 
8053dc6
be0a9d4
8053dc6
fd4a890
 
be0a9d4
 
 
6143b5b
ee34418
 
 
9d0f111
 
ee34418
 
 
9d0f111
 
ee34418
 
 
c78c291
ee34418
 
ba165fd
 
 
 
 
fdc7196
db4ca19
ee34418
fd4a890
ee34418
fdc7196
 
c78c291
fdc7196
 
 
ee34418
fd4a890
5481353
ee34418
 
5481353
fdc7196
e64f337
5481353
9702283
9d0f111
5481353
ee34418
 
fd4a890
 
 
 
 
 
 
 
 
 
 
 
755634f
fc24904
ee34418
e8532d4
 
 
edf7cf6
b8c4816
ee34418
be0a9d4
 
 
 
 
de6ca3a
 
ee34418
de6ca3a
 
 
 
 
daf786f
9d0f111
daf786f
de6ca3a
 
 
fc24904
be0a9d4
abbb034
073b1bd
ff11c95
 
 
 
 
 
 
 
 
2c86ea1
 
ff11c95
 
 
 
 
 
 
 
 
2c86ea1
 
ff11c95
abbb034
fc24904
 
e8b73cb
420f6f1
755634f
c052e54
5088e43
 
 
420f6f1
 
4bceb82
420f6f1
 
 
 
 
 
4bceb82
420f6f1
 
 
 
 
 
 
 
 
 
8eb9c8c
bda1e9f
ebcd496
5088e43
d418a49
 
 
 
420f6f1
 
ebcd496
a6cb806
 
85602b3
ced9420
e41def2
85602b3
e41def2
0cb39e5
e41def2
 
 
6aa884b
 
 
 
6143b5b
bda1e9f
c010288
8b7ce86
99b4006
3f440c6
64b0cfb
6aa884b
 
ab422ce
dc77bf9
 
 
ab422ce
dc77bf9
ab422ce
0052cf7
 
 
 
 
 
 
fed2e5f
a9cba95
fed2e5f
0052cf7
ab422ce
016a765
 
 
0052cf7
5ac1939
0052cf7
 
 
359ff38
0052cf7
 
 
 
 
 
 
11c7a3d
ab422ce
 
e8b73cb
000aeae
afb0db5
f68e408
 
8b5cd21
afb0db5
60d3cbf
d7c4deb
e100b25
 
 
85714c0
97fdfd3
7cc8887
 
 
887fe00
e100b25
5af5765
e100b25
d391b77
97fdfd3
d391b77
41f36e3
049ccb9
d391b77
b027fb2
ea4fe47
d391b77
97fdfd3
 
fe668d1
 
 
97fdfd3
fe668d1
d391b77
97fdfd3
7cc8887
 
97fdfd3
 
 
 
8b5cd21
6fe701f
ed16fc7
6fe701f
 
 
8b5cd21
 
6fe701f
 
 
0886785
6fe701f
 
8b5cd21
 
 
 
 
1ad1696
fa5807e
e8b73cb
1ad1696
4a1c345
 
 
c39c941
40bf681
 
 
4a1c345
8b5cd21
 
 
 
e100b25
8b5cd21
e8b73cb
 
8b5cd21
6fe701f
e8b73cb
 
 
 
 
bbd0dbd
000aeae
62c49a7
000aeae
e8b73cb
da6dfaf
e100b25
f68e408
 
 
822f8d6
f914f00
 
e8b73cb
86b5d9a
000aeae
48c085d
1b389ed
 
 
 
 
 
 
 
 
2c86ea1
 
1b389ed
48c085d
c4b780a
 
2c86ea1
c4b780a
 
7f74442
c4b780a
 
 
 
86b5d9a
 
 
 
 
 
 
 
 
 
 
 
 
be0a9d4
15d08bb
86b5d9a
 
 
 
 
 
 
 
e8b73cb
c4b780a
f914f00
dce0b3a
86b5d9a
1d66c65
4f26794
40e37ba
 
 
f914f00
 
 
 
 
0cf748c
f914f00
b485ba4
f914f00
 
1014077
f914f00
 
 
 
 
 
 
 
1014077
f914f00
 
6aa884b
 
 
 
 
 
 
 
 
 
 
f914f00
 
 
6aa884b
 
 
 
 
 
 
 
b9007f7
f914f00
 
 
 
 
 
 
 
 
 
 
4ccdfbe
f914f00
fdc7196
ba165fd
fdc7196
 
 
f914f00
 
 
fdc7196
 
f914f00
 
fdc7196
f914f00
 
93e855d
dce0b3a
fdc7196
ba165fd
fdc7196
 
 
e98448e
ba165fd
fdc7196
 
 
ba165fd
fdc7196
 
 
 
 
ba165fd
fdc7196
 
 
 
 
 
 
 
ba165fd
fdc7196
 
ba165fd
c9db885
ba165fd
f914f00

import os
import re
import lz4
import copy
import time
import vllm
import uuid
import torch
import spacy
import shutil
import msgpack
import tempfile
import threading
import itertools
import validators
import numpy as np
import pandas as pd
import streamlit as st
from pathlib import Path
from numpy import ndarray
from outlines import models
from datetime import datetime
from typing import List, Dict
from transformers import AutoTokenizer
from qdrant_client import QdrantClient
from optimum_encoder import OptimumEncoder
from streamlit_navigation_bar import st_navbar
from ppt_chunker import ppt_chunk
from unstructured.cleaners.core import clean
from unstructured.partition.pptx import partition_pptx
from fastembed import SparseTextEmbedding, SparseEmbedding
from unstructured.nlp.tokenize import download_nltk_packages
from huggingface_hub import snapshot_download, hf_hub_download
from scipy.sparse import csr_matrix, save_npz, load_npz, vstack
from langchain_experimental.text_splitter import SemanticChunker
from langchain_community.document_loaders import WikipediaLoader, WebBaseLoader
from qdrant_client.models import (
    NamedSparseVector,
    NamedVector,
    SparseVector,
    PointStruct,
    ScoredPoint,
    Prefetch,
    FusionQuery,
    Fusion,
    SearchRequest,
    Modifier,
    OptimizersConfigDiff,
    HnswConfigDiff,
    Distance,
    VectorParams,
    SparseVectorParams,
    SparseIndexParams,
    Batch
)

icon_to_types = {
    'ppt':('data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAADAAAAAwCAYAAABXAvmHAAAACXBIWXMAAAsTAAALEwEAmpwYAAAC4ElEQVR4nO2YS2gTQRzGF/VgPVuPpsXSQ3eshdbXqVDMEtlN1UN8HqTZYouCVJTsiIfgTcWbD0o0mp3GKq1oC55E2AbbKn3dakISCVjwUNtLlZ1a24xs0oqG2uxmJ2si+8F32NnL95v/fx67DGPLli1b/5UUkauJtDsvDHm5XkXkphSvc17xcksqgksYSXMYwSksS71Yhudx6MouphSk+Ju3RLzcGUV0jg6JHFnPGMH1LcMRVZZOkz7P5n8TXuRcisjF/xY8LwDKWpVhDIcgZ1nwiXPCNkXkHuYLrhcAr4EgKUD6LlUUNfxIp3OHIjon9YY3AoCzHl8IXq0sWvgh0RkzEr4AAKK1FHWIbNsYm/lCAfBqJchj/1ZqAEZ6nhIAURHsNhQy0OToCjQ5vj1ochAzDu6vJgOte00DYATJYsh32AiA6fC/Q9AAUJEU1X1O0Aq/ZhoAOAPhO1nWABhJw2UNoMowjdG16oIBcrWy/IPMx6Pk9eV2iyoACQ75OkwDxF4+JdEXT8jMaCTznF5ZJoNtR60BkKWwaYDgwZpfY/FXzzNj0/3IGgAEJ6gCjN29ma3KwDOLAKRZ0wBhrpGglnoy2HaMLHyeyYy98XVaAqAiuGgaIFcf+ns2XMRJAdD0ommA8Xu3yNidG+Td7etk4Gxr3m2ULgA7S3UN6DFlgIlyB+gpcwBQ+EFWqGmFTwggnTqyp6p8AXjwNm/4kgZwg+N6Ab7SCv9oXxUdAB5ME4/eD5rGnRdpQGjhIy21dADcdS0MDSUFEKC8qxAdi/c+Q0ufPAcqEjw7biHA+1Szg95vFU1xV0NlgmdjRZ95no3GhNrtVMP/CQHGijnzcVdDcX4t5rRTdzF6PkW7bTbSR373Ia3cpsPzYJrabmNU2h6ddNedSvBgWDvyDcx2WjthEwJ7gviZTUwpKOaur9YuXQmBDSd5djLJg7kkD76v+ot2Jc68E0CHrruNLVu2bDGlrJ8c/urSuEn7XgAAAABJRU5ErkJggg==',
          'Powerpoint'),
    'pptx':('data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAADAAAAAwCAYAAABXAvmHAAAACXBIWXMAAAsTAAALEwEAmpwYAAAC4ElEQVR4nO2YS2gTQRzGF/VgPVuPpsXSQ3eshdbXqVDMEtlN1UN8HqTZYouCVJTsiIfgTcWbD0o0mp3GKq1oC55E2AbbKn3dakISCVjwUNtLlZ1a24xs0oqG2uxmJ2si+8F32NnL95v/fx67DGPLli1b/5UUkauJtDsvDHm5XkXkphSvc17xcksqgksYSXMYwSksS71Yhudx6MouphSk+Ju3RLzcGUV0jg6JHFnPGMH1LcMRVZZOkz7P5n8TXuRcisjF/xY8LwDKWpVhDIcgZ1nwiXPCNkXkHuYLrhcAr4EgKUD6LlUUNfxIp3OHIjon9YY3AoCzHl8IXq0sWvgh0RkzEr4AAKK1FHWIbNsYm/lCAfBqJchj/1ZqAEZ6nhIAURHsNhQy0OToCjQ5vj1ochAzDu6vJgOte00DYATJYsh32AiA6fC/Q9AAUJEU1X1O0Aq/ZhoAOAPhO1nWABhJw2UNoMowjdG16oIBcrWy/IPMx6Pk9eV2iyoACQ75OkwDxF4+JdEXT8jMaCTznF5ZJoNtR60BkKWwaYDgwZpfY/FXzzNj0/3IGgAEJ6gCjN29ma3KwDOLAKRZ0wBhrpGglnoy2HaMLHyeyYy98XVaAqAiuGgaIFcf+ns2XMRJAdD0ommA8Xu3yNidG+Td7etk4Gxr3m2ULgA7S3UN6DFlgIlyB+gpcwBQ+EFWqGmFTwggnTqyp6p8AXjwNm/4kgZwg+N6Ab7SCv9oXxUdAB5ME4/eD5rGnRdpQGjhIy21dADcdS0MDSUFEKC8qxAdi/c+Q0ufPAcqEjw7biHA+1Szg95vFU1xV0NlgmdjRZ95no3GhNrtVMP/CQHGijnzcVdDcX4t5rRTdzF6PkW7bTbSR373Ia3cpsPzYJrabmNU2h6ddNedSvBgWDvyDcx2WjthEwJ7gviZTUwpKOaur9YuXQmBDSd5djLJg7kkD76v+ot2Jc68E0CHrruNLVu2bDGlrJ8c/urSuEn7XgAAAABJRU5ErkJggg==',
          'Powerpoint'),
    'txt':('data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAEAAAABACAYAAACqaXHeAAAACXBIWXMAAAsTAAALEwEAmpwYAAAEA0lEQVR4nO2bW08TQRTH+8QDH8DPpF+EGLt+AENI44OC7u6L+mAxYQ0xLdZoDE8kCpr4oEYUGu4kEOgFRWm5FLbd3Zk9Ztpus132WmZ3WtqTnGQzLbP7/82ZM2dmaSw2sIENbGAdWHIkOSxw0pgQlzYFTlJFTgIGXhQ4aSKRyAzFojT+9vQNMT71i5HoS04gRCpe4KZWyY2TiUzrIdTj3cCOzooA1ZO64/ND23azm79DfD+73IqEyMSLcWmF3HQykYG5ldOOAVxVvHayB7pcbt2fifgPu0pHAGiJJ59FAoB3EN8JAJriIwHAu4gPCoC2+NAB8B7i/QDA1ePQxIcKgPch3gsAkv8BMQIhDPGhAeB9incDgOQStJlWDSyegHMTHwqA5Ehy2ChyXtx/A3OrZ47ivSIAGxCUi8DitcpB/U915dxRfCgABE4aM4ocL/Hvv+TrN39+L+Wc8FS5I/E6VhvwdB1AvYgQQFzaDFqKLryep5btUbUMtoaUyCJA9SucjPznzDxUj3boLnVKBUDHpgiQo4sAkWFt35bwyNwn5iK+qwCgMNZ5reYqvmsAoJCKHD/OHABiKJ4pgK3vi5AcTTE/DPHtcSnPcy9vUQMwOZpmLyqgC3elAhUA6KzY6vTBj1pPuO+pInoAMOZ2XwJApsTWdwCQJdvTBPD4Zw0mFrsYALJZ6vwAyFea5ayN5Sq4/p2HizWoqDocynobBHJ9cK7X+wjSH3UAyGGd9wMg5/OBiXhiC3mt1Uauif2V9cD9UQOAXIqcoFPAMLvPpjcaW18VAzzLKvAkq4DS1JreVgP3RwUA8qjwaAIgvlZqKF4vYVgvN6/LzqMaOgDwKG9pAzCPuhENT7MKWwDYpbanDcA87635gAkA7LGxCQPAp0IXAVA9dnW0AZBwJ2FvGJkOZFowBYBctrS0AWw0E9+aKQmSa2YAkMd+niaA1FZjGVRQY9TNCfHVJqNlEDwOM2gCIBUfsY+5y4VQwaHAiRwAtpzkBAVAKjWnau3rb1QP+3FLKbx9jOHbHxS4P+oAsM0x1rXfDYLHGV5fAMDmWkAugXaau/SfGdcWAG4Tf0Re0QBgDaB22h8A1Law3wcgLyvJK6vm1JgcnYn0QJPZoajWOrdvjLzhu0tbPQVB4KS8eEe6GQiAdsWXFl5uTbCduO/Q9mtis8NeEB8qAL0HxIcKAHpAfM8BwJTF9xQAHIL4SACk+VmYEWfbxARtM4tPPXoLaf5dm4irtIUOQLSJiKBtdg9Mu20AgJaJlpEkIWwNbT9tJOxJuFpDlnZbVyZBHFLCiyoJFkmHhfWdrhe/t7xE/yczAidNsN64BPb41Dg1AIlEZqgJoR4JXe5sfjY3sIENLHZd7D/x1k4dCUv1GwAAAABJRU5ErkJggg==',
          'Txt'),
    'doc':('data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAADAAAAAwCAYAAABXAvmHAAAACXBIWXMAAAsTAAALEwEAmpwYAAACOElEQVR4nO2ZQWgTQRSGh+DFq70VD2lvQuKpV714cGtLu3ioiiJeWr0oaSnSm0KhKnabJiKYYhHRQxORBmLqoYVKqaGGWmizAYsaCBhDpdCkqatpap68l3QO4kHJsBnN/PDDzts34f+YN3sJY0pKSkr/pFz31q64/Ym822+CPU7kXX7zsjAAe8ObZJfPzAkEsDe8u2oFsC91An41Qv/rCGmGh2nGDtMMqMWOznFoHpipC8BOreE5RMc4uIdNoWZ/AAAirQCGG/kEjg8GARVZ+shrR3ofwb5ODD3j9Wg8RTXcIw3AwS4ffN/dgy85i9f6fLMc4MaTGK9vbH2lXtwjDQDTDHidzFDYlksPaf14LgnFUgVqdiVNNXyHwl6pRohpBtwJxSncmZEXtE5lc7D07jNMx95DwdqFAx1eOHc7Sj3YKx1A180whTOeL0Pz+QA9e6ffwvXJBXpuu/qU1ijslQ6gqec+lMsAi8kMnQKqZyQCxwan6NnzYJ5GB3uw99f9Rz1vhJr9LQA6md6Eb8USBGZWKfThCxN0WfEuhGMfwCqWqOd3e6UACFSDb1tF+LRZ4PX4ehZKez/oHfZIC3Dx7kv+6QwtrPO6L7zC69gjLUBr9TOJ6g+84vWztyp3AoU90gKwGqwAPI13AqMFUeEdp7x1ADhpXBMB4WgfKx/qnLRaT4e2RJqJUosehHqYKYCq1AnoaoQafIScejBvd3hn95S4PziceqgPf9DO8E492CsMQElJSYmJ0E+635eFCoKREwAAAABJRU5ErkJggg==',
          'Microsoft Word'),
    'docx':('data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAADAAAAAwCAYAAABXAvmHAAAACXBIWXMAAAsTAAALEwEAmpwYAAACOElEQVR4nO2ZQWgTQRSGh+DFq70VD2lvQuKpV714cGtLu3ioiiJeWr0oaSnSm0KhKnabJiKYYhHRQxORBmLqoYVKqaGGWmizAYsaCBhDpdCkqatpap68l3QO4kHJsBnN/PDDzts34f+YN3sJY0pKSkr/pFz31q64/Ym822+CPU7kXX7zsjAAe8ObZJfPzAkEsDe8u2oFsC91An41Qv/rCGmGh2nGDtMMqMWOznFoHpipC8BOreE5RMc4uIdNoWZ/AAAirQCGG/kEjg8GARVZ+shrR3ofwb5ODD3j9Wg8RTXcIw3AwS4ffN/dgy85i9f6fLMc4MaTGK9vbH2lXtwjDQDTDHidzFDYlksPaf14LgnFUgVqdiVNNXyHwl6pRohpBtwJxSncmZEXtE5lc7D07jNMx95DwdqFAx1eOHc7Sj3YKx1A180whTOeL0Pz+QA9e6ffwvXJBXpuu/qU1ijslQ6gqec+lMsAi8kMnQKqZyQCxwan6NnzYJ5GB3uw99f9Rz1vhJr9LQA6md6Eb8USBGZWKfThCxN0WfEuhGMfwCqWqOd3e6UACFSDb1tF+LRZ4PX4ehZKez/oHfZIC3Dx7kv+6QwtrPO6L7zC69gjLUBr9TOJ6g+84vWztyp3AoU90gKwGqwAPI13AqMFUeEdp7x1ADhpXBMB4WgfKx/qnLRaT4e2RJqJUosehHqYKYCq1AnoaoQafIScejBvd3hn95S4PziceqgPf9DO8E492CsMQElJSYmJ0E+635eFCoKREwAAAABJRU5ErkJggg==',
          'Microsoft Word'),
    'xslx':('data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAADAAAAAwCAYAAABXAvmHAAAACXBIWXMAAAsTAAALEwEAmpwYAAADGUlEQVR4nO2Za0hTYRzG9z0vu59JpK3vedvmTHOmM1OnE0wqbZWJjjTNS2nz7jZvFVmJUTOCchF0+RaBiAThQkgQKSKKbjohIqMIKlG3J3aiVXicw3PaMToPPF/eT7/fe/7vew4cHo8LFy5c/qlssht1cnvpjNxuxGqqcJhX1dhRs1M5as6kLbBx0OhcLTwdAYVHwtE+TVuADjxdAYXDDE5Azj0BMzdCtLLhTCH8aXifAREXiyC/WhrYQ0z06HVET+4M0a0H0ZUDojMb0g4dpNYsSC1ZkJgzIWnPgKRtB8Rt6RC3pkPcsh2i5jSImrQQNqZC2JACUYMWMose4f2GPyT+vkC33kkXXmhKgeD4NkhMqVB1FyHJVoHkKzVk6V4CPD8EGIEX1CdDUK+BqusAEs+XB1Cgizl4fl3SD4H+sgAKdDIHzz/GgoCUAn69NRsvZ2fgSeuQzQsffaoQcwvz+DY/h5gTBUvg+Ue3siBgpd75/dfbSYHZL58QYckhd/7W5Ai5Zh26RAkfWpvIgoBl+bEZef6QBO4YvgxNXwlcbjdevHdC1phGCR9akxB4AYmPmU84V4z5xQV8/PoZY68fwe12Q2+rXhY+tHoLCwLtvg/sBcdt/MyNiWGf8CFV8SwItPm+bezjd70CNyeGfcKHHImHOCcS0l0KyAxqsvzmVFrlrRRf8DkDNeTYjE89wYNXk6RE3kDtsvAhlWoWBFqp4cOa0/Hs3RsSWm+rgrbPSMpMfXiLMJOWEj64Mo4FgRbql9Tpe9dI+OGnY96xufP4PrnWOzJICR9coQq8gIgCPqH3IHn7uNwuaM4We2de2VOABdci2cST+5bABx1WsiDQtPLnga+Z/x0+qJwFASGD8EFlChYEGpiDX3coNvACAlOKkyn4oJJoFgTqNZn8Oo2TCXjBzkiIc6NA7P4lQLc8uhHpNsPfivVRkObHgChQrR0BSV4M/KnU0/xYELuVkO2NWzsCxB4l/K5n5xmElzEhwCSMjBP4H58AYVA72YInDGr6PzhkhepMNiQIg3paZojPoC3AhQsXLjwm8x3YSSmFlSW/AQAAAABJRU5ErkJggg==',
           'Excel')
}


def transform_query(query: str) -> str:
    """ For retrieval, add the prompt for query (not for documents).
    """
    return f'Represent this sentence for searching relevant passages: {query}'

def query_hybrid_search(query: str, client: QdrantClient, collection_name: str, dense_model: OptimumEncoder, sparse_model: SparseTextEmbedding):
    dense_embeddings = dense_model.embed_query(transform_query(query))[0]
    sparse_embeddings = list(sparse_model.query_embed(query))[0]
    
    return client.query_points(
        collection_name=collection_name,
        prefetch=[
            Prefetch(query=sparse_embeddings.as_object(), using="text-sparse", limit=10),
            Prefetch(query=dense_embeddings, using="text-dense", limit=10)
        ],
        query=FusionQuery(fusion=Fusion.RRF),
        limit=3
    )

def main(query: str, client: QdrantClient, collection_name: str, tokenizer: AutoTokenizer, llm: vllm.LLM, dense_model: OptimumEncoder, sparse_model: SparseTextEmbedding):
    scored_points = query_hybrid_search(query, client, collection_name, dense_model, sparse_model).points

    docs = [(scored_point.payload['text'], scored_point.payload['metadata']) for scored_point in scored_points]
    contents, metadatas = [list(t) for t in zip(*docs)]

    context = "\n".join(contents)
    
    seen_values = set()
    result_metadatas = "\n\n".join(
        f'{value}'
        for metadata in metadatas
        for key, value in metadata.items()
        if (value not in seen_values and not seen_values.add(value))
    )

    args = {'context': context, 'query': query}
    messages = [
        {"role": "system", "content": 'You are a helpful assistant.'},
        {"role": "user", "content": st.session_state.toggle_docs['qa_prompt'].format(**args)}
    ]
    prompts = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    
    outputs = llm.generate(
        prompts=prompts, 
        sampling_params=vllm.SamplingParams(
            temperature=0, 
            max_tokens=3000
        )
    )
    print(f'TEXT: {outputs}')

    text = outputs[0].outputs[0].text

    messages_2 = [
        {"role": "system", "content": """Act like a professional summary writer. You have been providing summarization services for various types of documents, including academic papers, legal texts, and business reports, for over 20 years. 
        Your expertise includes extracting key points and important details concisely without adding unnecessary introductory phrases."""
        },
        {"role": "user", "content": f"""Write a summary of the following text delimited by triple backquotes. Ensure the summary covers the key points of the text. Do not introduce the summary with sentences like "Here is the summary:" or similar. The summary should be detailed, precise, and directly convey the essential information from the text.
        
        ```{text}```
        
        Let's think step-by-step."""
        }
    ]
    prompts_2 = tokenizer.apply_chat_template(messages_2, tokenize=False, add_generation_prompt=True)

    outputs_2 = llm.generate(
        prompts=prompts_2, 
        sampling_params=vllm.SamplingParams(
            temperature=0.3, 
            max_tokens=3000
        )
    )
    
    answer = outputs_2[0].outputs[0].text
    answer_with_metadatas = f"{answer}\n\n\nSource(s) :\n\n{result_metadatas}"

    if st.session_state.documents_only:
        return answer if 'no_answer' in text else answer_with_metadatas
    else:
        return f'Internal Knowledge :\n\n{answer}' if 'knowledge_topic' in text else f'Documents Based :\n\n{answer_with_metadatas}'

def collect_files(directory, pattern):
    array = []

    for filename in os.listdir(directory):
        if pattern in filename:
            if filename.endswith('.msgpack'):
                with open(os.path.join(directory, filename), "rb") as data_file_payload:
                    decompressed_payload = data_file_payload.read()
                    
                array.append(msgpack.unpackb(decompressed_payload, raw=False))
            elif (filename.endswith('.npz')) and (pattern == '_dense'):
                v = list(np.load(os.path.join(directory, filename)).values())
                print(f'check {v}, {type(v)}, {type(v[0])}')
                array.append(v)
            elif (filename.endswith('.npz')) and (pattern == '_sparse'):
                sparse_embeddings = []
                loaded_sparse_matrix = load_npz(os.path.join(directory, filename))
                
                for i in range(loaded_sparse_matrix.shape[0]):
                    row = loaded_sparse_matrix.getrow(i)
                    values = row.data.tolist()
                    indices = row.indices.tolist()
                    embedding = SparseVector(indices=indices, values=values)
                    sparse_embeddings.append(embedding)
                array.append(sparse_embeddings)
            elif filename.endswith('.npy'):
                array.append(np.load(os.path.join(directory, filename), allow_pickle=True).tolist())
                
    return list(itertools.chain.from_iterable(array))

@st.cache_resource(show_spinner=False)
def load_models_and_documents():
    container = st.empty()
    
    with container.status("Load AI Models and Prepare Documents...", expanded=True) as status:
        st.write('Downloading and Loading MixedBread Mxbai Dense Embedding Model under ONNX with Nvidia CUDA as backend...')

        dense_model = OptimumEncoder(
            device="cuda",
            cache_dir=os.getenv('HF_HOME')
        )

        st.write('Downloading and Loading Qdrant BM42 Sparse Embedding Model under ONNX using the CPU...')
        
        sparse_model = SparseTextEmbedding(
            'Qdrant/bm42-all-minilm-l6-v2-attentions',
            cache_dir=os.getenv('HF_HOME'),
            providers=['CPUExecutionProvider']
        )

        st.write('Downloading Mistral Nemo AI Model...')
        
        model_path = snapshot_download('casperhansen/mistral-nemo-instruct-2407-awq')

        st.write('Loading Mistral Nemo AI Model quantized with AWQ and using Outlines + vLLM Engine as backend...')
        tokenizer = AutoTokenizer.from_pretrained(model_path)
        
        llm = vllm.LLM(
            model=model_path,
            tensor_parallel_size=1,
            trust_remote_code=True,
            enforce_eager=True,
            quantization="awq",
            gpu_memory_utilization=1,
            max_model_len=12288,
            dtype=torch.float16
        )
        model = models.VLLM(llm)

        st.write('Loading Spacy Natural Language Processing Model for English...')

        nlp = spacy.load("en_core_web_sm")

        download_nltk_packages()

        st.write('Creating Collection for our Qdrant Vector Database in RAM memory...')
        
        client = QdrantClient(':memory:')
        collection_name = 'collection_demo'
        
        client.create_collection(
            collection_name,
            {
                "text-dense": VectorParams(
                    size=1024,
                    distance=Distance.COSINE,
                    on_disk=False
                )
            },
            {
                "text-sparse": SparseVectorParams(
                    index=SparseIndexParams(
                        on_disk=False
                    ),
                    modifier=Modifier.IDF
                )
            },
            2,
            optimizers_config=OptimizersConfigDiff(
                indexing_threshold=0,
                default_segment_number=4
            ),
            hnsw_config=HnswConfigDiff(
                on_disk=False, 
                m=32,
                ef_construct=200
            )
        )
        
        name = 'action_rpg'
        embeddings_path = os.path.join(os.getenv('HF_HOME'), 'embeddings')

        payload_path = os.path.join(embeddings_path, name + '_payload.msgpack')
        dense_path = os.path.join(embeddings_path, name + '_dense.npz')
        sparse_path = os.path.join(embeddings_path, name + '_sparse.npz')
        ids_path = os.path.join(embeddings_path, name + '_ids.npy')

        if not os.path.exists(embeddings_path):
            os.mkdir(embeddings_path)

            st.write('Downloading and Loading Video Games Dataset coming from Wikipedia...')

            docs_1 = WikipediaLoader(query='Action-RPG').load()
            docs_2 = WikipediaLoader(query='Real-time strategy').load()
            docs_3 = WikipediaLoader(query='First-person shooter').load()
            docs_4 = WikipediaLoader(query='Multiplayer online battle arena').load()
            docs_5 = WikipediaLoader(query='List of video game genres').load()
            docs = docs_1 + docs_2 + docs_3 + docs_4 + docs_5

            texts, metadatas = [], []
            for doc in docs:
                texts.append(doc.page_content)
                del doc.metadata['title']
                del doc.metadata['summary']
                metadatas.append(doc.metadata)

            st.write('Transforming the Wikipedia Video Games Dataset into ingestable format for our Qdrant Vector Database...')
            
            payload_docs, dense_embeddings, sparse_embeddings = chunk_documents(texts, metadatas, dense_model, sparse_model)

            st.write('Saving on disk the Wikipedia Video Games Dataset into quickly ingestable format...')

            with open(payload_path, "wb") as outfile_texts:
                packed_payload = msgpack.packb(payload_docs, use_bin_type=True)
                outfile_texts.write(packed_payload)
            
            np.savez_compressed(dense_path, *dense_embeddings)
            max_index = 0
            for embedding in sparse_embeddings:
                if len(embedding.indices) > 0:
                    max_index = max(max_index, max(embedding.indices))
        
            sparse_matrices = []
            for embedding in sparse_embeddings:
                data = np.array(embedding.values)
                indices = np.array(embedding.indices)
                indptr = np.array([0, len(data)])
                matrix = csr_matrix((data, indices, indptr), shape=(1, max_index + 1))
                sparse_matrices.append(matrix)
            
            combined_sparse_matrix = vstack(sparse_matrices)
            save_npz(sparse_path, combined_sparse_matrix)

            unique_ids = set()
            while len(unique_ids) < len(payload_docs):
                unique_ids.add(uuid.uuid4().int)

            unique_ids = list(unique_ids)
            np.save(ids_path, np.array(unique_ids))
        else:
            st.write('Loading the saved documents on disk')

            patterns = ['_ids', '_payload', '_dense', '_sparse']
            extensions = ['.npy', '.msgpack', '.npz']

            unique_ids, payload_docs, dense_embeddings, sparse_embeddings = [
                collect_files(embeddings_path, pattern) for pattern in patterns
            ]

        st.write('Ingesting saved documents on disk into our Qdrant Vector Database...')

        client.upsert(
            collection_name,
            points=Batch(
                ids=unique_ids,
                payloads=payload_docs,
                vectors={
                    'text-dense': dense_embeddings,
                    'text-sparse': sparse_embeddings
                }
            )
        )
        
        client.update_collection(
            collection_name=collection_name,
            optimizer_config=OptimizersConfigDiff(indexing_threshold=20000)
        )
        status.update(
            label="Processing Complete!", state="complete", expanded=False
        )
        
    time.sleep(5)
    container.empty()
    
    return client, collection_name, tokenizer, model, llm, dense_model, sparse_model, nlp

def chunk_documents(texts: List[str], metadatas: List[dict], dense_model: OptimumEncoder, sparse_model: SparseTextEmbedding):
    text_splitter = SemanticChunker(
        dense_model,
        breakpoint_threshold_type='standard_deviation'
    )
    docs = text_splitter.create_documents(texts, metadatas)

    payload_docs, documents = [], []

    for doc in docs:
        payload_docs.append({ 'text': doc.page_content, 'metadata': doc.metadata })
        documents.append(doc.page_content)

    start_dense = time.time()
    dense_embeddings = dense_model.embed_documents(documents)
    end_dense = time.time()
    final_dense = end_dense - start_dense
    print(f'DENSE TIME: {final_dense}')

    start_sparse = time.time()

    sparse_embeddings = [SparseVector(indices=s.indices.tolist(), values=s.values.tolist()) for s in sparse_model.embed(documents, 32)]

    end_sparse = time.time()
    final_sparse = end_sparse - start_sparse
    print(f'SPARSE TIME: {final_sparse}')
    
    return payload_docs, dense_embeddings, sparse_embeddings

def on_change_documents_only():
    if st.session_state.documents_only:
        st.session_state.toggle_docs = {
            'qa_prompt': """You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, reply with 'no_answer'. Use three sentences maximum and keep the answer concise.
            
            Question: {query} 
            
            Context: {context} 
            
            Answer:""",
            'tooltip': 'The AI answer your questions only considering the documents provided',
            'display': True
        }
    else:
        st.session_state.toggle_docs = {
            'qa_prompt': """If the context is not relevant, please answer the question by using your own knowledge about the topic.
            If you decide to provide information using your own knowledge or general knowledge, write 'knowledge_topic' at the top of your answer.
        
            {context}

            Question: {query}""",
            'tooltip': """The AI answer your questions considering the documents provided, and if it doesn't found the answer in them, try to find in its own internal knowledge""",
            'display': False
        }
    
    
if __name__ == '__main__':
    st.set_page_config(page_title="Multipurpose AI Agent",layout="wide", initial_sidebar_state='collapsed')

    client, collection_name, tokenizer, model, llm, dense_model, sparse_model, nlp = load_models_and_documents()

    if 'menu_id' not in st.session_state:
        st.session_state.menu_id = 'ChatBot'

    styles = {
        "nav": {
            "background-color": "rgb(204, 200, 194)",
        },
        "div": {
            "max-width": "32rem",
        },
        "span": {
            "border-radius": "0.5rem",
            "color": "rgb(125, 102, 84)",
            "margin": "0 0.125rem",
            "padding": "0.4375rem 0.625rem",
        },
        "active": {
            "background-color": "rgba(255, 255, 255, 0.25)",
        },
        "hover": {
            "background-color": "rgba(255, 255, 255, 0.35)",
        },
    }
    
    st.session_state.menu_id = st_navbar(
        ['ChatBot', 'Documents'], 
        st.session_state.menu_id,
        options={
            'hide_nav': False,
            'fix_shadow': False,
            'use_padding': False
        },
        styles=styles
    )
    st.title('Multipurpose AI Agent')
    #st.markdown("<h1 style='position: fixed; top: 0; left: 0; width: 100%; padding: 10px; text-align: left; color: black;'>Multipurpose AI Agent</h1>", unsafe_allow_html=True)

    data_editor_path = os.path.join(os.getenv('HF_HOME'), 'documents')
    
    if 'df' not in st.session_state:
        if os.path.exists(data_editor_path):
            st.session_state.df = pd.read_parquet(os.path.join(data_editor_path, 'data_editor.parquet.sz'), engine='pyarrow')
        else:
            st.session_state.df = pd.DataFrame()
            os.mkdir(data_editor_path)

    def on_change_data_editor():
        print(f'first key : {st.session_state.key_data_editor}')
        print(f'first key : {st.session_state.df}')
    
    if st.session_state.menu_id == 'Documents':
        st.session_state.df = st.data_editor(
            st.session_state.df, 
            num_rows="dynamic",
            use_container_width=True,
            hide_index=True,
            on_change=on_change_data_editor,
            key='key_data_editor',
            column_config={
                'icon': st.column_config.ImageColumn(
                    'Document'
                ),
                "document": st.column_config.TextColumn(
                    "Name",
                    help="Name of the document",
                    required=True
                ),
                "type": st.column_config.SelectboxColumn(
                    'File type',
                    help='The file format extension of this document',
                    required=True,
                    options=[
                        'Powerpoint',
                        'Microsoft Word',
                        'Excel'
                    ]
                ),
                "path": st.column_config.TextColumn(
                    'Path',
                    help='Path to the document',
                    required=False
                ),
                "time": st.column_config.DatetimeColumn(
                    'Date and hour',
                    help='When this document has been ingested here for the last time',
                    format="D MMM YYYY, h:mm a",
                    required=True
                ),
                "toggle": st.column_config.CheckboxColumn(
                    'Enable/Disable',
                    help='Either to enable or disable the ability for the ai to find this document',
                    required=True,
                    default=True
                )
            }
        )

    conversations_path = os.path.join(os.getenv('HF_HOME'), 'conversations')
    try:
        with open(conversations_path, 'rb') as fp:
            packed_bytes = fp.read()
        conversations: Dict[str, list] = msgpack.unpackb(packed_bytes, raw=False)
    except:
        conversations = {}

    if st.session_state.menu_id == 'ChatBot':
        if 'id_chat' not in st.session_state:
            st.session_state.id_chat = 'New Chat'

        def options_list(conversations: Dict[str, list]):
            if st.session_state.id_chat == 'New Chat':
                return [st.session_state.id_chat] + list(conversations.keys())
            else:
                return ['New Chat'] + list(conversations.keys())
        
        with st.sidebar:
            st.session_state.id_chat = st.selectbox(
                label='Choose a conversation',
                options=options_list(conversations),
                index=0,
                placeholder='_',
                key='chat_id'
            )

            st.session_state.messages = conversations[st.session_state.id_chat] if st.session_state.id_chat != 'New Chat' else []
            
            def update_selectbox_remove(conversations_path, conversations):
                conversations.pop(st.session_state.chat_id)
                with open(conversations_path, 'wb') as fp:
                    packed_bytes = msgpack.packb(conversations, use_bin_type=True)
                    fp.write(packed_bytes)
                st.session_state.chat_id = 'New Chat'
                    
            
            st.button(
                'Delete Chat', 
                use_container_width=True, 
                disabled=False if st.session_state.id_chat != 'New Chat' else True,
                on_click=update_selectbox_remove,
                args=(conversations_path, conversations)
            )

        def generate_conv_title(llm: vllm.LLM, tokenizer: AutoTokenizer):
            if st.session_state.chat_id == 'New Chat':
                messages = [
                    {"role": "system", "content": 'You are a helpful assistant.'},
                    {"role": "user", "content": f"""Understand the question of the user. 
                    Resume in one single sentence what is the subject of the conversation and what is the user talking about.
                    
                    Question : {st.session_state.user_input}"""
                    }
                ]
                prompts = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
                outputs = llm.generate(
                    prompts=prompts, 
                    sampling_params=vllm.SamplingParams(
                        temperature=0.3, 
                        max_tokens=30
                    )
                )
                st.session_state.chat_id = outputs[0].outputs[0].text
                st.session_state.messages = []
                
                conversations.update({st.session_state.chat_id: st.session_state.messages})
                with open(conversations_path, 'wb') as fp:
                    packed_bytes = msgpack.packb(conversations, use_bin_type=True)
                    fp.write(packed_bytes)
                    
        for message in st.session_state.messages:
            with st.chat_message(message["role"]):
                st.markdown(message["content"])     
                
        if prompt := st.chat_input(
            "Message Video Game Assistant", 
            on_submit=generate_conv_title, 
            key='user_input',
            args=(llm, tokenizer)
        ):
            st.chat_message("user").markdown(prompt)
            st.session_state.messages.append({"role": "user", "content": prompt})
            
            ai_response = main(prompt, client, collection_name, tokenizer, llm, dense_model, sparse_model)
            with st.chat_message("assistant"):
                message_placeholder = st.empty()
                full_response = ""
                for chunk in re.split(r'(\s+)', ai_response):
                    full_response += chunk + " "
                    time.sleep(0.2)
                    message_placeholder.write(full_response + '▌')
                message_placeholder.write(re.sub('▌', '', full_response))
                                          
            st.session_state.messages.append({"role": "assistant", "content": full_response})
                
            conversations.update({st.session_state.id_chat: st.session_state.messages})
            with open(conversations_path, 'wb') as fp:
                packed_bytes = msgpack.packb(conversations, use_bin_type=True)
                fp.write(packed_bytes)

        if "cached_files" not in st.session_state:
            st.session_state.cached_files = []

        with st.sidebar:
            st.divider()
            
            if 'toggle_docs' not in st.session_state:
                st.session_state.toggle_docs = {
                    'qa_prompt': """You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, reply with 'no_answer'. Use three sentences maximum and keep the answer concise.
                    
                    Question: {query} 
            
                    Context: {context} 
            
                    Answer:""",
                    'tooltip': 'The AI answer your questions only considering the documents provided',
                    'display': True
                }
                
            st.toggle(
                label="""Enable 'Documents-Only' Mode""", 
                value=st.session_state.toggle_docs['display'],
                on_change=on_change_documents_only, 
                key="documents_only",
                help=st.session_state.toggle_docs['tooltip']
            )

            st.divider()
            
            url = st.text_input("Scrape an URL link :")
            if validators.url(url):
                docs = WebBaseLoader(url).load()
                print(f'WebBaseLoader: {docs[0].metadata}')
                
                texts, metadatas = [], []
                for doc in docs:
                    texts.append(doc.page_content)
                    del doc.metadata['title']
                    del doc.metadata['description']
                    del doc.metadata['language']
                    metadatas.append(doc.metadata)

                payload_docs, dense_embeddings, sparse_embeddings = chunk_documents(texts, metadatas, dense_model, sparse_model)
        
                client.upsert(
                    collection_name,
                    make_points(
                        texts,
                        metadatas,
                        dense_embeddings, 
                        sparse_embeddings
                    )
                )
                
                st.toast('URL Content Ingested !', icon='🎉')
            
            st.divider()
        
            uploaded_files = st.file_uploader("Upload a file :", accept_multiple_files=True, type=['pptx', 'ppt'])
            
            for uploaded_file in uploaded_files:

                if uploaded_file not in st.session_state.cached_files:
                    st.session_state.cached_files.append(uploaded_file)
                    
                    file_name = os.path.basename(uploaded_file.name)
                    base_name, ext = os.path.splitext(file_name)
                
                    processing_time = datetime.now().strftime('%d %b %Y, %I:%M %p')

                    full_path = os.path.realpath(uploaded_file.name)
                    file_type = ext.lstrip('.')
                    
                    d = {
                        'icon': icon_to_types[file_type][0],
                        'document': base_name,
                        'type': icon_to_types[file_type][1],
                        'path': full_path,
                        'time': [datetime.strptime(processing_time, '%d %b %Y, %I:%M %p')],
                        'toggle': True
                    }
                    
                    if (st.session_state.df.empty) or (base_name not in st.session_state.df['document'].tolist()):
                        st.session_state.df = pd.concat(
                            [
                                st.session_state.df, 
                                pd.DataFrame(data={
                                    'icon': icon_to_types[file_type][0],
                                    'document': base_name,
                                    'type': icon_to_types[file_type][1],
                                    'path': full_path,
                                    'time': [datetime.strptime(processing_time, '%d %b %Y, %I:%M %p')],
                                    'toggle': True
                                })
                            ]
                        )
                    else:
                        idx = st.session_state.df.index[st.session_state.df['document']==base_name].tolist()[0]
                        st.session_state.df.loc[idx] = {
                            'icon': icon_to_types[file_type][0],
                            'document': base_name,
                            'type': icon_to_types[file_type][1],
                            'path': full_path,
                            'time': datetime.strptime(processing_time, '%d %b %Y, %I:%M %p'),
                            'toggle': True
                        }
                    
                    st.session_state.df.to_parquet(
                        os.path.join(
                            data_editor_path, 
                            'data_editor.parquet.sz'
                        ), 
                        compression='snappy', 
                        engine='pyarrow'
                    )
                    
                    weakDict, tables = ppt_chunk(uploaded_file, nlp)
                    documents = weakDict.all_texts()

                    dense = dense_model.embed_documents(documents)
                    sparse = [s for s in sparse_model.embed(documents, 32)]

                    ids = weakDict.all_ids()
                    payload_docs = [{ 'text': documents[i], 'metadata': metadata } for i, metadata in enumerate(weakDict.all_metadatas())]
                    
                    client.upsert(
                        collection_name=collection_name,
                        points=Batch(
                            ids=ids,
                            payloads=payload_docs,
                            vectors={
                                'text-dense': dense,
                                'text-sparse': [SparseVector(indices=s.indices.tolist(), values=s.values.tolist()) for s in sparse]
                            }
                        )
                    )

                    embeddings_path = os.path.join(os.getenv('HF_HOME'), 'embeddings')

                    payload_path = os.path.join(embeddings_path, base_name + '_payload')
                    dense_path = os.path.join(embeddings_path, base_name + '_dense.npz')
                    sparse_path = os.path.join(embeddings_path, base_name + '_sparse.npz')
                    ids_path = os.path.join(embeddings_path, base_name + '_ids.npy')

                    with open(payload_path, "wb") as outfile_texts:
                        packed_payload = msgpack.packb(payload_docs, use_bin_type=True)
                        outfile_texts.write(packed_payload)
            
                    np.savez_compressed(dense_path, *dense)
                    max_index = 0
                    for embedding in sparse:
                        if len(embedding.indices) > 0:
                            max_index = max(max_index, max(embedding.indices))
        
                    sparse_matrices = []
                    
                    for embedding in sparse:
                        data = np.array(embedding.values)
                        indices = np.array(embedding.indices)
                        indptr = np.array([0, len(data)])
                        matrix = csr_matrix((data, indices, indptr), shape=(1, max_index + 1))
                        sparse_matrices.append(matrix)
            
                    combined_sparse_matrix = vstack(sparse_matrices)
                    save_npz(sparse_path, combined_sparse_matrix)

                    np.save(ids_path, np.array(ids), allow_pickle=True)

                    st.toast('Document(s) Ingested !', icon='🎉')