Spaces:

GameScribes
/

Multipurpose-AI-Agent-Development

Starting on T4

File size: 34,481 Bytes

a267b49
44b8cfd
fdac275
03c7545
 
a267b49
9cd87f4
79c013d
fe3d214
ee34418
5e52199
16dc9e5
15d08bb
a267b49
ab422ce
a267b49
215b4f6
a267b49
9cd87f4
4f26794
8b5cd21
6fe701f
9cd87f4
7831057
8ebb88d
be0c4d6
4966e90
ce518a9
 
ee34418
1fad9e0
ee34418
50c35e3
15d08bb
ee34418
 
 
 
 
 
 
 
 
9cd87f4
2ab448b
 
 
 
 
 
 
557005f
 
0cdc7ec
4a5c98c
 
 
 
1e93f85
a9cba95
 
 
 
 
 
 
0cdc7ec
 
ee34418
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
743bad7
 
 
 
 
ee34418
 
 
836444c
ee34418
 
 
 
 
 
 
 
836444c
a267b49
6fe701f
ee34418
a18030e
ee34418
 
a267b49
8324d7c
69d7f54
 
f368b42
19a1340
69d7f54
 
 
 
6fe701f
7623b62
6fe701f
 
 
 
 
62ab310
3eae162
62ab310
3eae162
 
62ab310
3eae162
 
0c81177
7831057
0c81177
a648bb8
6fe701f
 
 
 
 
 
 
 
 
 
 
 
62ab310
3eae162
62ab310
3eae162
 
62ab310
3eae162
 
8324d7c
62ab310
854bce1
9cc997c
 
 
 
c42b490
a267b49
fd4a890
957f5de
fd4a890
 
 
 
b62008f
fd4a890
 
17c3a90
9cd87f4
 
3dcb8a9
9cd87f4
72c0ce4
9cd87f4
a27226c
4f2edbe
4be4fef
4f2edbe
6143b5b
9cd87f4
215effb
fd4a890
 
04547de
5e39fba
 
dbe8161
41791ed
ee34418
 
 
 
41791ed
a91bbdd
fd4a890
 
755634f
 
662b291
fd4a890
 
a18030e
fd4a890
 
 
 
 
 
 
 
 
ee34418
fd4a890
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ee34418
 
 
 
 
6143b5b
000aeae
 
ee34418
 
6143b5b
ee34418
 
4b4f3b9
fd4a890
 
731b64e
846607c
 
 
 
 
6143b5b
8053dc6
 
 
828cea7
b256ccf
828cea7
fd4a890
 
8053dc6
 
 
fd4a890
 
f68e408
000aeae
58c0cbf
8053dc6
f68e408
000aeae
58c0cbf
6143b5b
ee34418
 
 
 
 
 
 
 
 
 
 
 
 
c78c291
ee34418
 
 
fd4a890
 
f68e408
58c0cbf
8053dc6
f68e408
58c0cbf
6143b5b
05e0ae0
 
ee34418
 
c78c291
ee34418
 
 
 
 
 
 
 
 
 
fd4a890
 
ee34418
 
 
 
 
 
 
 
 
fd4a890
 
 
 
 
 
 
 
 
 
 
 
755634f
fc24904
ee34418
e8532d4
 
 
edf7cf6
b8c4816
ee34418
 
 
 
de6ca3a
 
ee34418
de6ca3a
 
 
 
 
ee34418
de6ca3a
 
 
fc24904
836444c
abbb034
073b1bd
ff11c95
 
 
 
 
 
 
 
 
2c86ea1
 
ff11c95
 
 
 
 
 
 
 
 
2c86ea1
 
ff11c95
abbb034
fc24904
 
e8b73cb
420f6f1
755634f
c052e54
5088e43
 
 
420f6f1
 
4bceb82
420f6f1
 
 
 
 
 
4bceb82
420f6f1
 
 
 
 
 
 
 
 
 
8eb9c8c
bda1e9f
ebcd496
5088e43
d418a49
 
 
 
420f6f1
 
ebcd496
a6cb806
 
85602b3
 
 
6143b5b
bda1e9f
c010288
8b7ce86
99b4006
3f440c6
64b0cfb
ab422ce
dc77bf9
 
 
ab422ce
dc77bf9
ab422ce
0052cf7
 
 
 
 
 
 
fed2e5f
a9cba95
fed2e5f
0052cf7
ab422ce
016a765
 
 
0052cf7
5ac1939
0052cf7
 
 
359ff38
0052cf7
 
 
 
 
 
 
11c7a3d
ab422ce
 
e8b73cb
000aeae
afb0db5
f68e408
 
8b5cd21
afb0db5
60d3cbf
d7c4deb
e100b25
 
 
85714c0
97fdfd3
7cc8887
 
 
887fe00
e100b25
5af5765
e100b25
d391b77
97fdfd3
d391b77
41f36e3
049ccb9
d391b77
b027fb2
ea4fe47
d391b77
97fdfd3
 
fe668d1
 
 
97fdfd3
fe668d1
d391b77
97fdfd3
7cc8887
 
97fdfd3
 
 
 
8b5cd21
6fe701f
ed16fc7
6fe701f
 
 
8b5cd21
 
6fe701f
 
 
 
 
 
8b5cd21
 
 
 
 
1ad1696
fa5807e
e8b73cb
1ad1696
4a1c345
 
 
c39c941
40bf681
 
 
4a1c345
8b5cd21
 
 
 
e100b25
8b5cd21
e8b73cb
 
8b5cd21
6fe701f
e8b73cb
 
 
 
 
bbd0dbd
000aeae
62c49a7
000aeae
e8b73cb
da6dfaf
e100b25
f68e408
 
 
822f8d6
b8dfe32
 
16dc9e5
 
 
 
 
 
b8dfe32
 
16dc9e5
 
 
 
 
 
e8b73cb
86b5d9a
000aeae
48c085d
1b389ed
 
 
 
 
 
 
 
 
2c86ea1
 
1b389ed
48c085d
c4b780a
 
2c86ea1
c4b780a
 
7f74442
c4b780a
 
 
 
86b5d9a
 
 
 
 
 
 
 
 
 
 
 
 
 
15d08bb
86b5d9a
 
 
 
 
 
 
 
e8b73cb
c4b780a
b8dfe32
dce0b3a
86b5d9a
1d66c65
4f26794
86b5d9a
 
4f26794
359ff38
9c9a85b
 
0cdc7ec
ff0ffbb
0cdc7ec
c010288
 
e8889db
c010288
bbd0dbd
c010288
2737c9f
c010288
 
 
4f26794
81b8fb4
b485ba4
 
 
6472bab
 
b485ba4
755634f
4ccdfbe
 
 
 
86b5d9a
52cb13a
 
 
 
 
 
 
 
 
 
 
 
 
e8b73cb
dce0b3a
b8dfe32

import os
import re
import lz4
import nltk
import copy
import time
import vllm
import spacy
import shutil
import msgpack
import tempfile
import threading
import validators
import numpy as np
import pandas as pd
import streamlit as st
from pathlib import Path
from numpy import ndarray
from outlines import models
from datetime import datetime
from typing import List, Dict
from transformers import AutoTokenizer
from qdrant_client import QdrantClient
from optimum_encoder import OptimumEncoder
from huggingface_hub import snapshot_download
from streamlit_navigation_bar import st_navbar
from ppt_chunker import ppt_chunk
from unstructured.cleaners.core import clean
from unstructured.partition.pptx import partition_pptx
from fastembed import SparseEmbedding, SparseTextEmbedding
from unstructured.nlp.tokenize import download_nltk_packages
from scipy.sparse import csr_matrix, save_npz, load_npz, vstack
from langchain_experimental.text_splitter import SemanticChunker
from langchain_community.document_loaders import WikipediaLoader, WebBaseLoader
from qdrant_client.models import (
    NamedSparseVector,
    NamedVector,
    SparseVector,
    PointStruct,
    ScoredPoint,
    Prefetch,
    FusionQuery,
    Fusion,
    SearchRequest,
    Modifier,
    OptimizersConfigDiff,
    HnswConfigDiff,
    Distance,
    VectorParams,
    SparseVectorParams,
    SparseIndexParams
)

icon_to_types = {
    'ppt':('data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAADAAAAAwCAYAAABXAvmHAAAACXBIWXMAAAsTAAALEwEAmpwYAAAC4ElEQVR4nO2YS2gTQRzGF/VgPVuPpsXSQ3eshdbXqVDMEtlN1UN8HqTZYouCVJTsiIfgTcWbD0o0mp3GKq1oC55E2AbbKn3dakISCVjwUNtLlZ1a24xs0oqG2uxmJ2si+8F32NnL95v/fx67DGPLli1b/5UUkauJtDsvDHm5XkXkphSvc17xcksqgksYSXMYwSksS71Yhudx6MouphSk+Ju3RLzcGUV0jg6JHFnPGMH1LcMRVZZOkz7P5n8TXuRcisjF/xY8LwDKWpVhDIcgZ1nwiXPCNkXkHuYLrhcAr4EgKUD6LlUUNfxIp3OHIjon9YY3AoCzHl8IXq0sWvgh0RkzEr4AAKK1FHWIbNsYm/lCAfBqJchj/1ZqAEZ6nhIAURHsNhQy0OToCjQ5vj1ochAzDu6vJgOte00DYATJYsh32AiA6fC/Q9AAUJEU1X1O0Aq/ZhoAOAPhO1nWABhJw2UNoMowjdG16oIBcrWy/IPMx6Pk9eV2iyoACQ75OkwDxF4+JdEXT8jMaCTznF5ZJoNtR60BkKWwaYDgwZpfY/FXzzNj0/3IGgAEJ6gCjN29ma3KwDOLAKRZ0wBhrpGglnoy2HaMLHyeyYy98XVaAqAiuGgaIFcf+ns2XMRJAdD0ommA8Xu3yNidG+Td7etk4Gxr3m2ULgA7S3UN6DFlgIlyB+gpcwBQ+EFWqGmFTwggnTqyp6p8AXjwNm/4kgZwg+N6Ab7SCv9oXxUdAB5ME4/eD5rGnRdpQGjhIy21dADcdS0MDSUFEKC8qxAdi/c+Q0ufPAcqEjw7biHA+1Szg95vFU1xV0NlgmdjRZ95no3GhNrtVMP/CQHGijnzcVdDcX4t5rRTdzF6PkW7bTbSR373Ia3cpsPzYJrabmNU2h6ddNedSvBgWDvyDcx2WjthEwJ7gviZTUwpKOaur9YuXQmBDSd5djLJg7kkD76v+ot2Jc68E0CHrruNLVu2bDGlrJ8c/urSuEn7XgAAAABJRU5ErkJggg==',
          'Powerpoint'),
    'pptx':('data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAADAAAAAwCAYAAABXAvmHAAAACXBIWXMAAAsTAAALEwEAmpwYAAAC4ElEQVR4nO2YS2gTQRzGF/VgPVuPpsXSQ3eshdbXqVDMEtlN1UN8HqTZYouCVJTsiIfgTcWbD0o0mp3GKq1oC55E2AbbKn3dakISCVjwUNtLlZ1a24xs0oqG2uxmJ2si+8F32NnL95v/fx67DGPLli1b/5UUkauJtDsvDHm5XkXkphSvc17xcksqgksYSXMYwSksS71Yhudx6MouphSk+Ju3RLzcGUV0jg6JHFnPGMH1LcMRVZZOkz7P5n8TXuRcisjF/xY8LwDKWpVhDIcgZ1nwiXPCNkXkHuYLrhcAr4EgKUD6LlUUNfxIp3OHIjon9YY3AoCzHl8IXq0sWvgh0RkzEr4AAKK1FHWIbNsYm/lCAfBqJchj/1ZqAEZ6nhIAURHsNhQy0OToCjQ5vj1ochAzDu6vJgOte00DYATJYsh32AiA6fC/Q9AAUJEU1X1O0Aq/ZhoAOAPhO1nWABhJw2UNoMowjdG16oIBcrWy/IPMx6Pk9eV2iyoACQ75OkwDxF4+JdEXT8jMaCTznF5ZJoNtR60BkKWwaYDgwZpfY/FXzzNj0/3IGgAEJ6gCjN29ma3KwDOLAKRZ0wBhrpGglnoy2HaMLHyeyYy98XVaAqAiuGgaIFcf+ns2XMRJAdD0ommA8Xu3yNidG+Td7etk4Gxr3m2ULgA7S3UN6DFlgIlyB+gpcwBQ+EFWqGmFTwggnTqyp6p8AXjwNm/4kgZwg+N6Ab7SCv9oXxUdAB5ME4/eD5rGnRdpQGjhIy21dADcdS0MDSUFEKC8qxAdi/c+Q0ufPAcqEjw7biHA+1Szg95vFU1xV0NlgmdjRZ95no3GhNrtVMP/CQHGijnzcVdDcX4t5rRTdzF6PkW7bTbSR373Ia3cpsPzYJrabmNU2h6ddNedSvBgWDvyDcx2WjthEwJ7gviZTUwpKOaur9YuXQmBDSd5djLJg7kkD76v+ot2Jc68E0CHrruNLVu2bDGlrJ8c/urSuEn7XgAAAABJRU5ErkJggg==',
          'Powerpoint'),
    'txt':('data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAEAAAABACAYAAACqaXHeAAAACXBIWXMAAAsTAAALEwEAmpwYAAAEA0lEQVR4nO2bW08TQRTH+8QDH8DPpF+EGLt+AENI44OC7u6L+mAxYQ0xLdZoDE8kCpr4oEYUGu4kEOgFRWm5FLbd3Zk9Ztpus132WmZ3WtqTnGQzLbP7/82ZM2dmaSw2sIENbGAdWHIkOSxw0pgQlzYFTlJFTgIGXhQ4aSKRyAzFojT+9vQNMT71i5HoS04gRCpe4KZWyY2TiUzrIdTj3cCOzooA1ZO64/ND23azm79DfD+73IqEyMSLcWmF3HQykYG5ldOOAVxVvHayB7pcbt2fifgPu0pHAGiJJ59FAoB3EN8JAJriIwHAu4gPCoC2+NAB8B7i/QDA1ePQxIcKgPch3gsAkv8BMQIhDPGhAeB9incDgOQStJlWDSyegHMTHwqA5Ehy2ChyXtx/A3OrZ47ivSIAGxCUi8DitcpB/U915dxRfCgABE4aM4ocL/Hvv+TrN39+L+Wc8FS5I/E6VhvwdB1AvYgQQFzaDFqKLryep5btUbUMtoaUyCJA9SucjPznzDxUj3boLnVKBUDHpgiQo4sAkWFt35bwyNwn5iK+qwCgMNZ5reYqvmsAoJCKHD/OHABiKJ4pgK3vi5AcTTE/DPHtcSnPcy9vUQMwOZpmLyqgC3elAhUA6KzY6vTBj1pPuO+pInoAMOZ2XwJApsTWdwCQJdvTBPD4Zw0mFrsYALJZ6vwAyFea5ayN5Sq4/p2HizWoqDocynobBHJ9cK7X+wjSH3UAyGGd9wMg5/OBiXhiC3mt1Uauif2V9cD9UQOAXIqcoFPAMLvPpjcaW18VAzzLKvAkq4DS1JreVgP3RwUA8qjwaAIgvlZqKF4vYVgvN6/LzqMaOgDwKG9pAzCPuhENT7MKWwDYpbanDcA87635gAkA7LGxCQPAp0IXAVA9dnW0AZBwJ2FvGJkOZFowBYBctrS0AWw0E9+aKQmSa2YAkMd+niaA1FZjGVRQY9TNCfHVJqNlEDwOM2gCIBUfsY+5y4VQwaHAiRwAtpzkBAVAKjWnau3rb1QP+3FLKbx9jOHbHxS4P+oAsM0x1rXfDYLHGV5fAMDmWkAugXaau/SfGdcWAG4Tf0Re0QBgDaB22h8A1Law3wcgLyvJK6vm1JgcnYn0QJPZoajWOrdvjLzhu0tbPQVB4KS8eEe6GQiAdsWXFl5uTbCduO/Q9mtis8NeEB8qAL0HxIcKAHpAfM8BwJTF9xQAHIL4SACk+VmYEWfbxARtM4tPPXoLaf5dm4irtIUOQLSJiKBtdg9Mu20AgJaJlpEkIWwNbT9tJOxJuFpDlnZbVyZBHFLCiyoJFkmHhfWdrhe/t7xE/yczAidNsN64BPb41Dg1AIlEZqgJoR4JXe5sfjY3sIENLHZd7D/x1k4dCUv1GwAAAABJRU5ErkJggg==',
          'Txt'),
    'doc':('data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAADAAAAAwCAYAAABXAvmHAAAACXBIWXMAAAsTAAALEwEAmpwYAAACOElEQVR4nO2ZQWgTQRSGh+DFq70VD2lvQuKpV714cGtLu3ioiiJeWr0oaSnSm0KhKnabJiKYYhHRQxORBmLqoYVKqaGGWmizAYsaCBhDpdCkqatpap68l3QO4kHJsBnN/PDDzts34f+YN3sJY0pKSkr/pFz31q64/Ym822+CPU7kXX7zsjAAe8ObZJfPzAkEsDe8u2oFsC91An41Qv/rCGmGh2nGDtMMqMWOznFoHpipC8BOreE5RMc4uIdNoWZ/AAAirQCGG/kEjg8GARVZ+shrR3ofwb5ODD3j9Wg8RTXcIw3AwS4ffN/dgy85i9f6fLMc4MaTGK9vbH2lXtwjDQDTDHidzFDYlksPaf14LgnFUgVqdiVNNXyHwl6pRohpBtwJxSncmZEXtE5lc7D07jNMx95DwdqFAx1eOHc7Sj3YKx1A180whTOeL0Pz+QA9e6ffwvXJBXpuu/qU1ijslQ6gqec+lMsAi8kMnQKqZyQCxwan6NnzYJ5GB3uw99f9Rz1vhJr9LQA6md6Eb8USBGZWKfThCxN0WfEuhGMfwCqWqOd3e6UACFSDb1tF+LRZ4PX4ehZKez/oHfZIC3Dx7kv+6QwtrPO6L7zC69gjLUBr9TOJ6g+84vWztyp3AoU90gKwGqwAPI13AqMFUeEdp7x1ADhpXBMB4WgfKx/qnLRaT4e2RJqJUosehHqYKYCq1AnoaoQafIScejBvd3hn95S4PziceqgPf9DO8E492CsMQElJSYmJ0E+635eFCoKREwAAAABJRU5ErkJggg==',
          'Microsoft Word'),
    'docx':('data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAADAAAAAwCAYAAABXAvmHAAAACXBIWXMAAAsTAAALEwEAmpwYAAACOElEQVR4nO2ZQWgTQRSGh+DFq70VD2lvQuKpV714cGtLu3ioiiJeWr0oaSnSm0KhKnabJiKYYhHRQxORBmLqoYVKqaGGWmizAYsaCBhDpdCkqatpap68l3QO4kHJsBnN/PDDzts34f+YN3sJY0pKSkr/pFz31q64/Ym822+CPU7kXX7zsjAAe8ObZJfPzAkEsDe8u2oFsC91An41Qv/rCGmGh2nGDtMMqMWOznFoHpipC8BOreE5RMc4uIdNoWZ/AAAirQCGG/kEjg8GARVZ+shrR3ofwb5ODD3j9Wg8RTXcIw3AwS4ffN/dgy85i9f6fLMc4MaTGK9vbH2lXtwjDQDTDHidzFDYlksPaf14LgnFUgVqdiVNNXyHwl6pRohpBtwJxSncmZEXtE5lc7D07jNMx95DwdqFAx1eOHc7Sj3YKx1A180whTOeL0Pz+QA9e6ffwvXJBXpuu/qU1ijslQ6gqec+lMsAi8kMnQKqZyQCxwan6NnzYJ5GB3uw99f9Rz1vhJr9LQA6md6Eb8USBGZWKfThCxN0WfEuhGMfwCqWqOd3e6UACFSDb1tF+LRZ4PX4ehZKez/oHfZIC3Dx7kv+6QwtrPO6L7zC69gjLUBr9TOJ6g+84vWztyp3AoU90gKwGqwAPI13AqMFUeEdp7x1ADhpXBMB4WgfKx/qnLRaT4e2RJqJUosehHqYKYCq1AnoaoQafIScejBvd3hn95S4PziceqgPf9DO8E492CsMQElJSYmJ0E+635eFCoKREwAAAABJRU5ErkJggg==',
          'Microsoft Word'),
    'xslx':('data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAADAAAAAwCAYAAABXAvmHAAAACXBIWXMAAAsTAAALEwEAmpwYAAADGUlEQVR4nO2Za0hTYRzG9z0vu59JpK3vedvmTHOmM1OnE0wqbZWJjjTNS2nz7jZvFVmJUTOCchF0+RaBiAThQkgQKSKKbjohIqMIKlG3J3aiVXicw3PaMToPPF/eT7/fe/7vew4cHo8LFy5c/qlssht1cnvpjNxuxGqqcJhX1dhRs1M5as6kLbBx0OhcLTwdAYVHwtE+TVuADjxdAYXDDE5Azj0BMzdCtLLhTCH8aXifAREXiyC/WhrYQ0z06HVET+4M0a0H0ZUDojMb0g4dpNYsSC1ZkJgzIWnPgKRtB8Rt6RC3pkPcsh2i5jSImrQQNqZC2JACUYMWMose4f2GPyT+vkC33kkXXmhKgeD4NkhMqVB1FyHJVoHkKzVk6V4CPD8EGIEX1CdDUK+BqusAEs+XB1Cgizl4fl3SD4H+sgAKdDIHzz/GgoCUAn69NRsvZ2fgSeuQzQsffaoQcwvz+DY/h5gTBUvg+Ue3siBgpd75/dfbSYHZL58QYckhd/7W5Ai5Zh26RAkfWpvIgoBl+bEZef6QBO4YvgxNXwlcbjdevHdC1phGCR9akxB4AYmPmU84V4z5xQV8/PoZY68fwe12Q2+rXhY+tHoLCwLtvg/sBcdt/MyNiWGf8CFV8SwItPm+bezjd70CNyeGfcKHHImHOCcS0l0KyAxqsvzmVFrlrRRf8DkDNeTYjE89wYNXk6RE3kDtsvAhlWoWBFqp4cOa0/Hs3RsSWm+rgrbPSMpMfXiLMJOWEj64Mo4FgRbql9Tpe9dI+OGnY96xufP4PrnWOzJICR9coQq8gIgCPqH3IHn7uNwuaM4We2de2VOABdci2cST+5bABx1WsiDQtPLnga+Z/x0+qJwFASGD8EFlChYEGpiDX3coNvACAlOKkyn4oJJoFgTqNZn8Oo2TCXjBzkiIc6NA7P4lQLc8uhHpNsPfivVRkObHgChQrR0BSV4M/KnU0/xYELuVkO2NWzsCxB4l/K5n5xmElzEhwCSMjBP4H58AYVA72YInDGr6PzhkhepMNiQIg3paZojPoC3AhQsXLjwm8x3YSSmFlSW/AQAAAABJRU5ErkJggg==',
           'Excel')
}

def make_points(texts: List[str], metadatas: List[dict], dense: List[List[float]], sparse: List[SparseEmbedding])-> List[PointStruct]:
    points = []
    for idx, (text, metadata, sparse_vector, dense_vector) in enumerate(zip(texts, metadatas, sparse, dense)):
        sparse_vec = SparseVector(indices=sparse_vector.indices.tolist(), values=sparse_vector.values.tolist())
        point = PointStruct(
            id=idx,
            vector={
                "text-sparse": sparse_vec,
                "text-dense": dense_vector,
            },
            payload={
                "text": text,
                "metadata": metadata
            }
        )
        points.append(point)
    return points

def transform_query(query: str) -> str:
    """ For retrieval, add the prompt for query (not for documents).
    """
    return f'Represent this sentence for searching relevant passages: {query}'

def query_hybrid_search(query: str, client: QdrantClient, collection_name: str, dense_model: OptimumEncoder, sparse_model: SparseTextEmbedding):
    dense_embeddings = dense_model.embed_query(transform_query(query))[0]
    sparse_embeddings = list(sparse_model.query_embed(query))[0]
    
    return client.query_points(
        collection_name=collection_name,
        prefetch=[
            Prefetch(query=sparse_embeddings.as_object(), using="text-sparse", limit=10),
            Prefetch(query=dense_embeddings, using="text-dense", limit=10)
        ],
        query=FusionQuery(fusion=Fusion.RRF),
        limit=3
    )

def main(query: str, client: QdrantClient, collection_name: str, tokenizer: AutoTokenizer, llm: vllm.LLM, dense_model: OptimumEncoder, sparse_model: SparseTextEmbedding):
    scored_points = query_hybrid_search(query, client, collection_name, dense_model, sparse_model).points

    docs = [(scored_point.payload['text'], scored_point.payload['metadata']) for scored_point in scored_points]
    contents, metadatas = [list(t) for t in zip(*docs)]

    context = "\n".join(contents)
    
    seen_values = set()
    result_metadatas = "\n\n".join(
        f'{value}'
        for metadata in metadatas
        for key, value in metadata.items()
        if (value not in seen_values and not seen_values.add(value))
    )

    args = {'context': context, 'query': query}
    messages = [
        {"role": "system", "content": 'You are a helpful assistant.'},
        {"role": "user", "content": st.session_state.toggle_docs['qa_prompt'].format(**args)}
    ]
    prompts = tokenizer.apply_chat_template(messages, tokenize=False)
    
    outputs = llm.generate(
        prompts=prompts, 
        sampling_params=vllm.SamplingParams(
            temperature=0, 
            max_tokens=3000
        )
    )
    print(f'TEXT: {outputs}')

    text = outputs[0].outputs[0].text

    messages_2 = [
        {"role": "system", "content": """Act like a professional summary writer. You have been providing summarization services for various types of documents, including academic papers, legal texts, and business reports, for over 20 years. 
        Your expertise includes extracting key points and important details concisely without adding unnecessary introductory phrases."""
        },
        {"role": "user", "content": f"""Write a summary of the following text delimited by triple backquotes. Ensure the summary covers the key points of the text. Do not introduce the summary with sentences like "Here is the summary:" or similar. The summary should be detailed, precise, and directly convey the essential information from the text.
        
        ```{text}```
        
        Let's think step-by-step."""
        }
    ]
    prompts_2 = tokenizer.apply_chat_template(messages_2, tokenize=False)

    outputs_2 = llm.generate(
        prompts=prompts_2, 
        sampling_params=vllm.SamplingParams(
            temperature=0.3, 
            max_tokens=3000
        )
    )
    
    answer = outputs_2[0].outputs[0].text
    answer_with_metadatas = f"{answer}\n\n\nSource(s) :\n\n{result_metadatas}"

    if st.session_state.documents_only:
        return answer if 'no_answer' in text else answer_with_metadatas
    else:
        return f'Internal Knowledge :\n\n{answer}' if 'knowledge_topic' in text else f'Documents Based :\n\n{answer_with_metadatas}'

@st.cache_resource(show_spinner=False)
def load_models_and_documents():
    container = st.empty()
    
    with container.status("Load AI Models and Prepare Documents...", expanded=True) as status:
        st.write('Downloading Mistral Nemo AI Model...')
        model_path = snapshot_download(repo_id="GameScribes/Mistral-Nemo-AWQ")

        st.write('Loading Mistral Nemo AI Model with vLLM backend...')
        tokenizer = AutoTokenizer.from_pretrained(model_path)
        
        llm = vllm.LLM(
            model_path,
            tensor_parallel_size=1,
            max_model_len=12288,
            trust_remote_code=True,
            enforce_eager=True,
            quantization="awq",
            gpu_memory_utilization=0.9,
            dtype='auto'
        )
        model = models.VLLM(llm)

        st.write('Downloading and Loading Embeddings Models...')

        dense_model = OptimumEncoder(
            device="cuda",
            cache_dir=os.getenv('HF_HOME')
        )
        
        sparse_model = SparseTextEmbedding(
            'Qdrant/bm42-all-minilm-l6-v2-attentions',
            cache_dir=os.getenv('HF_HOME'),
            providers=['CPUExecutionProvider']
        )

        st.write('Loading Natural Language Processing Model for English...')

        nlp = spacy.load("en_core_web_sm")

        download_nltk_packages()

        st.write('Creating Collection for our Qdrant Vector Database in RAM memory...')
        
        client = QdrantClient(':memory:')
        collection_name = 'collection_demo'
        
        client.create_collection(
            collection_name,
            {
                "text-dense": VectorParams(
                    size=1024,
                    distance=Distance.COSINE,
                    on_disk=False
                )
            },
            {
                "text-sparse": SparseVectorParams(
                    index=SparseIndexParams(
                        on_disk=False
                    ),
                    modifier=Modifier.IDF
                )
            },
            2,
            optimizers_config=OptimizersConfigDiff(
                indexing_threshold=0,
                default_segment_number=4
            ),
            hnsw_config=HnswConfigDiff(
                on_disk=False, 
                m=32,
                ef_construct=200
            )
        )
        
        name = 'action_rpg'
        embeddings_path = os.path.join(os.getenv('HF_HOME'), 'embeddings')

        texts_path = os.path.join(embeddings_path, name + '_texts')
        metadatas_path = os.path.join(embeddings_path, name + '_metadatas')
        dense_path = os.path.join(embeddings_path, name + '_dense.npz')
        sparse_path = os.path.join(embeddings_path, name + '_sparse.npz')

        if not os.path.exists(embeddings_path):
            os.mkdir(embeddings_path)

            st.write('Downloading and Loading Video Games Dataset coming from Wikipedia...')

            docs_1 = WikipediaLoader(query='Action-RPG').load()
            docs_2 = WikipediaLoader(query='Real-time strategy').load()
            docs_3 = WikipediaLoader(query='First-person shooter').load()
            docs_4 = WikipediaLoader(query='Multiplayer online battle arena').load()
            docs_5 = WikipediaLoader(query='List of video game genres').load()
            docs = docs_1 + docs_2 + docs_3 + docs_4 + docs_5

            texts, metadatas = [], []
            for doc in docs:
                texts.append(doc.page_content)
                del doc.metadata['title']
                del doc.metadata['summary']
                metadatas.append(doc.metadata)

            st.write('Transforming the Wikipedia Video Games Dataset into ingestable format for our Qdrant Vector Database...')
            
            docs_texts, docs_metadatas, dense_embeddings, sparse_embeddings = chunk_documents(texts, metadatas, dense_model, sparse_model)

            st.write('Saving on disk the Wikipedia Video Games Dataset into quickly ingestable format...')

            with open(texts_path, "wb") as outfile_texts:
                packed_texts = msgpack.packb(docs_texts, use_bin_type=True)
                outfile_texts.write(packed_texts)

            with open(metadatas_path, "wb") as outfile_metadatas:
                packed_metadatas = msgpack.packb(docs_metadatas, use_bin_type=True)
                outfile_metadatas.write(packed_metadatas)
            
            np.savez_compressed(dense_path, *dense_embeddings)
            max_index = 0
            for embedding in sparse_embeddings:
                if embedding.indices.size > 0:
                    max_index = max(max_index, np.max(embedding.indices))
        
            sparse_matrices = []
            for embedding in sparse_embeddings:
                data = embedding.values
                indices = embedding.indices
                indptr = np.array([0, len(data)])
                matrix = csr_matrix((data, indices, indptr), shape=(1, max_index + 1))
                sparse_matrices.append(matrix)
            
            combined_sparse_matrix = vstack(sparse_matrices)
            save_npz(sparse_path, combined_sparse_matrix)
        else:
            st.write('Loading the saved documents on disk')
            
            with open(texts_path, "rb") as data_file_texts:
                decompressed_texts = data_file_texts.read()
                
            with open(metadatas_path, "rb") as data_file_metadatas:
                decompressed_metadatas = data_file_metadatas.read()
                
            docs_texts = msgpack.unpackb(decompressed_texts, raw=False)
            docs_metadatas = msgpack.unpackb(decompressed_metadatas, raw=False)

            dense_embeddings = list(np.load(dense_path).values())

            sparse_embeddings = []
            loaded_sparse_matrix = load_npz(sparse_path)
        
            for i in range(loaded_sparse_matrix.shape[0]):
                row = loaded_sparse_matrix.getrow(i)
                values = row.data
                indices = row.indices
                embedding = SparseEmbedding(values, indices)
                sparse_embeddings.append(embedding)

        st.write('Ingesting saved documents on disk into our Qdrant Vector Database...')
        
        client.upsert(
            collection_name,
            make_points(
                docs_texts, 
                docs_metadatas,
                dense_embeddings, 
                sparse_embeddings
            )
        )
        
        client.update_collection(
            collection_name=collection_name,
            optimizer_config=OptimizersConfigDiff(indexing_threshold=20000)
        )
        status.update(
            label="Processing Complete!", state="complete", expanded=False
        )
        
    time.sleep(5)
    container.empty()
    
    return client, collection_name, tokenizer, model, llm, dense_model, sparse_model, nlp

def chunk_documents(texts: List[str], metadatas: List[dict], dense_model: OptimumEncoder, sparse_model: SparseTextEmbedding):
    text_splitter = SemanticChunker(
        dense_model,
        breakpoint_threshold_type='standard_deviation'
    )
    docs = text_splitter.create_documents(texts, metadatas)
    documents, metadatas_docs = zip(*[(doc.page_content, doc.metadata) for doc in docs])

    documents = list(documents)
    metadatas_docs = list(metadatas_docs)

    start_dense = time.time()
    dense_embeddings = dense_model.embed_documents(documents)
    end_dense = time.time()
    final_dense = end_dense - start_dense
    print(f'DENSE TIME: {final_dense}')

    start_sparse = time.time()
    sparse_embeddings = list(sparse_model.embed(documents, 32))
    end_sparse = time.time()
    final_sparse = end_sparse - start_sparse
    print(f'SPARSE TIME: {final_sparse}')
    
    return documents, metadatas_docs, dense_embeddings, sparse_embeddings

def on_change_documents_only():
    if st.session_state.documents_only:
        st.session_state.toggle_docs = {
            'qa_prompt': """You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, reply with 'no_answer'. Use three sentences maximum and keep the answer concise.
            
            Question: {query} 
            
            Context: {context} 
            
            Answer:""",
            'tooltip': 'The AI answer your questions only considering the documents provided',
            'display': True
        }
    else:
        st.session_state.toggle_docs = {
            'qa_prompt': """If the context is not relevant, please answer the question by using your own knowledge about the topic.
            If you decide to provide information using your own knowledge or general knowledge, write 'knowledge_topic' at the top of your answer.
        
            {context}

            Question: {query}""",
            'tooltip': """The AI answer your questions considering the documents provided, and if it doesn't found the answer in them, try to find in its own internal knowledge""",
            'display': False
        }
    
    
if __name__ == '__main__':
    st.set_page_config(page_title="Multipurpose AI Agent",layout="wide", initial_sidebar_state='collapsed')

    client, collection_name, tokenizer, model, llm, dense_model, sparse_model, nlp = load_models_and_documents()

    if 'menu_id' not in st.session_state:
        st.session_state.menu_id = 'ChatBot'

    styles = {
        "nav": {
            "background-color": "rgb(204, 200, 194)",
        },
        "div": {
            "max-width": "32rem",
        },
        "span": {
            "border-radius": "0.5rem",
            "color": "rgb(125, 102, 84)",
            "margin": "0 0.125rem",
            "padding": "0.4375rem 0.625rem",
        },
        "active": {
            "background-color": "rgba(255, 255, 255, 0.25)",
        },
        "hover": {
            "background-color": "rgba(255, 255, 255, 0.35)",
        },
    }
    
    st.session_state.menu_id = st_navbar(
        ['ChatBot', 'Documents'], 
        st.session_state.menu_id,
        options={
            'hide_nav': False,
            'fix_shadow': False,
            'use_padding': False
        },
        styles=styles
    )
    st.title('Multipurpose AI Agent')
    #st.markdown("<h1 style='position: fixed; top: 0; left: 0; width: 100%; padding: 10px; text-align: left; color: black;'>Multipurpose AI Agent</h1>", unsafe_allow_html=True)

    if 'df' not in st.session_state:
        st.session_state.df = pd.DataFrame([0])
    
    if st.session_state.menu_id == 'Documents':
        st.session_state.df = st.data_editor(
            st.session_state.df, 
            num_rows="dynamic",
            use_container_width=True,
            hide_index=True,
            column_config={
                'icon': st.column_config.ImageColumn(
                    'Document'
                ),
                "document": st.column_config.TextColumn(
                    "Name",
                    help="Name of the document",
                    required=True
                ),
                "type": st.column_config.SelectboxColumn(
                    'File type',
                    help='The file format extension of this document',
                    required=True,
                    options=[
                        'Powerpoint',
                        'Microsoft Word',
                        'Excel'
                    ]
                ),
                "path": st.column_config.TextColumn(
                    'Path',
                    help='Path to the document',
                    required=False
                ),
                "time": st.column_config.DatetimeColumn(
                    'Date and hour',
                    help='When this document has been ingested here for the last time',
                    format="D MMM YYYY, h:mm a",
                    required=True
                ),
                "toggle": st.column_config.CheckboxColumn(
                    'Enable/Disable',
                    help='Either to enable or disable the ability for the ai to find this document',
                    required=True,
                    default=True
                )
            }
        )

    conversations_path = os.path.join(os.getenv('HF_HOME'), 'conversations')
    try:
        with open(conversations_path, 'rb') as fp:
            packed_bytes = fp.read()
        conversations: Dict[str, list] = msgpack.unpackb(packed_bytes, raw=False)
    except:
        conversations = {}

    if st.session_state.menu_id == 'ChatBot':
        if 'id_chat' not in st.session_state:
            st.session_state.id_chat = 'New Chat'

        def options_list(conversations: Dict[str, list]):
            if st.session_state.id_chat == 'New Chat':
                return [st.session_state.id_chat] + list(conversations.keys())
            else:
                return ['New Chat'] + list(conversations.keys())
        
        with st.sidebar:
            st.session_state.id_chat = st.selectbox(
                label='Choose a conversation',
                options=options_list(conversations),
                index=0,
                placeholder='_',
                key='chat_id'
            )

            st.session_state.messages = conversations[st.session_state.id_chat] if st.session_state.id_chat != 'New Chat' else []
            
            def update_selectbox_remove(conversations_path, conversations):
                conversations.pop(st.session_state.chat_id)
                with open(conversations_path, 'wb') as fp:
                    packed_bytes = msgpack.packb(conversations, use_bin_type=True)
                    fp.write(packed_bytes)
                st.session_state.chat_id = 'New Chat'
                    
            
            st.button(
                'Delete Chat', 
                use_container_width=True, 
                disabled=False if st.session_state.id_chat != 'New Chat' else True,
                on_click=update_selectbox_remove,
                args=(conversations_path, conversations)
            )

        def generate_conv_title(llm: vllm.LLM, tokenizer: AutoTokenizer):
            if st.session_state.chat_id == 'New Chat':
                messages = [
                    {"role": "system", "content": 'You are a helpful assistant.'},
                    {"role": "user", "content": f"""Understand the question of the user. 
                    Resume in one single sentence what is the subject of the conversation and what is the user talking about.
                    
                    Question : {st.session_state.user_input}"""
                    }
                ]
                prompts = tokenizer.apply_chat_template(messages, tokenize=False)
                outputs = llm.generate(
                    prompts=prompts, 
                    sampling_params=vllm.SamplingParams(
                        temperature=0.3, 
                        max_tokens=30
                    )
                )
                st.session_state.chat_id = outputs[0].outputs[0].text
                st.session_state.messages = []
                
                conversations.update({st.session_state.chat_id: st.session_state.messages})
                with open(conversations_path, 'wb') as fp:
                    packed_bytes = msgpack.packb(conversations, use_bin_type=True)
                    fp.write(packed_bytes)
                    
        for message in st.session_state.messages:
            with st.chat_message(message["role"]):
                st.markdown(message["content"])     
                
        if prompt := st.chat_input(
            "Message Video Game Assistant", 
            on_submit=generate_conv_title, 
            key='user_input',
            args=(llm, tokenizer)
        ):
            st.chat_message("user").markdown(prompt)
            st.session_state.messages.append({"role": "user", "content": prompt})
            
            ai_response = main(prompt, client, collection_name, tokenizer, llm, dense_model, sparse_model)
            with st.chat_message("assistant"):
                message_placeholder = st.empty()
                full_response = ""
                for chunk in re.split(r'(\s+)', ai_response):
                    full_response += chunk + " "
                    time.sleep(0.2)
                    message_placeholder.write(full_response + '▌')
                message_placeholder.write(re.sub('▌', '', full_response))
                                          
            st.session_state.messages.append({"role": "assistant", "content": full_response})
                
            conversations.update({st.session_state.id_chat: st.session_state.messages})
            with open(conversations_path, 'wb') as fp:
                packed_bytes = msgpack.packb(conversations, use_bin_type=True)
                fp.write(packed_bytes)

        @st.dialog('URL Ingested !')
        def url_ingested():
            main_thread = threading.main_thread()
            while True:
                L = threading.enumerate()
                L.remove(main_thread)
                for t in L:
                    t.join()
        @st.dialog('Documents Ingested !')
        def documents_ingested():
            main_thread = threading.main_thread()
            while True:
                L = threading.enumerate()
                L.remove(main_thread)
                for t in L:
                    t.join()

        with st.sidebar:
            st.divider()
            
            if 'toggle_docs' not in st.session_state:
                st.session_state.toggle_docs = {
                    'qa_prompt': """You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, reply with 'no_answer'. Use three sentences maximum and keep the answer concise.
                    
                    Question: {query} 
            
                    Context: {context} 
            
                    Answer:""",
                    'tooltip': 'The AI answer your questions only considering the documents provided',
                    'display': True
                }
                
            st.toggle(
                label="""Enable 'Documents-Only' Mode""", 
                value=st.session_state.toggle_docs['display'],
                on_change=on_change_documents_only, 
                key="documents_only",
                help=st.session_state.toggle_docs['tooltip']
            )

            st.divider()
            
            url = st.text_input("Scrape an URL link :")
            if validators.url(url):
                docs = WebBaseLoader(url).load()
                print(f'WebBaseLoader: {docs[0].metadata}')
                
                texts, metadatas = [], []
                for doc in docs:
                    texts.append(doc.page_content)
                    del doc.metadata['title']
                    del doc.metadata['description']
                    del doc.metadata['language']
                    metadatas.append(doc.metadata)

                texts, metadatas, dense_embeddings, sparse_embeddings = chunk_documents(texts, metadatas, dense_model, sparse_model)
        
                client.upsert(
                    collection_name,
                    make_points(
                        texts,
                        metadatas,
                        dense_embeddings, 
                        sparse_embeddings
                    )
                )
                
                url_ingested()
            
            st.divider()
        
            uploaded_files = st.file_uploader("Upload a file :", accept_multiple_files=True, type=['pptx', 'ppt'])
            print(f'uploaded-files : {uploaded_files}')
            for uploaded_file in uploaded_files:
                
                processing_time = datetime.now().strftime('%d %b %Y, %I:%M %p')
                file_name = os.path.basename(uploaded_file.name)
                base_name, ext = os.path.splitext(file_name)

                full_path = os.path.realpath(uploaded_file.name)
                file_type = ext.lstrip('.')

                d = {
                    'icon': icon_to_types[file_type][0],
                    'document': base_name, 
                    'type': icon_to_types[file_type][1],
                    'path': full_path,
                    'time': [datetime.strptime(processing_time, '%d %b %Y, %I:%M %p')],
                    'toggle': True
                }
                st.session_state.df = pd.concat([st.session_state.df, pd.DataFrame(data=d)])

                elements = partition_pptx(file=uploaded_file)
                
                for elem in elements:
                    elem.text = clean(elem.text, bullets=True)
                    text_type = elem.to_dict()['type']
                    print(f'UNSTRUCTURED TEXT: {text_type} , {elem.text}')

                weakDict = ppt_chunk(uploaded_file, nlp)
                documents = weakDict.all_texts()

                dense_embeddings = dense_model.embed_documents(documents)
                sparse_embeddings = list(sparse_model.embed(documents, 32))

                client.upload_collection(
                    collection_name=collection_name,
                    ids=weakDict.all_ids(),
                    payload={
                        'texts': documents,
                        'metadatas':
                    },
                    vectors={
                        'text-dense': dense_embeddings,
                        'text-sparse': sparse_embeddings
                    },
                    parallel=4,
                    max_retries=3
                )

                documents_ingested()