Spaces:

GameScribes
/

Multipurpose-AI-Agent-Development

Paused

App Files Files Community

devve1 commited on Aug 12

Commit

f914f00

•

1 Parent(s): 0b0b8b2

Update app.py

Browse files

Files changed (1) hide show

app.py +54 -65

app.py CHANGED Viewed

@@ -585,8 +585,8 @@ if __name__ == '__main__':
                 packed_bytes = msgpack.packb(conversations, use_bin_type=True)
                 fp.write(packed_bytes)
-        if "dialog_open" not in st.session_state:
-            st.session_state.dialog_open = False
         with st.sidebar:
             st.divider()
@@ -639,7 +639,7 @@ if __name__ == '__main__':
                     )
                 )
-                st.session_state.dialog_open = True
             st.divider()
@@ -647,75 +647,64 @@ if __name__ == '__main__':
             for uploaded_file in uploaded_files:
-                file_name = os.path.basename(uploaded_file.name)
-                base_name, ext = os.path.splitext(file_name)
-                print(f'session state : {st.session_state.df.keys}')
-                processing_time = datetime.now().strftime('%d %b %Y, %I:%M %p')
-                full_path = os.path.realpath(uploaded_file.name)
-                file_type = ext.lstrip('.')
-                d = {
-                    'icon': icon_to_types[file_type][0],
-                    'document': base_name,
-                    'type': icon_to_types[file_type][1],
-                    'path': full_path,
-                    'time': [datetime.strptime(processing_time, '%d %b %Y, %I:%M %p')],
-                    'toggle': True
-                }
-                if (st.session_state.df.empty) or (base_name not in st.session_state.df['document'].tolist()):
-                    st.session_state.df = pd.concat(
-                        [st.session_state.df, pd.DataFrame(data=d)]
-                    )
-                else:
-                    idx = st.session_state.df.index[st.session_state.df['document']==base_name].tolist()[0]
-                    st.session_state.df.loc[idx] = d
-                st.session_state.df.to_parquet(
-                    os.path.join(
-                        data_editor_path,
-                        'data_editor.parquet.sz'
-                    ),
-                    compression='snappy',
-                    engine='pyarrow'
-                )
-                weakDict, tables = ppt_chunk(uploaded_file, nlp)
-                documents = weakDict.all_texts()
-                dense = dense_model.embed_documents(documents)
-                print(f'dense: {type(dense)}')
-                sparse = [SparseVector(indices=s.indices.tolist(), values=s.values.tolist()) for s in sparse_model.embed(documents, 32)]
-                print(f'dense: {type(sparse)}')
-                print(f'LEN: {len(documents)}, {len(weakDict.all_metadatas())}')
-                client.upsert(
-                    collection_name=collection_name,
-                    points=Batch(
-                        ids=weakDict.all_ids(),
-                        payloads=[{ 'text': documents[i], 'metadata': metadata } for i, metadata in enumerate(weakDict.all_metadatas())],
-                        vectors={
-                            'text-dense': dense,
-                            'text-sparse': sparse
-                        }
                     )
-                )
-                st.session_state.dialog_open = True
-                dialog_container = float_dialog(
-                    show=st.session_state.dialog_open,
-                    width=7,
-                    background="#EEE3D3",
-                    transition=20,
-                    transition_from="top",
-                    transition_to="center"
-                )
-                with dialog_container:
-                    st.subheader("Documents Ingested !")
-                    if st.button("Ok", key="ok"):
-                        st.session_state.dialog_open = False
-                        st.rerun()

                 packed_bytes = msgpack.packb(conversations, use_bin_type=True)
                 fp.write(packed_bytes)
+        if "cached_files" not in st.session_state:
+            st.session_state.cached_files = []
         with st.sidebar:
             st.divider()
                     )
                 )
+                st.toast('URL Content Ingested !', icon='🎉')
             st.divider()
             for uploaded_file in uploaded_files:
+                if uploaded_file not in st.session_state.cached_files:
+                    st.session_state.cached_files.append(uploaded_file)
+                    file_name = os.path.basename(uploaded_file.name)
+                    base_name, ext = os.path.splitext(file_name)
+                    print(f'session state : {st.session_state.df.keys}')
+                    processing_time = datetime.now().strftime('%d %b %Y, %I:%M %p')
+                    full_path = os.path.realpath(uploaded_file.name)
+                    file_type = ext.lstrip('.')
+                    d = {
+                        'icon': icon_to_types[file_type][0],
+                        'document': base_name,
+                        'type': icon_to_types[file_type][1],
+                        'path': full_path,
+                        'time': [datetime.strptime(processing_time, '%d %b %Y, %I:%M %p')],
+                        'toggle': True
+                    }
+                    if (st.session_state.df.empty) or (base_name not in st.session_state.df['document'].tolist()):
+                        st.session_state.df = pd.concat(
+                            [st.session_state.df, pd.DataFrame(data=d)]
+                        )
+                    else:
+                        idx = st.session_state.df.index[st.session_state.df['document']==base_name].tolist()[0]
+                        st.session_state.df.loc[idx] = d
+                    st.session_state.df.to_parquet(
+                        os.path.join(
+                            data_editor_path,
+                            'data_editor.parquet.sz'
+                        ),
+                        compression='snappy',
+                        engine='pyarrow'
+                    )
+                    weakDict, tables = ppt_chunk(uploaded_file, nlp)
+                    documents = weakDict.all_texts()
+                    dense = dense_model.embed_documents(documents)
+                    print(f'dense: {type(dense)}')
+                    sparse = [SparseVector(indices=s.indices.tolist(), values=s.values.tolist()) for s in sparse_model.embed(documents, 32)]
+                    print(f'dense: {type(sparse)}')
+                    print(f'LEN: {len(documents)}, {len(weakDict.all_metadatas())}')
+                    client.upsert(
+                        collection_name=collection_name,
+                        points=Batch(
+                            ids=weakDict.all_ids(),
+                            payloads=[{ 'text': documents[i], 'metadata': metadata } for i, metadata in enumerate(weakDict.all_metadatas())],
+                            vectors={
+                                'text-dense': dense,
+                                'text-sparse': sparse
+                            }
+                        )
                     )
+                    st.toast('Document(s) Ingested !', icon='🎉')