Spaces:

Kamarov
/

lotsa_explorer

Running

App Files Files Community

Liu Yiwen commited on 22 days ago

Commit

e6303fa

1 Parent(s): 1d5265e

losta_explorer v0.3.0

Browse files

Files changed (4) hide show

__pycache__/utils.cpython-311.pyc +0 -0
app.py +58 -40
user_input.txt +1 -0
utils.py +65 -29

__pycache__/utils.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/utils.cpython-311.pyc and b/__pycache__/utils.cpython-311.pyc differ

app.py CHANGED Viewed

@@ -21,9 +21,9 @@ class AppError(RuntimeError):
 APP_URL = "http://127.0.0.1:7860" if os.getenv("DEV") else "https://Kamarov-lotsa-explorer.hf.space"
-PAGE_SIZE = 5
 MAX_CACHED_BLOBS = PAGE_SIZE * 10
-TIME_PLOTS_NUM = 5
 _blobs_cache = {}
@@ -209,29 +209,37 @@ def get_page(dataset: str, config: str, split: str, page: str) -> Tuple[str, int
 with gr.Blocks() as demo:
     # 初始化组件
     gr.Markdown("A tool for interactive observation of lotsa dataset, extended from lhoestq/datasets-explorer")
-    cp_dataset = gr.Textbox("Salesforce/lotsa_data", label="Pick a dataset", placeholder="competitions/aiornot")
     cp_go = gr.Button("Explore")
     cp_config = gr.Dropdown(["plain_text"], value="plain_text", label="Config", visible=False)
     cp_split = gr.Dropdown(["train", "validation"], value="train", label="Split", visible=False)
-    cp_goto_next_page = gr.Button("Next page", visible=False)
     cp_error = gr.Markdown("", visible=False)
     cp_info = gr.Markdown("", visible=False)
     cp_result = gr.Markdown("", visible=False)
     # 初始化Salesforce/lotsa_data数据集展示使用的组件
-    componets = []
-    for _ in range(TIME_PLOTS_NUM):
-        with gr.Row():
-            with gr.Column(scale=2):
-                textbox = gr.Textbox("名称或说明")
-                statistics_textbox = gr.DataFrame()
-            with gr.Column(scale=3):
-                plot = gr.Plot()
-            componets.append({"textbox": textbox, "statistics_textbox": statistics_textbox, "plot": plot})
     with gr.Row():
-        cp_page = gr.Textbox("1", label="Page", placeholder="1", visible=False)
-        cp_goto_page = gr.Button("Go to page", visible=False)
     def show_error(message: str) -> dict:
         return {
@@ -240,7 +248,7 @@ with gr.Blocks() as demo:
             cp_result: gr.update(visible=False, value=""),
         }
-    def show_dataset_at_config_and_split_and_page(dataset: str, config: str, split: str, page: str) -> dict:
         try:
             ret = {}
             if dataset != 'Salesforce/lotsa_data':
@@ -248,21 +256,23 @@ with gr.Blocks() as demo:
                 ret[cp_result] = gr.update(visible=True, value=markdown_result)
             else:
                 # 对Salesforce/lotsa_data数据集进行特殊处理
-                df, max_page, info = get_page(dataset, config, split, page)
-                df = clean_up_df(df)
-                for i, rows in df.iterrows():
-                    index = rows['item_id']
                     # 将单行的DataFrame展开为新的DataFrame
-                    df_without_index = rows.drop('item_id').to_frame().T
                     df_expanded = df_without_index.apply(pd.Series.explode).reset_index(drop=True).fillna(0)
-                    df_statistics = create_statistic(df_expanded)
-                    ret.update({
-                        componets[i]["textbox"]: gr.update(value=f"item_id: {index}"),
-                        componets[i]["statistics_textbox"]: gr.update(value=df_statistics),
-                        componets[i]["plot"]: gr.update(value=create_plot(df_expanded))
-                    })
             return {
-                **ret,
                 cp_info: gr.update(visible=True, value=f"Page {page}/{max_page} {info}"),
                 cp_error: gr.update(visible=False, value="")
             }
@@ -274,7 +284,7 @@ with gr.Blocks() as demo:
             next_page = str(int(page) + 1)
             return {
                 **show_dataset_at_config_and_split_and_page(dataset, config, split, next_page),
-                cp_page: gr.update(value=next_page, visible=True),
             }
         except AppError as err:
             return show_error(str(err))
@@ -283,9 +293,10 @@ with gr.Blocks() as demo:
         try:
             return {
                 **show_dataset_at_config_and_split_and_page(dataset, config, split, "1"),
-                cp_page: gr.update(value="1", visible=True),
-                cp_goto_page: gr.update(visible=True),
-                cp_goto_next_page: gr.update(visible=True),
             }
         except AppError as err:
             return show_error(str(err))
@@ -318,17 +329,24 @@ with gr.Blocks() as demo:
         except AppError as err:
             return show_error(str(err))
-    all_outputs = [cp_config, cp_split, cp_page, cp_goto_page, cp_goto_next_page, cp_result, cp_info, cp_error]
-    for componet in componets:
-        all_outputs += list(componet.values())
     cp_go.click(show_dataset, inputs=[cp_dataset], outputs=all_outputs)
     cp_config.change(show_dataset_at_config, inputs=[cp_dataset, cp_config], outputs=all_outputs)
     cp_split.change(show_dataset_at_config_and_split, inputs=[cp_dataset, cp_config, cp_split], outputs=all_outputs)
-    cp_goto_page.click(show_dataset_at_config_and_split_and_page, inputs=[cp_dataset, cp_config, cp_split, cp_page], outputs=all_outputs)
-    cp_goto_next_page.click(show_dataset_at_config_and_split_and_next_page, inputs=[cp_dataset, cp_config, cp_split, cp_page], outputs=all_outputs)
 if __name__ == "__main__":
     app = gr.mount_gradio_app(app, demo, path="/")
-    uvicorn.run(app, host="0.0.0.0", port=7860)

 APP_URL = "http://127.0.0.1:7860" if os.getenv("DEV") else "https://Kamarov-lotsa-explorer.hf.space"
+PAGE_SIZE = 1
 MAX_CACHED_BLOBS = PAGE_SIZE * 10
+TIME_PLOTS_NUM = 1
 _blobs_cache = {}
 with gr.Blocks() as demo:
     # 初始化组件
     gr.Markdown("A tool for interactive observation of lotsa dataset, extended from lhoestq/datasets-explorer")
+    cp_dataset = gr.Textbox("Salesforce/lotsa_data", label="Pick a dataset", interactive=False)
     cp_go = gr.Button("Explore")
     cp_config = gr.Dropdown(["plain_text"], value="plain_text", label="Config", visible=False)
     cp_split = gr.Dropdown(["train", "validation"], value="train", label="Split", visible=False)
+    # cp_goto_next_page = gr.Button("Next page", visible=False)
     cp_error = gr.Markdown("", visible=False)
     cp_info = gr.Markdown("", visible=False)
     cp_result = gr.Markdown("", visible=False)
+    tot_samples = 0
     # 初始化Salesforce/lotsa_data数据集展示使用的组件
+    # componets = []
+    # for _ in range(TIME_PLOTS_NUM):
     with gr.Row():
+        with gr.Column(scale=3):
+            select_box = gr.Dropdown(choices=["items"], label="Select some items", multiselect=True, interactive=True)
+        with gr.Column(scale=1):
+            select_buttom = gr.Button("Show selected items")
+    with gr.Row():
+        with gr.Column(scale=2):
+            statistics_textbox = gr.DataFrame()
+        with gr.Column(scale=3):
+            plot = gr.Plot()
+    user_input_text = gr.Textbox(placeholder="输入一些内容")
+    # componets.append({"select_box": select_box,
+    #                   "statistics_textbox": statistics_textbox,
+    #                   "user_input_text": user_input_text,
+    #                   "plot": plot})
+    # with gr.Row():
+    #     cp_page = gr.Textbox("1", label="Page", placeholder="1", visible=False)
+    #     cp_goto_page = gr.Button("Go to page", visible=False)
     def show_error(message: str) -> dict:
         return {
             cp_result: gr.update(visible=False, value=""),
         }
+    def show_dataset_at_config_and_split_and_page(dataset: str, config: str, split: str, page: str|List[str]) -> dict:
         try:
             ret = {}
             if dataset != 'Salesforce/lotsa_data':
                 ret[cp_result] = gr.update(visible=True, value=markdown_result)
             else:
                 # 对Salesforce/lotsa_data数据集进行特殊处理
+                if type(page) == str:
+                    page = [page]
+                df_list, id_list = [], []
+                for i, page in enumerate(page):
+                    df, max_page, info = get_page(dataset, config, split, page)
+                    df = clean_up_df(df)
+                    row = df.iloc[0]
+                    id_list.append(row['item_id'])
                     # 将单行的DataFrame展开为新的DataFrame
+                    df_without_index = row.drop('item_id').to_frame().T
                     df_expanded = df_without_index.apply(pd.Series.explode).reset_index(drop=True).fillna(0)
+                    df_list.append(df_expanded)
+                    global tot_samples
+                    tot_samples = max_page
             return {
+                statistics_textbox: gr.update(value=create_statistic(df_list, id_list)),
+                plot: gr.update(value=create_plot(df_list, id_list)),
                 cp_info: gr.update(visible=True, value=f"Page {page}/{max_page} {info}"),
                 cp_error: gr.update(visible=False, value="")
             }
             next_page = str(int(page) + 1)
             return {
                 **show_dataset_at_config_and_split_and_page(dataset, config, split, next_page),
+                # cp_page: gr.update(value=next_page, visible=True),
             }
         except AppError as err:
             return show_error(str(err))
         try:
             return {
                 **show_dataset_at_config_and_split_and_page(dataset, config, split, "1"),
+                select_box: gr.update(choices=[f"{i+1}" for i in range(tot_samples)], value=["1"]),
+                # cp_page: gr.update(value="1", visible=True),
+                # cp_goto_page: gr.update(visible=True),
+                # cp_goto_next_page: gr.update(visible=True),
             }
         except AppError as err:
             return show_error(str(err))
         except AppError as err:
             return show_error(str(err))
+    def save_to_file(user_input):
+        with open("user_input.txt", "w") as file:
+            file.write(user_input)
+    all_outputs = [cp_config, cp_split,
+                #    cp_page, cp_goto_page, cp_goto_next_page,
+                   cp_result, cp_info, cp_error,
+                   select_box, select_buttom, statistics_textbox, user_input_text, plot]
     cp_go.click(show_dataset, inputs=[cp_dataset], outputs=all_outputs)
     cp_config.change(show_dataset_at_config, inputs=[cp_dataset, cp_config], outputs=all_outputs)
     cp_split.change(show_dataset_at_config_and_split, inputs=[cp_dataset, cp_config, cp_split], outputs=all_outputs)
+    # cp_goto_page.click(show_dataset_at_config_and_split_and_page, inputs=[cp_dataset, cp_config, cp_split, cp_page], outputs=all_outputs)
+    # cp_goto_next_page.click(show_dataset_at_config_and_split_and_next_page, inputs=[cp_dataset, cp_config, cp_split, cp_page], outputs=all_outputs)
+    user_input_text.submit(save_to_file, inputs=user_input_text)
+    select_buttom.click(show_dataset_at_config_and_split_and_page, inputs=[cp_dataset, cp_config, cp_split, select_box], outputs=all_outputs)
 if __name__ == "__main__":
     app = gr.mount_gradio_app(app, demo, path="/")
+    uvicorn.run(app, host="127.0.0.1", port=7860)

user_input.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ 1234

utils.py CHANGED Viewed

@@ -52,19 +52,20 @@ def flatten_ndarray_column(df, column_name):
     return df
-def create_plot(df):
     """
-    创建一个包含所有列的线图。
     """
     fig = go.Figure()
-    for i, column in enumerate(df.columns[1:]):
-        fig.add_trace(go.Scatter(
-            x=df[df.columns[0]],
-            y=df[column],
-            mode='lines',
-            name=column,
-            visible=True if i == 0 else 'legendonly'
-        ))
     # 配置图例
     fig.update_layout(
@@ -81,26 +82,33 @@ def create_plot(df):
     )
     return fig
-def create_statistic(df):
     """
-    计算数据集的统计信息。
     """
-    df_values = df.iloc[:, 1:]
-    # 计算统计值
-    mean_values = df_values.mean()
-    std_values = df_values.std()
-    max_values = df_values.max()
-    min_values = df_values.min()
-    # 将这些统计信息合并成一个新的DataFrame
-    stats_df = pd.DataFrame({
-        'Variables': df_values.columns,
-        'mean': mean_values.values,
-        'std': std_values.values,
-        'max': max_values.values,
-        'min': min_values.values
-    })
-    return stats_df
 def clean_up_df(df: pd.DataFrame) -> pd.DataFrame:
     """
@@ -116,4 +124,32 @@ def clean_up_df(df: pd.DataFrame) -> pd.DataFrame:
     df.drop(columns=['start', 'freq', 'target'], inplace=True)
     if 'past_feat_dynamic_real' in df.columns:
         df.drop(columns=['past_feat_dynamic_real'], inplace=True)
-    return df

     return df
+def create_plot(dfs:list[pd.DataFrame], ids:list[str]):
     """
+    创建一个包含所有传入 DataFrame 的线图。
     """
     fig = go.Figure()
+    for df, df_id in zip(dfs, ids):
+        for i, column in enumerate(df.columns[1:]):
+            fig.add_trace(go.Scatter(
+                x=df[df.columns[0]],
+                y=df[column],
+                mode='lines',
+                name=f"item_{df_id} - {column}",
+                visible=True if i == 0 else 'legendonly'
+            ))
     # 配置图例
     fig.update_layout(
     )
     return fig
+def create_statistic(dfs: list[pd.DataFrame], ids: list[str]):
     """
+    计算数据集列表的统计信息。
     """
+    stats_list = []
+    for df, id in zip(dfs, ids):
+        df_values = df.iloc[:, 1:]
+        # 计算统计值
+        mean_values = df_values.mean().round(2)
+        std_values = df_values.std().round(2)
+        max_values = df_values.max().round(2)
+        min_values = df_values.min().round(2)
+        # 将这些统计信息合并成一个新的DataFrame
+        stats_df = pd.DataFrame({
+            'Variables': [f"{id}_{col}" for col in df_values.columns],
+            'mean': mean_values.values,
+            'std': std_values.values,
+            'max': max_values.values,
+            'min': min_values.values
+        })
+        stats_list.append(stats_df)
+    # 合并所有统计信息DataFrame
+    combined_stats_df = pd.concat(stats_list, ignore_index=True)
+    return combined_stats_df
 def clean_up_df(df: pd.DataFrame) -> pd.DataFrame:
     """
     df.drop(columns=['start', 'freq', 'target'], inplace=True)
     if 'past_feat_dynamic_real' in df.columns:
         df.drop(columns=['past_feat_dynamic_real'], inplace=True)
+    return df
+if __name__ == '__main__':
+    # 创建测试数据
+    data1 = {
+        'Time': ['2023-01-01', '2023-01-02', '2023-01-03'],
+        'Value1': [10, 15, 20],
+        'Value2': [20, 25, 30]
+    }
+    data2 = {
+        'Time': ['2023-01-01', '2023-01-02', '2023-01-03'],
+        'Value3': [5, 10, 15],
+        'Value4': [15, 20, 25]
+    }
+    df1 = pd.DataFrame(data1)
+    df2 = pd.DataFrame(data2)
+    # 转换时间列为日期时间格式
+    df1['Time'] = pd.to_datetime(df1['Time'])
+    df2['Time'] = pd.to_datetime(df2['Time'])
+    # 创建图表
+    fig = create_plot(df1, df2)
+    # 显示图表
+    fig.show()