Spaces:

taishi-i
/

awesome-japanese-nlp-resources-dashboard

Running

App Files Files Community

taishi-i commited on Aug 21

Commit

62ea5f3

•

1 Parent(s): b9ed42e

update app.py

Browse files

Files changed (2) hide show

app.py +51 -6
awesome-japanese-nlp-resources-search.json +0 -0

app.py CHANGED Viewed

@@ -38,6 +38,7 @@ def convert_to_dataframe():
             "latest_commit",
             "languages",
             "model_or_dataset",
         ]
     ]
     df = df.sort_values(by="score", ascending=False)
@@ -57,6 +58,7 @@ def convert_to_dataframe():
     stopwords = dataset["nagisa_stopwords"]["words"]
     def tokenize_description(description):
         tokens = nagisa.filter(description, filter_postags=["助詞", "助動詞"])
         words = tokens.words
         words = [word for word in words if len(word.strip()) > 0]
@@ -92,9 +94,10 @@ def main():
         query = st.text_input(label="Search keyword")
-        source_type = ["GitHub", "Hugging Face"]
         selected_source_type = st.selectbox(
-            "Choose a source type: GitHub or Hugging Face", source_type
         )
         # Filtering GitHub or Hugging Face
@@ -141,6 +144,16 @@ def main():
                 value=(min_downloads, max_downloads),
             )
         min_activity_period = int(df["activity_period"].min())
         max_activity_period = int(df["activity_period"].max())
@@ -177,10 +190,23 @@ def main():
             & (df["stargazers_count"] <= stars_range[1])
         ]
     else:
-        df = df[
-            (df["downloads"] >= downloads_range[0])
-            & (df["downloads"] <= downloads_range[1])
-        ]
     df = df[
         (df["activity_period"] >= activity_period_range[0])
@@ -275,6 +301,25 @@ def main():
             st.markdown("### Language Usage Table")
             st.dataframe(language_df)
     with col2:
         if selected_source_type == "GitHub":

             "latest_commit",
             "languages",
             "model_or_dataset",
+            "model_size",
         ]
     ]
     df = df.sort_values(by="score", ascending=False)
     stopwords = dataset["nagisa_stopwords"]["words"]
     def tokenize_description(description):
+        description = description.lower()
         tokens = nagisa.filter(description, filter_postags=["助詞", "助動詞"])
         words = tokens.words
         words = [word for word in words if len(word.strip()) > 0]
         query = st.text_input(label="Search keyword")
+        # source_type = ["GitHub", "Hugging Face"]
+        source_type = ["Hugging Face", "GitHub"]
         selected_source_type = st.selectbox(
+            "Choose a source type: Hugging Face or GitHub", source_type
         )
         # Filtering GitHub or Hugging Face
                 value=(min_downloads, max_downloads),
             )
+            min_model_size = int(df["model_size"].min())
+            max_model_size = int(df["model_size"].max())
+            model_size_range = st.slider(
+                "Choose the range for the model size (billion)",
+                min_value=min_model_size,
+                max_value=max_model_size,
+                value=(min_model_size, max_model_size),
+            )
         min_activity_period = int(df["activity_period"].min())
         max_activity_period = int(df["activity_period"].max())
             & (df["stargazers_count"] <= stars_range[1])
         ]
     else:
+        if (
+            downloads_range[0] > min_downloads
+            or downloads_range[1] < max_downloads
+        ):
+            df = df[
+                (df["downloads"] >= downloads_range[0])
+                & (df["downloads"] <= downloads_range[1])
+            ]
+        if (
+            model_size_range[0] > min_model_size
+            or model_size_range[1] < max_model_size
+        ):
+            df = df[
+                (df["model_size"] >= model_size_range[0])
+                & (df["model_size"] <= model_size_range[1])
+            ]
     df = df[
         (df["activity_period"] >= activity_period_range[0])
             st.markdown("### Language Usage Table")
             st.dataframe(language_df)
+        else:
+            st.markdown("### Model size vs downloads")
+            chart = (
+                alt.Chart(df)
+                .mark_circle(size=60)
+                .encode(
+                    x="model_size",
+                    y="downloads",
+                    tooltip=["project_name", "model_size", "downloads"],
+                )
+                .properties(
+                    title=(
+                        "Relationship between model size (Billion) and"
+                        " downloads"
+                    ),
+                )
+                .interactive()
+            )
+            st.altair_chart(chart, use_container_width=True)
     with col2:
         if selected_source_type == "GitHub":

awesome-japanese-nlp-resources-search.json CHANGED Viewed

The diff for this file is too large to render. See raw diff