Spaces:

terapyon
/

podcast-search

Running

App Files Files Community

terapyon commited on about 1 month ago

Commit

89e36c5

1 Parent(s): af9a512

update for HF spaces

Browse files

Files changed (4) hide show

.gitattributes +35 -0
README.md +12 -0
src/app.py +12 -2
src/config.py +6 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,15 @@
 # podcast-search
 Podcast terapyon channelを検索する仕組み

+title: Podcast Search
+emoji: 🚀
+colorFrom: green
+colorTo: gray
+sdk: streamlit
+sdk_version: 1.41.1
+app_file: src/app.py
+pinned: false
+license: mit
+short_description: terapyon channel の検索
 # podcast-search
 Podcast terapyon channelを検索する仕組み

src/app.py CHANGED Viewed

@@ -1,13 +1,23 @@
 from datetime import timedelta
 import streamlit as st
 import duckdb
 from embedding import get_embeddings
-from config import DUCKDB_FILE
 @st.cache_resource
 def get_conn():
-    return duckdb.connect(DUCKDB_FILE)
 title_query = """SELECT id, title FROM podcasts

 from datetime import timedelta
+import os
 import streamlit as st
 import duckdb
 from embedding import get_embeddings
+from config import HF_HOST, DUCKDB_FILE, HF_REPO_TYPE, HF_REPO_ID, HF_FILENAME
 @st.cache_resource
 def get_conn():
+    if HF_HOST:
+        os.environ["HUGGINGFACE_TOKEN"] = os.getenv("HF_TOKEN", "")
+        from huggingface_hub import hf_hub_download
+        local_file = hf_hub_download(
+            repo_type=HF_REPO_TYPE,
+            repo_id=HF_REPO_ID,
+            filename=HF_FILENAME)
+        return duckdb.connect(local_file)
+    else:
+        return duckdb.connect(DUCKDB_FILE)
 title_query = """SELECT id, title FROM podcasts

src/config.py CHANGED Viewed

@@ -4,8 +4,14 @@ from pathlib import Path
 # import logging
 HERE = Path(__file__).resolve().parent
 DUCKDB_FILE = HERE.parent / "db" / "terapyon-podcast.duckdb"
 STORE_DIR = HERE.parent / "store"
 DATA_DIR = HERE.parent / "data"
 PODCAST_TITLE_LIST = str(STORE_DIR / 'title-list-202301-202501.parquet')

 # import logging
+HF_HOST = True
+HF_REPO_TYPE = "dataset"
+HF_REPO_ID = "terapyon/terapyon-podcast"
+HF_FILENAME = "terapyon-podcast-20250104.duckdb"
 HERE = Path(__file__).resolve().parent
 DUCKDB_FILE = HERE.parent / "db" / "terapyon-podcast.duckdb"
 STORE_DIR = HERE.parent / "store"
 DATA_DIR = HERE.parent / "data"
 PODCAST_TITLE_LIST = str(STORE_DIR / 'title-list-202301-202501.parquet')