Spaces:

polinaeterna
/

text_quality_checker

Running on Zero

polinaeterna HF staff commited on Sep 11, 2024

Commit

8782f16

verified ·

1 Parent(s): a1fafd0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -19,7 +19,7 @@ from transformers import AutoModel, AutoTokenizer, AutoConfig
 from tqdm import tqdm
-logging.basicConfig(level=logging.DEBUG, format="%(asctime)s - %(levelname)s - %(message)s")
 session = requests.Session()
@@ -90,6 +90,7 @@ def run_quality_check(dataset, column, batch_size, num_examples):
     config = "default" if "default" in info_resp["dataset_info"] else next(iter(info_resp["dataset_info"]))
     split = "train" if "train" in info_resp["dataset_info"][config]["splits"] else next(
         iter(info_resp["dataset_info"][config]["splits"]))
     try:
         data = pl.read_parquet(f"hf://datasets/{dataset}@~parquet/{config}/{split}/0000.parquet", columns=[column])
     except pl.exceptions.ComputeError:
@@ -101,6 +102,7 @@ def run_quality_check(dataset, column, batch_size, num_examples):
             except Exception as error:
                 yield f"❌ {error}", gr.BarPlot(), pd.DataFrame(), pd.DataFrame(), pd.DataFrame(), pd.DataFrame(),
                 return
     texts = [text[:10000] for text in data[column].to_list()]
     # texts_sample = data.sample(100, shuffle=True, seed=16).to_pandas()

 from tqdm import tqdm
+logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
 session = requests.Session()
     config = "default" if "default" in info_resp["dataset_info"] else next(iter(info_resp["dataset_info"]))
     split = "train" if "train" in info_resp["dataset_info"][config]["splits"] else next(
         iter(info_resp["dataset_info"][config]["splits"]))
+    logging.info(f"Fetching data for {dataset} {config} {split}")
     try:
         data = pl.read_parquet(f"hf://datasets/{dataset}@~parquet/{config}/{split}/0000.parquet", columns=[column])
     except pl.exceptions.ComputeError:
             except Exception as error:
                 yield f"❌ {error}", gr.BarPlot(), pd.DataFrame(), pd.DataFrame(), pd.DataFrame(), pd.DataFrame(),
                 return
+    logging.info("Data fetched.")
     texts = [text[:10000] for text in data[column].to_list()]
     # texts_sample = data.sample(100, shuffle=True, seed=16).to_pandas()