Spaces:

lion-ai
/

eskulap_datasets

Runtime error

AleksanderObuchowski commited on Aug 20, 2024

Commit

1b9b717

1 Parent(s): e1b455b

add new dataset

Files changed (2) hide show

.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

app.py CHANGED Viewed

@@ -35,7 +35,7 @@ datasets_map = {
     {
         "display_name": "Dokumentacja - QA",
         "description": "Zbiór pytań i odpowiedzi do zanonimizowanej dokumentacji medycznej.",
-        "primary_column": "content",
     },
     "wikipedia":
     {
@@ -49,6 +49,23 @@ datasets_map = {
         "description": "Zbiór pytań i odpowiedzi na podstawie ulotek medycznych.",
         "primary_column": "question",
     },
 }
@@ -108,7 +125,7 @@ def filter_splits(dataset: Dict[str, Dataset], split: str) -> Dict[str, Dataset]
 def generate_wordcloud(dataset_name, split):
     dataset_name = reverse_dataset_names_map.get(dataset_name, dataset_name)
-    dataset: Dataset = load_dataset(BASE_DATASET, dataset_name, split=f"{split}[:500]", token=read_key)
     primary_column = datasets_map[dataset_name]["primary_column"]

     {
         "display_name": "Dokumentacja - QA",
         "description": "Zbiór pytań i odpowiedzi do zanonimizowanej dokumentacji medycznej.",
+        "primary_column": "context",
     },
     "wikipedia":
     {
         "description": "Zbiór pytań i odpowiedzi na podstawie ulotek medycznych.",
         "primary_column": "question",
     },
+    "polish_medinstruct":
+    {
+        "display_name": "Instrukcje medyczne",
+        "description": "Przetumaczony zbiór medinstruct",
+        "primary_column": "output",
+    },
+    "kor_epikryzy_summarization": {
+        "display_name": "Dokumentacja - Sumaryzacja",
+        "description": "Zbiór streszczeń zanonimizowanej dokumentacji medycznej.",
+        "primary_column": "summary",
+    },
+    "znany_lekarz_multiturn":
+    {
+        "display_name": "Porady - wieloturnowe",
+        "description": "Zbiór pytań i odpowiedzi odnośnie medycyny z wieloma turami rozmowy.",
+        "primary_column": "multiturn",
+    },
 }
 def generate_wordcloud(dataset_name, split):
     dataset_name = reverse_dataset_names_map.get(dataset_name, dataset_name)
+    dataset: Dataset = load_dataset(BASE_DATASET, dataset_name, split=f"{split}[:100]", token=read_key)
     primary_column = datasets_map[dataset_name]["primary_column"]