XiaHan19
/

shami-token

jstzwj commited on Jun 7, 2023

Commit

ab790b6

•

1 Parent(s): d2529d1

init repo

Files changed (8) hide show

README.md CHANGED Viewed

@@ -1,3 +1,8 @@
 ---
 license: apache-2.0
 ---

 ---
 license: apache-2.0
 ---
+Shami Tokenizer
+===
+This is the tokenizer of Shami Model.

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

requirements.txt ADDED Viewed

+transformers==4.29.2
+datasets==2.12.0
+apache-beam[gcp]

special_tokens_map.json ADDED Viewed

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

+{
+  "add_prefix_space": false,
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

train_tokenizer.py ADDED Viewed

+import json
+from transformers import AutoTokenizer
+old_tokenizer = AutoTokenizer.from_pretrained("gpt2")
+import os
+from datasets import load_dataset
+langs = ["en", "ja", "ko", "zh-cn", "zh-tw"]
+raw_datasets = [
+    load_dataset("wiki40b", lang, beam_runner='DirectRunner')
+    for lang in langs
+]
+total_line = 0
+for training_dataset in raw_datasets:
+    for line in training_dataset["train"]:
+        total_line += 1
+def training_dataset_iterator():
+    for training_dataset in raw_datasets:
+        for line in training_dataset["train"]:
+            yield line['text']
+# tokenizer.train(training_files, trainer)
+tokenizer = old_tokenizer.train_new_from_iterator(training_dataset_iterator(), 102000, total_line)
+tokenizer.save_pretrained("tokenizer-shami")

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff