File size: 2,182 Bytes

---

license: apache-2.0
---


# tangled-llama-j-128k-v0.1

## Train Tokenizer

```bash

python -B train_tokenizer.py

```

Tokenizer training log:
```

Resolving data files: 100%|████████████████████████████████████████████████████████████████| 132/132 [00:00<00:00, 266.56it/s]

Loading dataset shards: 100%|█████████████████████████████████████████████████████████████████| 18/18 [00:05<00:00,  3.24it/s]

Resolving data files: 100%|█████████████████████████████████████████████████████████████| 133/133 [00:00<00:00, 306844.02it/s]

[00:21:52] Pre-processing sequences       ████████████████████████████████████████████████████████████████ 0        /        0

[00:00:48] Tokenize words                 ████████████████████████████████████████████████████████████████ 25635525 / 25635525

[00:01:17] Count pairs                    ████████████████████████████████████████████████████████████████ 25635525 / 25635525

[00:06:07] Compute merges                 ████████████████████████████████████████████████████████████████ 32066    /    32066

```

## Pretrain

```bash

python -B prepare_pretrain_dataset.py

```

```bash

CUDA_VISIBLE_DEVICES=0 CUDA_LAUNCH_BLOCKING=0 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True litgpt pretrain --config pretrain-model.yaml

```