---
license: apache-2.0
---

# tangled-llama-k-128k-v0.1

## Train Tokenizer

```bash
python -B train_tokenizer.py
```

Tokenizer training log:
```
Resolving data files: 100%|████████████████████████████████████████████████████████████████| 132/132 [00:00<00:00, 266.56it/s]
Loading dataset shards: 100%|█████████████████████████████████████████████████████████████████| 18/18 [00:05<00:00,  3.24it/s]
Resolving data files: 100%|█████████████████████████████████████████████████████████████| 133/133 [00:00<00:00, 306844.02it/s]
[00:21:52] Pre-processing sequences       ████████████████████████████████████████████████████████████████ 0        /        0
[00:00:48] Tokenize words                 ████████████████████████████████████████████████████████████████ 25635525 / 25635525
[00:01:17] Count pairs                    ████████████████████████████████████████████████████████████████ 25635525 / 25635525
[00:06:07] Compute merges                 ████████████████████████████████████████████████████████████████ 32066    /    32066
```

## Pretrain

```bash
python -B prepare_pretrain_dataset.py
```

```bash
CUDA_VISIBLE_DEVICES=0 CUDA_LAUNCH_BLOCKING=0 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True litgpt pretrain --config pretrain-model.yaml
```

## Chat with Pretrained model

```bash
PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True CUDA_VISIBLE_DEVICES="0" litgpt chat out/pretrain/final/
```