# 4.6 基于llama的基因大模型持续预训练

LLaMA（**Large Language Model Meta AI**）是由 Meta（Facebook）开发的一系列大型语言模型，专注于提供高性能和高效的大语言模型，面向学术研究和开发社区。LLaMA 系列主要强调训练效率、模型性能和对计算资源的高效利用，是 GPT 系列模型的有力竞争者之一。

---

### **1. LLaMA 模型概述**

#### **1.1 LLaMA 1**
- **发布**：2023 年 2 月。
- **模型参数规模**：
  - 7B（70 亿）
  - 13B（130 亿）
  - 33B（330 亿）
  - 65B（650 亿）
- **特点**：
  - 专注于效率：与 GPT-3 等模型相比，LLaMA 在相同的训练成本下实现了更高的性能。
  - 针对研究开放：提供预训练模型权重供研究使用。
  - 使用高质量的数据：模型训练使用大量从网络中筛选的高质量文本数据，包括维基百科、书籍和其他高质量来源。
- **性能**：
  - 在许多 NLP 任务中，LLaMA 的性能超过 GPT-3 和其他同类模型。
  - 参数规模较小的版本（如 LLaMA-13B）性能可与 GPT-3（175B 参数）媲美。

#### **1.2 LLaMA 2**
- **发布**：2023 年 7 月。
- **改进**：
  - 增强的训练数据：相比 LLaMA 1，使用了更多的高质量数据。
  - 引入微调版本：发布了开箱即用的对话模型（LLaMA 2-Chat）。
  - 更好的开源支持：LLaMA 2 在商业用途上比 LLaMA 1 更加开放。
- **模型参数规模**：
  - 7B（70 亿）
  - 13B（130 亿）
  - 70B（700 亿）
- **性能**：
  - LLaMA 2 的性能相比 LLaMA 1 有显著提升。
  - LLaMA 2-Chat 在对话任务中的表现优于许多现有开源模型。
  - 在多个标准基准（如 MMLU）上超过 GPT-4 和 Claude 的开源实现。

---

### **2. LLaMA 的关键技术特点**

#### **2.1 高效的架构设计**
- 基于 Transformer 架构。
- 针对训练效率和推理速度进行了优化，适合研究和开发。

#### **2.2 模型压缩**
- 提供更小的参数规模（如 7B 和 13B），以便在更低的计算资源上运行。
- 在性能与参数量之间实现了很好的平衡。

#### **2.3 训练数据**
- 使用从互联网中提取的高质量数据，注重数据清洗和筛选，避免低质量文本对模型的负面影响。

#### **2.4 微调能力**
- 支持指令微调（Instruction Tuning）和 RLHF（基于人类反馈的强化学习），特别是在 LLaMA 2-Chat 模型中表现优异。

---

### **3. LLaMA 的性能对比**

#### **与 GPT-3 比较**
- LLaMA 1-13B 参数模型在许多任务上的性能接近 GPT-3-175B。
- LLaMA 2-70B 在多个任务上超过 GPT-3。

#### **与其他开源模型比较**
- LLaMA 2 在许多基准测试中优于其他开源模型（如 Falcon 和 MPT）。
- LLaMA 2-Chat 提供了与 ChatGPT 类似的对话能力，适用于对话任务。

---

### **4. 应用场景**

1. **研究**：
   - 开源权重适合学术研究，推动了对大语言模型的进一步探索。

2. **对话系统**：
   - LLaMA 2-Chat 专为对话任务设计，适合开发智能客服、聊天机器人等应用。

3. **生成任务**：
   - 支持文本生成、补全、摘要等任务。

4. **微调与定制**：
   - 可以基于特定领域数据进行微调，如医学、法律、教育等领域的专用模型。

---

### **5. 开源与获取方式**

#### **1. 开源**
- LLaMA 1：需要申请权限才能获得模型权重。
- LLaMA 2：更加开放，允许商业用途，模型和权重可以通过 Meta 的合作平台获取（如 Hugging Face 和 AWS）。

#### **2. 下载与使用**
使用 Hugging Face 加载模型：
```python
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "meta-llama/Llama-2-7b-hf"  # 替换为具体模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 使用模型生成文本
inputs = tokenizer("Hello, how are you?", return_tensors="pt")
outputs = model.generate(**inputs, max_length=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
```

---

### **6. 总结**

#### **优势**
- **高性能**：在多个基准任务上表现出色。
- **高效训练**：小参数模型能与大模型媲美。
- **开放性**：LLaMA 2 提供了较为开放的商用许可。

#### **局限**
- 模型需要高质量数据和强大算力训练，对推理设备也有一定要求。

LLaMA 系列以其高效和开放的特点，为大模型研究和应用带来了强大动力，是当前大语言模型生态的重要组成部分。

---
---

**大模型的持续预训练**（Continual Pretraining of Large Models）是指在基础预训练模型（如 GPT、BERT 等）的基础上，通过引入新的数据或特定领域的数据继续进行预训练的过程。这一过程旨在让模型在特定场景或任务中表现更好，同时保留其通用能力。

---

### **1. 持续预训练的概念**

持续预训练是一种在通用大模型的预训练基础上，进一步优化和适配模型的方法，主要包括以下两种场景：
1. **领域适配**：
   - 将预训练模型在特定领域的数据上继续训练，使其对该领域的语料理解更深刻，例如法律、医学、金融等领域。
2. **性能优化**：
   - 通过引入更多的通用数据或多样化的数据类型，扩展模型的通用能力，提高性能。

---

### **2. 持续预训练的目标**

1. **提升领域性能**：
   - 在特定领域任务上，模型能够更好地理解特定领域的语言模式和知识。
   
2. **增强模型鲁棒性**：
   - 通过引入新的数据或增强数据多样性，使模型对未见数据表现更稳定。

3. **优化资源利用**：
   - 通过复用已有的大模型权重，只需训练少量额外步骤，避免从零开始重新训练模型。

---

### **3. 持续预训练的步骤**

#### **（1）数据准备**
- **领域数据**：针对特定领域（如医学、法律、科技）收集高质量语料。
- **新语料整合**：补充模型未见过的多样化语料。
- **数据清洗**：确保数据无噪声、语言风格一致。

#### **（2）模型初始化**
- 使用现有的预训练模型作为初始权重，例如 Hugging Face 提供的 GPT-2 或 BERT 模型。

#### **（3）训练设置**
- **超参数调整**：
  - 通常使用较小的学习率（例如 `1e-5` 或 `2e-5`）以避免破坏已有的知识。
- **训练策略**：
  - 冻结部分参数（如嵌入层或前几层）以保留通用能力，仅调整高层或新加入的部分。

#### **（4）评估和验证**
- 使用领域任务的数据集对模型进行评估，验证其在目标任务中的改进效果。

---

### **4. 持续预训练的常见方法**

#### **（1）全量持续预训练**
- 对整个模型的参数进行调整。
- **优点**：适合较大规模的新数据训练，能显著提升领域性能。
- **缺点**：计算资源需求大，可能导致模型过拟合。

#### **（2）冻结部分参数**
- 冻结低层参数，仅微调高层。
- **优点**：保留通用知识，减少计算开销。
- **缺点**：对领域特定知识的适配可能不足。

#### **（3）参数高效微调（PEFT）**
- 使用 PEFT 方法（如 LoRA、Adapter）进行预训练：
  - **LoRA**：通过低秩矩阵分解，微调部分关键模块。
  - **Adapter**：在 Transformer 层中插入小型适配模块。
- **优点**：显著减少需要更新的参数量。

---

### **5. 持续预训练的典型应用**

1. **领域适配**
   - **医学**：将预训练模型在 PubMed 或生物医学数据集上进行持续预训练。
   - **法律**：使用法律文档进一步训练基础模型。
   - **金融**：通过金融新闻、报告语料提升模型在金融领域的表现。

2. **多语言扩展**
   - 引入多语言语料，扩展模型的多语言能力。

3. **数据更新**
   - 持续加入新数据（如时事新闻）以适配最新语言模式。

4. **特殊任务优化**
   - 针对特定任务（如代码生成、对话）引入专用数据进行训练。

---

### **6. 实现持续预训练的代码示例**

以下示例基于 Hugging Face 实现 GPT-2 的持续预训练：

```python
from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments
from datasets import load_dataset

# 1. 加载预训练模型和分词器
model_name = "gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 2. 加载新语料数据
dataset = load_dataset("text", data_files={"train": "domain_corpus.txt"})

# 3. 数据预处理
def tokenize_function(examples):
    return tokenizer(examples["text"], truncation=True, max_length=1024, padding="max_length")

tokenized_dataset = dataset.map(tokenize_function, batched=True)

# 4. 设置训练参数
training_args = TrainingArguments(
    output_dir="./gpt2_domain_adapted",
    overwrite_output_dir=True,
    per_device_train_batch_size=4,
    num_train_epochs=3,
    learning_rate=5e-5,
    save_steps=500,
    save_total_limit=2,
    logging_dir="./logs",
    evaluation_strategy="no",  # 评估策略可以根据需要调整
    fp16=True,  # 混合精度训练
)

# 5. 定义 Trainer 并启动训练
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    tokenizer=tokenizer,
)

trainer.train()

# 6. 保存模型
model.save_pretrained("./gpt2_domain_adapted")
tokenizer.save_pretrained("./gpt2_domain_adapted")
```

---

### **7. 持续预训练的挑战**

1. **灾难性遗忘**：
   - 持续预训练可能导致模型丧失之前学到的知识。
   - **解决方法**：使用少量原始数据进行联合训练。

2. **计算资源需求**：
   - 需要大量显存和算力，特别是对于大规模模型和数据。

3. **数据质量和多样性**：
   - 新引入的数据可能包含噪声，影响模型性能。

---

### **8. 持续预训练的优势**

- 提高特定领域或任务的性能。
- 更高效地利用已有模型权重，避免从头训练。
- 保留原始模型的通用能力，同时增强领域适应性。

---

### **总结**

持续预训练是适配领域任务和提升模型性能的重要方法，通过引入新数据或优化模型训练策略，可以让大模型在特定场景中表现更优。配合参数高效微调方法（如 LoRA），还可显著降低计算开销，提升训练效率。这种技术在学术研究、工业应用和前沿领域（如法律、医学等）中均具有广泛价值。

## 本节任务
本节任务是基于llama。训练一个能够处理dna和protein蛋白质数据的基础预训练大模型，数据为第一章中的预训练数据，包括英文数据。

## 环境设置
并行环境对transformer、peft等的版本要求比较高，如果版本不匹配可能会出现各种异常问题
之前的课程，都是单GPU运行，一般不存在版本问题，默认安装的都是最新版本。但运行并行环境时，需要确认下版本再运行，本课程运行并行环境如下：

* Python 3.12.3
* transformers                   4.45.2
* peft                           0.3.0.dev0
* deepspeed                      0.15.2
* accelerate                     1.0.0

如果不是，可以重新安装即可：
```
pip install transformers==4.45.2 deepspeed==0.15.2 accelerate==1.0.0

#peft参考使用的是chinese llama的版本，需要git安装

git clone https://github.com/huggingface/peft.git

cd peft

git checkout 13e53fc

pip install . 
```
如果有环境问题，可以查看本目录下的pip_list.txt

## 代码运行

```
# 复制第一章训练数据,包括dna，protein，还有英文数据，添加英文数据是为了避免遗忘问题

mkdir train_data
cp ../01-data_env/data/*.txt train_data/
使用这些数据，6卡4090大概大致需要训练16个小时，autodl也需要近200块钱了。

建议学习时，可以使用1/10的数据训练：
awk ‘NR%10==1’ dna_1g.txt > dna.txt
rm dna_1g.txt
其他2类数据依次类推

这样大概需要2到3个小时就能训练完成了


#持续预训练
./run_pt.sh

#合并模型
./merge_pt_model.sh

```

## 模型验证

In [1]:
from transformers import AutoTokenizer, AutoConfig,AutoModel
from transformers import DataCollatorForLanguageModeling
from transformers import Trainer, TrainingArguments
from transformers import  AutoConfig, AutoModelForCausalLM,LlamaForCausalLM,LlamaTokenizer
from tokenizers import Tokenizer
from datasets import load_dataset

In [2]:
tokenizer = LlamaTokenizer.from_pretrained("dnahlm-merge-hf")
tokenizer.pad_token = tokenizer.eos_token
tokenizer

LlamaTokenizer(name_or_path='dnahlm-merge-hf', vocab_size=91643, model_max_length=1000000000000000019884624838656, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'pad_token': '</s>'}, clean_up_tokenization_spaces=False),  added_tokens_decoder={
	0: AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	1: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	2: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}

In [3]:
model = LlamaForCausalLM.from_pretrained("dnahlm-merge-hf") #continue pretrain
model

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(91643, 4096, padding_idx=0)
    (layers): ModuleList(
      (0-31): 32 x LlamaDecoderLayer(
        (self_attn): LlamaSdpaAttention(
          (q_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (v_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (o_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear(in_features=4096, out_features=11008, bias=False)
          (up_proj): Linear(in_features=4096, out_features=11008, bias=False)
          (down_proj): Linear(in_features=11008, out_features=4096, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm((4096,), eps=1e-06)
        (post_attention_layernorm): LlamaRMSNorm((4096,), eps=1e-06)
      

In [4]:
from transformers import AutoConfig
# 加载配置
config = AutoConfig.from_pretrained('dnahlm-merge-hf')
config

LlamaConfig {
  "_name_or_path": "dnahlm-merge-hf",
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 1,
  "eos_token_id": 2,
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 11008,
  "max_position_embeddings": 2048,
  "mlp_bias": false,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 32,
  "pad_token_id": 0,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-06,
  "rope_scaling": null,
  "rope_theta": 10000.0,
  "tie_word_embeddings": false,
  "torch_dtype": "float16",
  "transformers_version": "4.45.2",
  "use_cache": true,
  "vocab_size": 91643
}

In [5]:
text='''GCTGACTCTGCCAGGATGGAATGAAATTAGGTTGTTTTAATTATAATGTAAAGTCAGTTCTAGTCAGACATAGTCACATAGGCAAGTAAGGGAACCTAAAATTGCTTGGAAT,
KCGFVGPMVHLKVHLEADVASSCRSAVIYLTSEEPFEGVLGLRLKEGIAITGCWPRWPDEMDERSAVWRVEPYTRHFGRVLYSFGV,
The primary use of LLaMA is research on large language models, including'''
print("Test text:\n",text)
print(f"Tokenized by DNA-LLaMA tokenizer:{tokenizer.tokenize(text)}")

Test text:
 GCTGACTCTGCCAGGATGGAATGAAATTAGGTTGTTTTAATTATAATGTAAAGTCAGTTCTAGTCAGACATAGTCACATAGGCAAGTAAGGGAACCTAAAATTGCTTGGAAT,
KCGFVGPMVHLKVHLEADVASSCRSAVIYLTSEEPFEGVLGLRLKEGIAITGCWPRWPDEMDERSAVWRVEPYTRHFGRVLYSFGV,
The primary use of LLaMA is research on large language models, including
Tokenized by DNA-LLaMA tokenizer:['▁GC', 'TGA', 'CT', 'C', 'TGCC', 'AGGATGG', 'AATG', 'AAATT', 'AGGTTG', 'TTTTAATT', 'ATAATGTAA', 'AGTCAG', 'TTCTAG', 'TCAG', 'ACATAG', 'TC', 'ACATAGG', 'CA', 'AGTAAGGG', 'AAC', 'CT', 'AAAATTGC', 'TTGG', 'AAT', ',', '<0x0A>', 'KCG', 'FVGP', 'MVHL', 'KV', 'HLE', 'ADV', 'ASSC', 'RSAV', 'I', 'YL', 'TSEE', 'P', 'FEG', 'VLGL', 'RLK', 'EGI', 'AI', 'TGC', 'W', 'PRW', 'P', 'DEM', 'DER', 'SAV', 'W', 'RVE', 'PY', 'TRH', 'FG', 'RVLY', 'SFGV', ',', '<0x0A>', 'The', '▁primary', '▁use', '▁of', '▁L', 'La', 'MA', '▁is', '▁research', '▁on', '▁large', '▁language', '▁models', ',', '▁including']


In [6]:
import torch
from transformers import pipeline

model_id = "dnahlm-merge-hf"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    #torch_dtype=torch.bfloat16, 
    device_map="auto",
)

pipe("The key to life is")

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

Some parameters are on the meta device because they were offloaded to the cpu.
Starting from v4.46, the `logits` model output will have the same type as the model (except at train time, where it will always be FP32)


[{'generated_text': 'The key to life is to accept the fact that you are going to die. The key to'}]

In [7]:
pipe("GGAATGAAATTAGGTTGTTTTAATTATAATGTAAAGTCAGTTCT")

[{'generated_text': 'GGAATGAAATTAGGTTGTTTTAATTATAATGTAAAGTCAGTTCTCTCCTCCTCCTCCTC'}]

In [9]:
pipe("KCGFVGPMVHLKVHLEADVASSCRSAVIYLTSEEPFEGVLGLRLK")

[{'generated_text': 'KCGFVGPMVHLKVHLEADVASSCRSAVIYLTSEEPFEGVLGLRLKETLK'}]