slices: | |
- sources: | |
- model: Tsunami-th/Tsunami-0.5x-7B-Instruct | |
layer_range: [0, 28] | |
- model: Qwen/Qwen2.5-Math-7B | |
layer_range: [0, 28] | |
merge_method: slerp | |
base_model: Tsunami-th/Tsunami-0.5x-7B-Instruct | |
parameters: | |
t: | |
- filter: self_attn | |
value: [0, 0.1, 0.2, 0.3, 0.4] # Influence réduite pour Qwen sur les couches d'attention | |
- filter: mlp | |
value: [0, 0.15, 0.3, 0.45, 0.6] # Influence légèrement accrue pour les couches MLP | |
- value: 0.2 # Ajustement général pour favoriser Tsunami sur l'ensemble | |
dtype: bfloat16 | |