metadata
base_model:
- google/gemma-2-2b-it
tags:
- merge
- mergekit
- lazymergekit
- google/gemma-2-2b-it
gemma-instruct-merge
gemma-instruct-merge is a merge of the following models using LazyMergekit:
🧩 Configuration
models:
- model: google/gemma-2-2b
- model: google/gemma-2-2b-it
parameters:
density:
- filter: self_attn.q_proj.0
value: 0.00111
- filter: self_attn.q_proj.1
value: 0.04206
- filter: self_attn.q_proj.2
value: 0.00636
- filter: self_attn.q_proj.3
value: 0.01936
- filter: self_attn.q_proj.4
value: 0.05024
- filter: self_attn.q_proj.5
value: 0.03887
- filter: self_attn.q_proj.6
value: 0.00598
- filter: self_attn.q_proj.7
value: 0.01845
- filter: self_attn.q_proj.8
value: 0.02455
- filter: self_attn.q_proj.9
value: 0.03162
- filter: self_attn.q_proj.10
value: 0.01905
- filter: self_attn.q_proj.11
value: 0.05388
- filter: self_attn.q_proj.12
value: 0.04658
- filter: self_attn.q_proj.13
value: 0.04073
- filter: self_attn.q_proj.14
value: 0.07451
- filter: self_attn.q_proj.15
value: 0.00907
- filter: self_attn.q_proj.16
value: 0.04742
- filter: self_attn.q_proj.17
value: 0.05307
- filter: self_attn.q_proj.18
value: 0.06946
- filter: self_attn.q_proj.19
value: 0.07954
- filter: self_attn.q_proj.20
value: 0.0871
- filter: self_attn.q_proj.21
value: 0.08215
- filter: self_attn.q_proj.22
value: 0.04543
- filter: self_attn.q_proj.23
value: 0.01752
- filter: self_attn.q_proj.24
value: 0.01398
- filter: self_attn.q_proj.25
value: 0.02189
- filter: self_attn.k_proj.0
value: 0.00134
- filter: self_attn.k_proj.1
value: 0.02801
- filter: self_attn.k_proj.2
value: 0.00516
- filter: self_attn.k_proj.3
value: 0.01089
- filter: self_attn.k_proj.4
value: 0.0373
- filter: self_attn.k_proj.5
value: 0.02292
- filter: self_attn.k_proj.6
value: 0.01761
- filter: self_attn.k_proj.7
value: 0.03038
- filter: self_attn.k_proj.8
value: 0.01651
- filter: self_attn.k_proj.9
value: 0.01971
- filter: self_attn.k_proj.10
value: 0.01415
- filter: self_attn.k_proj.11
value: 0.05657
- filter: self_attn.k_proj.12
value: 0.04657
- filter: self_attn.k_proj.13
value: 0.03766
- filter: self_attn.k_proj.14
value: 0.06191
- filter: self_attn.k_proj.15
value: 0.03054
- filter: self_attn.k_proj.16
value: 0.07193
- filter: self_attn.k_proj.17
value: 0.05085
- filter: self_attn.k_proj.18
value: 0.08122
- filter: self_attn.k_proj.19
value: 0.09466
- filter: self_attn.k_proj.20
value: 0.09547
- filter: self_attn.k_proj.21
value: 0.07629
- filter: self_attn.k_proj.22
value: 0.04262
- filter: self_attn.k_proj.23
value: 0.0132
- filter: self_attn.k_proj.24
value: 0.00966
- filter: self_attn.k_proj.25
value: 0.0269
- filter: self_attn.v_proj.0
value: 0.00604
- filter: self_attn.v_proj.1
value: 0.02746
- filter: self_attn.v_proj.2
value: 0.00023
- filter: self_attn.v_proj.3
value: 0.01785
- filter: self_attn.v_proj.4
value: 0.04637
- filter: self_attn.v_proj.5
value: 0.0381
- filter: self_attn.v_proj.6
value: 0.01711
- filter: self_attn.v_proj.7
value: 0.00946
- filter: self_attn.v_proj.8
value: 0.04331
- filter: self_attn.v_proj.9
value: 0.03508
- filter: self_attn.v_proj.10
value: 0.02323
- filter: self_attn.v_proj.11
value: 0.05735
- filter: self_attn.v_proj.12
value: 0.03522
- filter: self_attn.v_proj.13
value: 0.03315
- filter: self_attn.v_proj.14
value: 0.08075
- filter: self_attn.v_proj.15
value: 0.00321
- filter: self_attn.v_proj.16
value: 0.03811
- filter: self_attn.v_proj.17
value: 0.05874
- filter: self_attn.v_proj.18
value: 0.0798
- filter: self_attn.v_proj.19
value: 0.06172
- filter: self_attn.v_proj.20
value: 0.08332
- filter: self_attn.v_proj.21
value: 0.06119
- filter: self_attn.v_proj.22
value: 0.05979
- filter: self_attn.v_proj.23
value: 0.04042
- filter: self_attn.v_proj.24
value: 0.01768
- filter: self_attn.v_proj.25
value: 0.02529
- filter: self_attn.o_proj.0
value: 0.00489
- filter: self_attn.o_proj.1
value: 0.02963
- filter: self_attn.o_proj.2
value: 0.01037
- filter: self_attn.o_proj.3
value: 0.0282
- filter: self_attn.o_proj.4
value: 0.01913
- filter: self_attn.o_proj.5
value: 0.02026
- filter: self_attn.o_proj.6
value: 0.00194
- filter: self_attn.o_proj.7
value: 0.01702
- filter: self_attn.o_proj.8
value: 0.01217
- filter: self_attn.o_proj.9
value: 0.12596
- filter: self_attn.o_proj.10
value: 0.07404
- filter: self_attn.o_proj.11
value: 0.06695
- filter: self_attn.o_proj.12
value: 0.11963
- filter: self_attn.o_proj.13
value: 0.08394
- filter: self_attn.o_proj.14
value: 0.08886
- filter: self_attn.o_proj.15
value: 0.01717
- filter: self_attn.o_proj.16
value: 0.10637
- filter: self_attn.o_proj.17
value: 0.05899
- filter: self_attn.o_proj.18
value: 0.01767
- filter: self_attn.o_proj.19
value: 0.01819
- filter: self_attn.o_proj.20
value: 0.00892
- filter: self_attn.o_proj.21
value: 0.02998
- filter: self_attn.o_proj.22
value: 0.01114
- filter: self_attn.o_proj.23
value: 0.01485
- filter: self_attn.o_proj.24
value: 0.00447
- filter: self_attn.o_proj.25
value: 0.00927
- filter: mlp.gate_proj.0
value: 0.09568
- filter: mlp.gate_proj.1
value: 0.01288
- filter: mlp.gate_proj.2
value: 0.00291
- filter: mlp.gate_proj.3
value: 0.02596
- filter: mlp.gate_proj.4
value: 0.10395
- filter: mlp.gate_proj.5
value: 0.0627
- filter: mlp.gate_proj.6
value: 0.02224
- filter: mlp.gate_proj.7
value: 0.04474
- filter: mlp.gate_proj.8
value: 0.04204
- filter: mlp.gate_proj.9
value: 0.03999
- filter: mlp.gate_proj.10
value: 0.0027
- filter: mlp.gate_proj.11
value: 0.04703
- filter: mlp.gate_proj.12
value: 0.0232
- filter: mlp.gate_proj.13
value: 0.00078
- filter: mlp.gate_proj.14
value: 0.00946
- filter: mlp.gate_proj.15
value: 0.01341
- filter: mlp.gate_proj.16
value: 0.00695
- filter: mlp.gate_proj.17
value: 0.02098
- filter: mlp.gate_proj.18
value: 0.03723
- filter: mlp.gate_proj.19
value: 0.05063
- filter: mlp.gate_proj.20
value: 0.07824
- filter: mlp.gate_proj.21
value: 0.06901
- filter: mlp.gate_proj.22
value: 0.04058
- filter: mlp.gate_proj.23
value: 0.02026
- filter: mlp.gate_proj.24
value: 0.07419
- filter: mlp.gate_proj.25
value: 0.05227
- filter: mlp.up_proj.0
value: 0.0405
- filter: mlp.up_proj.1
value: 0.01271
- filter: mlp.up_proj.2
value: 0.0355
- filter: mlp.up_proj.3
value: 0.04756
- filter: mlp.up_proj.4
value: 0.10248
- filter: mlp.up_proj.5
value: 0.07179
- filter: mlp.up_proj.6
value: 0.01996
- filter: mlp.up_proj.7
value: 0.00477
- filter: mlp.up_proj.8
value: 0.05971
- filter: mlp.up_proj.9
value: 0.03401
- filter: mlp.up_proj.10
value: 0.00776
- filter: mlp.up_proj.11
value: 0.0539
- filter: mlp.up_proj.12
value: 0.03164
- filter: mlp.up_proj.13
value: 0.0101
- filter: mlp.up_proj.14
value: 0.027
- filter: mlp.up_proj.15
value: 0.00638
- filter: mlp.up_proj.16
value: 0.02388
- filter: mlp.up_proj.17
value: 0.01701
- filter: mlp.up_proj.18
value: 0.05083
- filter: mlp.up_proj.19
value: 0.04951
- filter: mlp.up_proj.20
value: 0.06965
- filter: mlp.up_proj.21
value: 0.06283
- filter: mlp.up_proj.22
value: 0.03839
- filter: mlp.up_proj.23
value: 0.01068
- filter: mlp.up_proj.24
value: 0.0634
- filter: mlp.up_proj.25
value: 0.04805
- filter: mlp.down_proj.0
value: 0.04494
- filter: mlp.down_proj.1
value: 0.02927
- filter: mlp.down_proj.2
value: 0.05529
- filter: mlp.down_proj.3
value: 0.03749
- filter: mlp.down_proj.4
value: 0.02953
- filter: mlp.down_proj.5
value: 0.02668
- filter: mlp.down_proj.6
value: 0.00829
- filter: mlp.down_proj.7
value: 0.07776
- filter: mlp.down_proj.8
value: 0.06762
- filter: mlp.down_proj.9
value: 0.05744
- filter: mlp.down_proj.10
value: 0.01543
- filter: mlp.down_proj.11
value: 0.01538
- filter: mlp.down_proj.12
value: 0.02167
- filter: mlp.down_proj.13
value: 0.01876
- filter: mlp.down_proj.14
value: 0.01032
- filter: mlp.down_proj.15
value: 0.00995
- filter: mlp.down_proj.16
value: 0.05194
- filter: mlp.down_proj.17
value: 0.03503
- filter: mlp.down_proj.18
value: 0.07623
- filter: mlp.down_proj.19
value: 0.00976
- filter: mlp.down_proj.20
value: 0.01564
- filter: mlp.down_proj.21
value: 0.01396
- filter: mlp.down_proj.22
value: 0.03777
- filter: mlp.down_proj.23
value: 0.11013
- filter: mlp.down_proj.24
value: 0.1041
- filter: mlp.down_proj.25
value: 0.01961
- value: 1
weight:
- value: 1
merge_method: ties
base_model: google/gemma-2-2b
parameters:
normalize: true
int8_mask: true
dtype: bfloat16
tokenizer_source: union
💻 Usage
!pip install -qU transformers accelerate
from transformers import AutoTokenizer
import transformers
import torch
model = "choprahetarth/gemma-instruct-merge"
messages = [{"role": "user", "content": "What is a large language model?"}]
tokenizer = AutoTokenizer.from_pretrained(model)
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
pipeline = transformers.pipeline(
"text-generation",
model=model,
torch_dtype=torch.float16,
device_map="auto",
)
outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])