Edit model card

gemma-instruct-merge

gemma-instruct-merge is a merge of the following models using LazyMergekit:

🧩 Configuration

models:
- model: google/gemma-2-2b
- model: google/gemma-2-2b-it
  parameters:
    density:
    - filter: self_attn.q_proj.0
      value: 0.00111
    - filter: self_attn.q_proj.1
      value: 0.04206
    - filter: self_attn.q_proj.2
      value: 0.00636
    - filter: self_attn.q_proj.3
      value: 0.01936
    - filter: self_attn.q_proj.4
      value: 0.05024
    - filter: self_attn.q_proj.5
      value: 0.03887
    - filter: self_attn.q_proj.6
      value: 0.00598
    - filter: self_attn.q_proj.7
      value: 0.01845
    - filter: self_attn.q_proj.8
      value: 0.02455
    - filter: self_attn.q_proj.9
      value: 0.03162
    - filter: self_attn.q_proj.10
      value: 0.01905
    - filter: self_attn.q_proj.11
      value: 0.05388
    - filter: self_attn.q_proj.12
      value: 0.04658
    - filter: self_attn.q_proj.13
      value: 0.04073
    - filter: self_attn.q_proj.14
      value: 0.07451
    - filter: self_attn.q_proj.15
      value: 0.00907
    - filter: self_attn.q_proj.16
      value: 0.04742
    - filter: self_attn.q_proj.17
      value: 0.05307
    - filter: self_attn.q_proj.18
      value: 0.06946
    - filter: self_attn.q_proj.19
      value: 0.07954
    - filter: self_attn.q_proj.20
      value: 0.0871
    - filter: self_attn.q_proj.21
      value: 0.08215
    - filter: self_attn.q_proj.22
      value: 0.04543
    - filter: self_attn.q_proj.23
      value: 0.01752
    - filter: self_attn.q_proj.24
      value: 0.01398
    - filter: self_attn.q_proj.25
      value: 0.02189
    - filter: self_attn.k_proj.0
      value: 0.00134
    - filter: self_attn.k_proj.1
      value: 0.02801
    - filter: self_attn.k_proj.2
      value: 0.00516
    - filter: self_attn.k_proj.3
      value: 0.01089
    - filter: self_attn.k_proj.4
      value: 0.0373
    - filter: self_attn.k_proj.5
      value: 0.02292
    - filter: self_attn.k_proj.6
      value: 0.01761
    - filter: self_attn.k_proj.7
      value: 0.03038
    - filter: self_attn.k_proj.8
      value: 0.01651
    - filter: self_attn.k_proj.9
      value: 0.01971
    - filter: self_attn.k_proj.10
      value: 0.01415
    - filter: self_attn.k_proj.11
      value: 0.05657
    - filter: self_attn.k_proj.12
      value: 0.04657
    - filter: self_attn.k_proj.13
      value: 0.03766
    - filter: self_attn.k_proj.14
      value: 0.06191
    - filter: self_attn.k_proj.15
      value: 0.03054
    - filter: self_attn.k_proj.16
      value: 0.07193
    - filter: self_attn.k_proj.17
      value: 0.05085
    - filter: self_attn.k_proj.18
      value: 0.08122
    - filter: self_attn.k_proj.19
      value: 0.09466
    - filter: self_attn.k_proj.20
      value: 0.09547
    - filter: self_attn.k_proj.21
      value: 0.07629
    - filter: self_attn.k_proj.22
      value: 0.04262
    - filter: self_attn.k_proj.23
      value: 0.0132
    - filter: self_attn.k_proj.24
      value: 0.00966
    - filter: self_attn.k_proj.25
      value: 0.0269
    - filter: self_attn.v_proj.0
      value: 0.00604
    - filter: self_attn.v_proj.1
      value: 0.02746
    - filter: self_attn.v_proj.2
      value: 0.00023
    - filter: self_attn.v_proj.3
      value: 0.01785
    - filter: self_attn.v_proj.4
      value: 0.04637
    - filter: self_attn.v_proj.5
      value: 0.0381
    - filter: self_attn.v_proj.6
      value: 0.01711
    - filter: self_attn.v_proj.7
      value: 0.00946
    - filter: self_attn.v_proj.8
      value: 0.04331
    - filter: self_attn.v_proj.9
      value: 0.03508
    - filter: self_attn.v_proj.10
      value: 0.02323
    - filter: self_attn.v_proj.11
      value: 0.05735
    - filter: self_attn.v_proj.12
      value: 0.03522
    - filter: self_attn.v_proj.13
      value: 0.03315
    - filter: self_attn.v_proj.14
      value: 0.08075
    - filter: self_attn.v_proj.15
      value: 0.00321
    - filter: self_attn.v_proj.16
      value: 0.03811
    - filter: self_attn.v_proj.17
      value: 0.05874
    - filter: self_attn.v_proj.18
      value: 0.0798
    - filter: self_attn.v_proj.19
      value: 0.06172
    - filter: self_attn.v_proj.20
      value: 0.08332
    - filter: self_attn.v_proj.21
      value: 0.06119
    - filter: self_attn.v_proj.22
      value: 0.05979
    - filter: self_attn.v_proj.23
      value: 0.04042
    - filter: self_attn.v_proj.24
      value: 0.01768
    - filter: self_attn.v_proj.25
      value: 0.02529
    - filter: self_attn.o_proj.0
      value: 0.00489
    - filter: self_attn.o_proj.1
      value: 0.02963
    - filter: self_attn.o_proj.2
      value: 0.01037
    - filter: self_attn.o_proj.3
      value: 0.0282
    - filter: self_attn.o_proj.4
      value: 0.01913
    - filter: self_attn.o_proj.5
      value: 0.02026
    - filter: self_attn.o_proj.6
      value: 0.00194
    - filter: self_attn.o_proj.7
      value: 0.01702
    - filter: self_attn.o_proj.8
      value: 0.01217
    - filter: self_attn.o_proj.9
      value: 0.12596
    - filter: self_attn.o_proj.10
      value: 0.07404
    - filter: self_attn.o_proj.11
      value: 0.06695
    - filter: self_attn.o_proj.12
      value: 0.11963
    - filter: self_attn.o_proj.13
      value: 0.08394
    - filter: self_attn.o_proj.14
      value: 0.08886
    - filter: self_attn.o_proj.15
      value: 0.01717
    - filter: self_attn.o_proj.16
      value: 0.10637
    - filter: self_attn.o_proj.17
      value: 0.05899
    - filter: self_attn.o_proj.18
      value: 0.01767
    - filter: self_attn.o_proj.19
      value: 0.01819
    - filter: self_attn.o_proj.20
      value: 0.00892
    - filter: self_attn.o_proj.21
      value: 0.02998
    - filter: self_attn.o_proj.22
      value: 0.01114
    - filter: self_attn.o_proj.23
      value: 0.01485
    - filter: self_attn.o_proj.24
      value: 0.00447
    - filter: self_attn.o_proj.25
      value: 0.00927
    - filter: mlp.gate_proj.0
      value: 0.09568
    - filter: mlp.gate_proj.1
      value: 0.01288
    - filter: mlp.gate_proj.2
      value: 0.00291
    - filter: mlp.gate_proj.3
      value: 0.02596
    - filter: mlp.gate_proj.4
      value: 0.10395
    - filter: mlp.gate_proj.5
      value: 0.0627
    - filter: mlp.gate_proj.6
      value: 0.02224
    - filter: mlp.gate_proj.7
      value: 0.04474
    - filter: mlp.gate_proj.8
      value: 0.04204
    - filter: mlp.gate_proj.9
      value: 0.03999
    - filter: mlp.gate_proj.10
      value: 0.0027
    - filter: mlp.gate_proj.11
      value: 0.04703
    - filter: mlp.gate_proj.12
      value: 0.0232
    - filter: mlp.gate_proj.13
      value: 0.00078
    - filter: mlp.gate_proj.14
      value: 0.00946
    - filter: mlp.gate_proj.15
      value: 0.01341
    - filter: mlp.gate_proj.16
      value: 0.00695
    - filter: mlp.gate_proj.17
      value: 0.02098
    - filter: mlp.gate_proj.18
      value: 0.03723
    - filter: mlp.gate_proj.19
      value: 0.05063
    - filter: mlp.gate_proj.20
      value: 0.07824
    - filter: mlp.gate_proj.21
      value: 0.06901
    - filter: mlp.gate_proj.22
      value: 0.04058
    - filter: mlp.gate_proj.23
      value: 0.02026
    - filter: mlp.gate_proj.24
      value: 0.07419
    - filter: mlp.gate_proj.25
      value: 0.05227
    - filter: mlp.up_proj.0
      value: 0.0405
    - filter: mlp.up_proj.1
      value: 0.01271
    - filter: mlp.up_proj.2
      value: 0.0355
    - filter: mlp.up_proj.3
      value: 0.04756
    - filter: mlp.up_proj.4
      value: 0.10248
    - filter: mlp.up_proj.5
      value: 0.07179
    - filter: mlp.up_proj.6
      value: 0.01996
    - filter: mlp.up_proj.7
      value: 0.00477
    - filter: mlp.up_proj.8
      value: 0.05971
    - filter: mlp.up_proj.9
      value: 0.03401
    - filter: mlp.up_proj.10
      value: 0.00776
    - filter: mlp.up_proj.11
      value: 0.0539
    - filter: mlp.up_proj.12
      value: 0.03164
    - filter: mlp.up_proj.13
      value: 0.0101
    - filter: mlp.up_proj.14
      value: 0.027
    - filter: mlp.up_proj.15
      value: 0.00638
    - filter: mlp.up_proj.16
      value: 0.02388
    - filter: mlp.up_proj.17
      value: 0.01701
    - filter: mlp.up_proj.18
      value: 0.05083
    - filter: mlp.up_proj.19
      value: 0.04951
    - filter: mlp.up_proj.20
      value: 0.06965
    - filter: mlp.up_proj.21
      value: 0.06283
    - filter: mlp.up_proj.22
      value: 0.03839
    - filter: mlp.up_proj.23
      value: 0.01068
    - filter: mlp.up_proj.24
      value: 0.0634
    - filter: mlp.up_proj.25
      value: 0.04805
    - filter: mlp.down_proj.0
      value: 0.04494
    - filter: mlp.down_proj.1
      value: 0.02927
    - filter: mlp.down_proj.2
      value: 0.05529
    - filter: mlp.down_proj.3
      value: 0.03749
    - filter: mlp.down_proj.4
      value: 0.02953
    - filter: mlp.down_proj.5
      value: 0.02668
    - filter: mlp.down_proj.6
      value: 0.00829
    - filter: mlp.down_proj.7
      value: 0.07776
    - filter: mlp.down_proj.8
      value: 0.06762
    - filter: mlp.down_proj.9
      value: 0.05744
    - filter: mlp.down_proj.10
      value: 0.01543
    - filter: mlp.down_proj.11
      value: 0.01538
    - filter: mlp.down_proj.12
      value: 0.02167
    - filter: mlp.down_proj.13
      value: 0.01876
    - filter: mlp.down_proj.14
      value: 0.01032
    - filter: mlp.down_proj.15
      value: 0.00995
    - filter: mlp.down_proj.16
      value: 0.05194
    - filter: mlp.down_proj.17
      value: 0.03503
    - filter: mlp.down_proj.18
      value: 0.07623
    - filter: mlp.down_proj.19
      value: 0.00976
    - filter: mlp.down_proj.20
      value: 0.01564
    - filter: mlp.down_proj.21
      value: 0.01396
    - filter: mlp.down_proj.22
      value: 0.03777
    - filter: mlp.down_proj.23
      value: 0.11013
    - filter: mlp.down_proj.24
      value: 0.1041
    - filter: mlp.down_proj.25
      value: 0.01961
    - value: 1
    weight:
    - value: 1
merge_method: ties
base_model: google/gemma-2-2b
parameters:
  normalize: true
  int8_mask: true
dtype: bfloat16
tokenizer_source: union

πŸ’» Usage

!pip install -qU transformers accelerate

from transformers import AutoTokenizer
import transformers
import torch

model = "choprahetarth/gemma-instruct-merge"
messages = [{"role": "user", "content": "What is a large language model?"}]

tokenizer = AutoTokenizer.from_pretrained(model)
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    torch_dtype=torch.float16,
    device_map="auto",
)

outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])
Downloads last month
0
Safetensors
Model size
2.61B params
Tensor type
BF16
Β·
Inference API
Unable to determine this model's library. Check the docs .

Model tree for choprahetarth/gemma-instruct-merge

Base model

google/gemma-2-2b
Finetuned
this model