--- base_model: - google/gemma-2-2b-it tags: - merge - mergekit - lazymergekit - google/gemma-2-2b-it --- # gemma-instruct-merge gemma-instruct-merge is a merge of the following models using [LazyMergekit](https://colab.research.google.com/drive/1obulZ1ROXHjYLn6PPZJwRR6GzgQogxxb?usp=sharing): * [google/gemma-2-2b-it](https://huggingface.co./google/gemma-2-2b-it) ## 🧩 Configuration ```yaml models: - model: google/gemma-2-2b - model: google/gemma-2-2b-it parameters: density: - filter: self_attn.q_proj.0 value: 0.00111 - filter: self_attn.q_proj.1 value: 0.04206 - filter: self_attn.q_proj.2 value: 0.00636 - filter: self_attn.q_proj.3 value: 0.01936 - filter: self_attn.q_proj.4 value: 0.05024 - filter: self_attn.q_proj.5 value: 0.03887 - filter: self_attn.q_proj.6 value: 0.00598 - filter: self_attn.q_proj.7 value: 0.01845 - filter: self_attn.q_proj.8 value: 0.02455 - filter: self_attn.q_proj.9 value: 0.03162 - filter: self_attn.q_proj.10 value: 0.01905 - filter: self_attn.q_proj.11 value: 0.05388 - filter: self_attn.q_proj.12 value: 0.04658 - filter: self_attn.q_proj.13 value: 0.04073 - filter: self_attn.q_proj.14 value: 0.07451 - filter: self_attn.q_proj.15 value: 0.00907 - filter: self_attn.q_proj.16 value: 0.04742 - filter: self_attn.q_proj.17 value: 0.05307 - filter: self_attn.q_proj.18 value: 0.06946 - filter: self_attn.q_proj.19 value: 0.07954 - filter: self_attn.q_proj.20 value: 0.0871 - filter: self_attn.q_proj.21 value: 0.08215 - filter: self_attn.q_proj.22 value: 0.04543 - filter: self_attn.q_proj.23 value: 0.01752 - filter: self_attn.q_proj.24 value: 0.01398 - filter: self_attn.q_proj.25 value: 0.02189 - filter: self_attn.k_proj.0 value: 0.00134 - filter: self_attn.k_proj.1 value: 0.02801 - filter: self_attn.k_proj.2 value: 0.00516 - filter: self_attn.k_proj.3 value: 0.01089 - filter: self_attn.k_proj.4 value: 0.0373 - filter: self_attn.k_proj.5 value: 0.02292 - filter: self_attn.k_proj.6 value: 0.01761 - filter: self_attn.k_proj.7 value: 0.03038 - filter: self_attn.k_proj.8 value: 0.01651 - filter: self_attn.k_proj.9 value: 0.01971 - filter: self_attn.k_proj.10 value: 0.01415 - filter: self_attn.k_proj.11 value: 0.05657 - filter: self_attn.k_proj.12 value: 0.04657 - filter: self_attn.k_proj.13 value: 0.03766 - filter: self_attn.k_proj.14 value: 0.06191 - filter: self_attn.k_proj.15 value: 0.03054 - filter: self_attn.k_proj.16 value: 0.07193 - filter: self_attn.k_proj.17 value: 0.05085 - filter: self_attn.k_proj.18 value: 0.08122 - filter: self_attn.k_proj.19 value: 0.09466 - filter: self_attn.k_proj.20 value: 0.09547 - filter: self_attn.k_proj.21 value: 0.07629 - filter: self_attn.k_proj.22 value: 0.04262 - filter: self_attn.k_proj.23 value: 0.0132 - filter: self_attn.k_proj.24 value: 0.00966 - filter: self_attn.k_proj.25 value: 0.0269 - filter: self_attn.v_proj.0 value: 0.00604 - filter: self_attn.v_proj.1 value: 0.02746 - filter: self_attn.v_proj.2 value: 0.00023 - filter: self_attn.v_proj.3 value: 0.01785 - filter: self_attn.v_proj.4 value: 0.04637 - filter: self_attn.v_proj.5 value: 0.0381 - filter: self_attn.v_proj.6 value: 0.01711 - filter: self_attn.v_proj.7 value: 0.00946 - filter: self_attn.v_proj.8 value: 0.04331 - filter: self_attn.v_proj.9 value: 0.03508 - filter: self_attn.v_proj.10 value: 0.02323 - filter: self_attn.v_proj.11 value: 0.05735 - filter: self_attn.v_proj.12 value: 0.03522 - filter: self_attn.v_proj.13 value: 0.03315 - filter: self_attn.v_proj.14 value: 0.08075 - filter: self_attn.v_proj.15 value: 0.00321 - filter: self_attn.v_proj.16 value: 0.03811 - filter: self_attn.v_proj.17 value: 0.05874 - filter: self_attn.v_proj.18 value: 0.0798 - filter: self_attn.v_proj.19 value: 0.06172 - filter: self_attn.v_proj.20 value: 0.08332 - filter: self_attn.v_proj.21 value: 0.06119 - filter: self_attn.v_proj.22 value: 0.05979 - filter: self_attn.v_proj.23 value: 0.04042 - filter: self_attn.v_proj.24 value: 0.01768 - filter: self_attn.v_proj.25 value: 0.02529 - filter: self_attn.o_proj.0 value: 0.00489 - filter: self_attn.o_proj.1 value: 0.02963 - filter: self_attn.o_proj.2 value: 0.01037 - filter: self_attn.o_proj.3 value: 0.0282 - filter: self_attn.o_proj.4 value: 0.01913 - filter: self_attn.o_proj.5 value: 0.02026 - filter: self_attn.o_proj.6 value: 0.00194 - filter: self_attn.o_proj.7 value: 0.01702 - filter: self_attn.o_proj.8 value: 0.01217 - filter: self_attn.o_proj.9 value: 0.12596 - filter: self_attn.o_proj.10 value: 0.07404 - filter: self_attn.o_proj.11 value: 0.06695 - filter: self_attn.o_proj.12 value: 0.11963 - filter: self_attn.o_proj.13 value: 0.08394 - filter: self_attn.o_proj.14 value: 0.08886 - filter: self_attn.o_proj.15 value: 0.01717 - filter: self_attn.o_proj.16 value: 0.10637 - filter: self_attn.o_proj.17 value: 0.05899 - filter: self_attn.o_proj.18 value: 0.01767 - filter: self_attn.o_proj.19 value: 0.01819 - filter: self_attn.o_proj.20 value: 0.00892 - filter: self_attn.o_proj.21 value: 0.02998 - filter: self_attn.o_proj.22 value: 0.01114 - filter: self_attn.o_proj.23 value: 0.01485 - filter: self_attn.o_proj.24 value: 0.00447 - filter: self_attn.o_proj.25 value: 0.00927 - filter: mlp.gate_proj.0 value: 0.09568 - filter: mlp.gate_proj.1 value: 0.01288 - filter: mlp.gate_proj.2 value: 0.00291 - filter: mlp.gate_proj.3 value: 0.02596 - filter: mlp.gate_proj.4 value: 0.10395 - filter: mlp.gate_proj.5 value: 0.0627 - filter: mlp.gate_proj.6 value: 0.02224 - filter: mlp.gate_proj.7 value: 0.04474 - filter: mlp.gate_proj.8 value: 0.04204 - filter: mlp.gate_proj.9 value: 0.03999 - filter: mlp.gate_proj.10 value: 0.0027 - filter: mlp.gate_proj.11 value: 0.04703 - filter: mlp.gate_proj.12 value: 0.0232 - filter: mlp.gate_proj.13 value: 0.00078 - filter: mlp.gate_proj.14 value: 0.00946 - filter: mlp.gate_proj.15 value: 0.01341 - filter: mlp.gate_proj.16 value: 0.00695 - filter: mlp.gate_proj.17 value: 0.02098 - filter: mlp.gate_proj.18 value: 0.03723 - filter: mlp.gate_proj.19 value: 0.05063 - filter: mlp.gate_proj.20 value: 0.07824 - filter: mlp.gate_proj.21 value: 0.06901 - filter: mlp.gate_proj.22 value: 0.04058 - filter: mlp.gate_proj.23 value: 0.02026 - filter: mlp.gate_proj.24 value: 0.07419 - filter: mlp.gate_proj.25 value: 0.05227 - filter: mlp.up_proj.0 value: 0.0405 - filter: mlp.up_proj.1 value: 0.01271 - filter: mlp.up_proj.2 value: 0.0355 - filter: mlp.up_proj.3 value: 0.04756 - filter: mlp.up_proj.4 value: 0.10248 - filter: mlp.up_proj.5 value: 0.07179 - filter: mlp.up_proj.6 value: 0.01996 - filter: mlp.up_proj.7 value: 0.00477 - filter: mlp.up_proj.8 value: 0.05971 - filter: mlp.up_proj.9 value: 0.03401 - filter: mlp.up_proj.10 value: 0.00776 - filter: mlp.up_proj.11 value: 0.0539 - filter: mlp.up_proj.12 value: 0.03164 - filter: mlp.up_proj.13 value: 0.0101 - filter: mlp.up_proj.14 value: 0.027 - filter: mlp.up_proj.15 value: 0.00638 - filter: mlp.up_proj.16 value: 0.02388 - filter: mlp.up_proj.17 value: 0.01701 - filter: mlp.up_proj.18 value: 0.05083 - filter: mlp.up_proj.19 value: 0.04951 - filter: mlp.up_proj.20 value: 0.06965 - filter: mlp.up_proj.21 value: 0.06283 - filter: mlp.up_proj.22 value: 0.03839 - filter: mlp.up_proj.23 value: 0.01068 - filter: mlp.up_proj.24 value: 0.0634 - filter: mlp.up_proj.25 value: 0.04805 - filter: mlp.down_proj.0 value: 0.04494 - filter: mlp.down_proj.1 value: 0.02927 - filter: mlp.down_proj.2 value: 0.05529 - filter: mlp.down_proj.3 value: 0.03749 - filter: mlp.down_proj.4 value: 0.02953 - filter: mlp.down_proj.5 value: 0.02668 - filter: mlp.down_proj.6 value: 0.00829 - filter: mlp.down_proj.7 value: 0.07776 - filter: mlp.down_proj.8 value: 0.06762 - filter: mlp.down_proj.9 value: 0.05744 - filter: mlp.down_proj.10 value: 0.01543 - filter: mlp.down_proj.11 value: 0.01538 - filter: mlp.down_proj.12 value: 0.02167 - filter: mlp.down_proj.13 value: 0.01876 - filter: mlp.down_proj.14 value: 0.01032 - filter: mlp.down_proj.15 value: 0.00995 - filter: mlp.down_proj.16 value: 0.05194 - filter: mlp.down_proj.17 value: 0.03503 - filter: mlp.down_proj.18 value: 0.07623 - filter: mlp.down_proj.19 value: 0.00976 - filter: mlp.down_proj.20 value: 0.01564 - filter: mlp.down_proj.21 value: 0.01396 - filter: mlp.down_proj.22 value: 0.03777 - filter: mlp.down_proj.23 value: 0.11013 - filter: mlp.down_proj.24 value: 0.1041 - filter: mlp.down_proj.25 value: 0.01961 - value: 1 weight: - value: 1 merge_method: ties base_model: google/gemma-2-2b parameters: normalize: true int8_mask: true dtype: bfloat16 tokenizer_source: union ``` ## 💻 Usage ```python !pip install -qU transformers accelerate from transformers import AutoTokenizer import transformers import torch model = "choprahetarth/gemma-instruct-merge" messages = [{"role": "user", "content": "What is a large language model?"}] tokenizer = AutoTokenizer.from_pretrained(model) prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) pipeline = transformers.pipeline( "text-generation", model=model, torch_dtype=torch.float16, device_map="auto", ) outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95) print(outputs[0]["generated_text"]) ```