--- base_model: - TechxGenus/starcoder2-3b-instruct tags: - merge - mergekit - lazymergekit - TechxGenus/starcoder2-3b-instruct --- # they_not_like_us they_not_like_us is a merge of the following models using [LazyMergekit](https://colab.research.google.com/drive/1obulZ1ROXHjYLn6PPZJwRR6GzgQogxxb?usp=sharing): * [TechxGenus/starcoder2-3b-instruct](https://huggingface.co./TechxGenus/starcoder2-3b-instruct) ## 🧩 Configuration ```yaml models: - model: bigcode/starcoder2-3b - model: TechxGenus/starcoder2-3b-instruct parameters: density: - filter: self_attn.q_proj.0 value: 0.01384 - filter: self_attn.q_proj.1 value: 0.00657 - filter: self_attn.q_proj.2 value: 0.02731 - filter: self_attn.q_proj.3 value: 0.03261 - filter: self_attn.q_proj.4 value: 0.05056 - filter: self_attn.q_proj.5 value: 0.05539 - filter: self_attn.q_proj.6 value: 0.05796 - filter: self_attn.q_proj.7 value: 0.06573 - filter: self_attn.q_proj.8 value: 0.09558 - filter: self_attn.q_proj.9 value: 0.11226 - filter: self_attn.q_proj.10 value: 0.1053 - filter: self_attn.q_proj.11 value: 0.07023 - filter: self_attn.q_proj.12 value: 0.04345 - filter: self_attn.q_proj.13 value: 0.02855 - filter: self_attn.q_proj.14 value: 0.04248 - filter: self_attn.q_proj.15 value: 0.00938 - filter: self_attn.q_proj.16 value: 0.04849 - filter: self_attn.q_proj.17 value: 0.0569 - filter: self_attn.q_proj.18 value: 0.02524 - filter: self_attn.q_proj.19 value: 0.03765 - filter: self_attn.q_proj.20 value: 0.00301 - filter: self_attn.q_proj.21 value: 0.01149 - filter: self_attn.k_proj.0 value: 0.01448 - filter: self_attn.k_proj.1 value: 0.01995 - filter: self_attn.k_proj.2 value: 0.02198 - filter: self_attn.k_proj.3 value: 0.02643 - filter: self_attn.k_proj.4 value: 0.04244 - filter: self_attn.k_proj.5 value: 0.03983 - filter: self_attn.k_proj.6 value: 0.03963 - filter: self_attn.k_proj.7 value: 0.04097 - filter: self_attn.k_proj.8 value: 0.10344 - filter: self_attn.k_proj.9 value: 0.12206 - filter: self_attn.k_proj.10 value: 0.10247 - filter: self_attn.k_proj.11 value: 0.08638 - filter: self_attn.k_proj.12 value: 0.06374 - filter: self_attn.k_proj.13 value: 0.05815 - filter: self_attn.k_proj.14 value: 0.0267 - filter: self_attn.k_proj.15 value: 0.0105 - filter: self_attn.k_proj.16 value: 0.03183 - filter: self_attn.k_proj.17 value: 0.0173 - filter: self_attn.k_proj.18 value: 0.06724 - filter: self_attn.k_proj.19 value: 0.01356 - filter: self_attn.k_proj.20 value: 0.03054 - filter: self_attn.k_proj.21 value: 0.02039 - filter: self_attn.v_proj.0 value: 0.00132 - filter: self_attn.v_proj.1 value: 0.00024 - filter: self_attn.v_proj.2 value: 0.00149 - filter: self_attn.v_proj.3 value: 0.00292 - filter: self_attn.v_proj.4 value: 0.00208 - filter: self_attn.v_proj.5 value: 0.00715 - filter: self_attn.v_proj.6 value: 0.00725 - filter: self_attn.v_proj.7 value: 0.00891 - filter: self_attn.v_proj.8 value: 0.0271 - filter: self_attn.v_proj.9 value: 0.03499 - filter: self_attn.v_proj.10 value: 0.04242 - filter: self_attn.v_proj.11 value: 0.05088 - filter: self_attn.v_proj.12 value: 0.0481 - filter: self_attn.v_proj.13 value: 0.04341 - filter: self_attn.v_proj.14 value: 0.05882 - filter: self_attn.v_proj.15 value: 0.0702 - filter: self_attn.v_proj.16 value: 0.07306 - filter: self_attn.v_proj.17 value: 0.08186 - filter: self_attn.v_proj.18 value: 0.08394 - filter: self_attn.v_proj.19 value: 0.07471 - filter: self_attn.v_proj.20 value: 0.16654 - filter: self_attn.v_proj.21 value: 0.11261 - filter: self_attn.o_proj.0 value: 0.00157 - filter: self_attn.o_proj.1 value: 0.00103 - filter: self_attn.o_proj.2 value: 0.0019 - filter: self_attn.o_proj.3 value: 0.00336 - filter: self_attn.o_proj.4 value: 0.00236 - filter: self_attn.o_proj.5 value: 0.0061 - filter: self_attn.o_proj.6 value: 0.00104 - filter: self_attn.o_proj.7 value: 0.0095 - filter: self_attn.o_proj.8 value: 0.00767 - filter: self_attn.o_proj.9 value: 0.01618 - filter: self_attn.o_proj.10 value: 0.01477 - filter: self_attn.o_proj.11 value: 0.00161 - filter: self_attn.o_proj.12 value: 0.00596 - filter: self_attn.o_proj.13 value: 0.01282 - filter: self_attn.o_proj.14 value: 0.05706 - filter: self_attn.o_proj.15 value: 0.04798 - filter: self_attn.o_proj.16 value: 0.02363 - filter: self_attn.o_proj.17 value: 0.04288 - filter: self_attn.o_proj.18 value: 0.12266 - filter: self_attn.o_proj.19 value: 0.03632 - filter: self_attn.o_proj.20 value: 0.32836 - filter: self_attn.o_proj.21 value: 0.25524 - filter: mlp.gate_proj.0 value: 0.0008 - filter: mlp.gate_proj.1 value: 0.00325 - filter: mlp.gate_proj.2 value: 0.0023 - filter: mlp.gate_proj.3 value: 0.00033 - filter: mlp.gate_proj.4 value: 0.00163 - filter: mlp.gate_proj.5 value: 0.00365 - filter: mlp.gate_proj.6 value: 0.0042 - filter: mlp.gate_proj.7 value: 0.01307 - filter: mlp.gate_proj.8 value: 0.01445 - filter: mlp.gate_proj.9 value: 0.02852 - filter: mlp.gate_proj.10 value: 0.03948 - filter: mlp.gate_proj.11 value: 0.04786 - filter: mlp.gate_proj.12 value: 0.0536 - filter: mlp.gate_proj.13 value: 0.05585 - filter: mlp.gate_proj.14 value: 0.0648 - filter: mlp.gate_proj.15 value: 0.06929 - filter: mlp.gate_proj.16 value: 0.0744 - filter: mlp.gate_proj.17 value: 0.08906 - filter: mlp.gate_proj.18 value: 0.104 - filter: mlp.gate_proj.19 value: 0.09914 - filter: mlp.gate_proj.20 value: 0.10889 - filter: mlp.gate_proj.21 value: 0.12143 - filter: mlp.up_proj.0 value: 0.00118 - filter: mlp.up_proj.1 value: 0.00377 - filter: mlp.up_proj.2 value: 0.00249 - filter: mlp.up_proj.3 value: 0.00103 - filter: mlp.up_proj.4 value: 0.00085 - filter: mlp.up_proj.5 value: 0.00298 - filter: mlp.up_proj.6 value: 0.00318 - filter: mlp.up_proj.7 value: 0.01108 - filter: mlp.up_proj.8 value: 0.0145 - filter: mlp.up_proj.9 value: 0.02919 - filter: mlp.up_proj.10 value: 0.03808 - filter: mlp.up_proj.11 value: 0.04536 - filter: mlp.up_proj.12 value: 0.05076 - filter: mlp.up_proj.13 value: 0.05593 - filter: mlp.up_proj.14 value: 0.06894 - filter: mlp.up_proj.15 value: 0.07535 - filter: mlp.up_proj.16 value: 0.07777 - filter: mlp.up_proj.17 value: 0.08961 - filter: mlp.up_proj.18 value: 0.1045 - filter: mlp.up_proj.19 value: 0.10045 - filter: mlp.up_proj.20 value: 0.11479 - filter: mlp.up_proj.21 value: 0.10822 - filter: mlp.down_proj.0 value: 0.07073 - filter: mlp.down_proj.1 value: 0.04763 - filter: mlp.down_proj.2 value: 0.01994 - filter: mlp.down_proj.3 value: 0.00011 - filter: mlp.down_proj.4 value: 0.00291 - filter: mlp.down_proj.5 value: 0.00115 - filter: mlp.down_proj.6 value: 0.00396 - filter: mlp.down_proj.7 value: 0.02167 - filter: mlp.down_proj.8 value: 0.00561 - filter: mlp.down_proj.9 value: 0.00899 - filter: mlp.down_proj.10 value: 0.01681 - filter: mlp.down_proj.11 value: 0.02464 - filter: mlp.down_proj.12 value: 0.02988 - filter: mlp.down_proj.13 value: 0.03701 - filter: mlp.down_proj.14 value: 0.04521 - filter: mlp.down_proj.15 value: 0.07515 - filter: mlp.down_proj.16 value: 0.05471 - filter: mlp.down_proj.17 value: 0.05965 - filter: mlp.down_proj.18 value: 0.06833 - filter: mlp.down_proj.19 value: 0.07838 - filter: mlp.down_proj.20 value: 0.11912 - filter: mlp.down_proj.21 value: 0.20841 - value: 1 weight: - value: 1 merge_method: ties base_model: bigcode/starcoder2-3b parameters: normalize: true int8_mask: true dtype: bfloat16 tokenizer_source: union ``` ## 💻 Usage ```python !pip install -qU transformers accelerate from transformers import AutoTokenizer import transformers import torch model = "choprahetarth/they_not_like_us" messages = [{"role": "user", "content": "What is a large language model?"}] tokenizer = AutoTokenizer.from_pretrained(model) prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) pipeline = transformers.pipeline( "text-generation", model=model, torch_dtype=torch.float16, device_map="auto", ) outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95) print(outputs[0]["generated_text"]) ```