they_not_like_us / README.md
choprahetarth's picture
Upload folder using huggingface_hub
b74ca27 verified
metadata
base_model:
  - TechxGenus/starcoder2-3b-instruct
tags:
  - merge
  - mergekit
  - lazymergekit
  - TechxGenus/starcoder2-3b-instruct

they_not_like_us

they_not_like_us is a merge of the following models using LazyMergekit:

🧩 Configuration

models:
- model: bigcode/starcoder2-3b
- model: TechxGenus/starcoder2-3b-instruct
  parameters:
    density:
    - filter: self_attn.q_proj.0
      value: 0.01384
    - filter: self_attn.q_proj.1
      value: 0.00657
    - filter: self_attn.q_proj.2
      value: 0.02731
    - filter: self_attn.q_proj.3
      value: 0.03261
    - filter: self_attn.q_proj.4
      value: 0.05056
    - filter: self_attn.q_proj.5
      value: 0.05539
    - filter: self_attn.q_proj.6
      value: 0.05796
    - filter: self_attn.q_proj.7
      value: 0.06573
    - filter: self_attn.q_proj.8
      value: 0.09558
    - filter: self_attn.q_proj.9
      value: 0.11226
    - filter: self_attn.q_proj.10
      value: 0.1053
    - filter: self_attn.q_proj.11
      value: 0.07023
    - filter: self_attn.q_proj.12
      value: 0.04345
    - filter: self_attn.q_proj.13
      value: 0.02855
    - filter: self_attn.q_proj.14
      value: 0.04248
    - filter: self_attn.q_proj.15
      value: 0.00938
    - filter: self_attn.q_proj.16
      value: 0.04849
    - filter: self_attn.q_proj.17
      value: 0.0569
    - filter: self_attn.q_proj.18
      value: 0.02524
    - filter: self_attn.q_proj.19
      value: 0.03765
    - filter: self_attn.q_proj.20
      value: 0.00301
    - filter: self_attn.q_proj.21
      value: 0.01149
    - filter: self_attn.k_proj.0
      value: 0.01448
    - filter: self_attn.k_proj.1
      value: 0.01995
    - filter: self_attn.k_proj.2
      value: 0.02198
    - filter: self_attn.k_proj.3
      value: 0.02643
    - filter: self_attn.k_proj.4
      value: 0.04244
    - filter: self_attn.k_proj.5
      value: 0.03983
    - filter: self_attn.k_proj.6
      value: 0.03963
    - filter: self_attn.k_proj.7
      value: 0.04097
    - filter: self_attn.k_proj.8
      value: 0.10344
    - filter: self_attn.k_proj.9
      value: 0.12206
    - filter: self_attn.k_proj.10
      value: 0.10247
    - filter: self_attn.k_proj.11
      value: 0.08638
    - filter: self_attn.k_proj.12
      value: 0.06374
    - filter: self_attn.k_proj.13
      value: 0.05815
    - filter: self_attn.k_proj.14
      value: 0.0267
    - filter: self_attn.k_proj.15
      value: 0.0105
    - filter: self_attn.k_proj.16
      value: 0.03183
    - filter: self_attn.k_proj.17
      value: 0.0173
    - filter: self_attn.k_proj.18
      value: 0.06724
    - filter: self_attn.k_proj.19
      value: 0.01356
    - filter: self_attn.k_proj.20
      value: 0.03054
    - filter: self_attn.k_proj.21
      value: 0.02039
    - filter: self_attn.v_proj.0
      value: 0.00132
    - filter: self_attn.v_proj.1
      value: 0.00024
    - filter: self_attn.v_proj.2
      value: 0.00149
    - filter: self_attn.v_proj.3
      value: 0.00292
    - filter: self_attn.v_proj.4
      value: 0.00208
    - filter: self_attn.v_proj.5
      value: 0.00715
    - filter: self_attn.v_proj.6
      value: 0.00725
    - filter: self_attn.v_proj.7
      value: 0.00891
    - filter: self_attn.v_proj.8
      value: 0.0271
    - filter: self_attn.v_proj.9
      value: 0.03499
    - filter: self_attn.v_proj.10
      value: 0.04242
    - filter: self_attn.v_proj.11
      value: 0.05088
    - filter: self_attn.v_proj.12
      value: 0.0481
    - filter: self_attn.v_proj.13
      value: 0.04341
    - filter: self_attn.v_proj.14
      value: 0.05882
    - filter: self_attn.v_proj.15
      value: 0.0702
    - filter: self_attn.v_proj.16
      value: 0.07306
    - filter: self_attn.v_proj.17
      value: 0.08186
    - filter: self_attn.v_proj.18
      value: 0.08394
    - filter: self_attn.v_proj.19
      value: 0.07471
    - filter: self_attn.v_proj.20
      value: 0.16654
    - filter: self_attn.v_proj.21
      value: 0.11261
    - filter: self_attn.o_proj.0
      value: 0.00157
    - filter: self_attn.o_proj.1
      value: 0.00103
    - filter: self_attn.o_proj.2
      value: 0.0019
    - filter: self_attn.o_proj.3
      value: 0.00336
    - filter: self_attn.o_proj.4
      value: 0.00236
    - filter: self_attn.o_proj.5
      value: 0.0061
    - filter: self_attn.o_proj.6
      value: 0.00104
    - filter: self_attn.o_proj.7
      value: 0.0095
    - filter: self_attn.o_proj.8
      value: 0.00767
    - filter: self_attn.o_proj.9
      value: 0.01618
    - filter: self_attn.o_proj.10
      value: 0.01477
    - filter: self_attn.o_proj.11
      value: 0.00161
    - filter: self_attn.o_proj.12
      value: 0.00596
    - filter: self_attn.o_proj.13
      value: 0.01282
    - filter: self_attn.o_proj.14
      value: 0.05706
    - filter: self_attn.o_proj.15
      value: 0.04798
    - filter: self_attn.o_proj.16
      value: 0.02363
    - filter: self_attn.o_proj.17
      value: 0.04288
    - filter: self_attn.o_proj.18
      value: 0.12266
    - filter: self_attn.o_proj.19
      value: 0.03632
    - filter: self_attn.o_proj.20
      value: 0.32836
    - filter: self_attn.o_proj.21
      value: 0.25524
    - filter: mlp.gate_proj.0
      value: 0.0008
    - filter: mlp.gate_proj.1
      value: 0.00325
    - filter: mlp.gate_proj.2
      value: 0.0023
    - filter: mlp.gate_proj.3
      value: 0.00033
    - filter: mlp.gate_proj.4
      value: 0.00163
    - filter: mlp.gate_proj.5
      value: 0.00365
    - filter: mlp.gate_proj.6
      value: 0.0042
    - filter: mlp.gate_proj.7
      value: 0.01307
    - filter: mlp.gate_proj.8
      value: 0.01445
    - filter: mlp.gate_proj.9
      value: 0.02852
    - filter: mlp.gate_proj.10
      value: 0.03948
    - filter: mlp.gate_proj.11
      value: 0.04786
    - filter: mlp.gate_proj.12
      value: 0.0536
    - filter: mlp.gate_proj.13
      value: 0.05585
    - filter: mlp.gate_proj.14
      value: 0.0648
    - filter: mlp.gate_proj.15
      value: 0.06929
    - filter: mlp.gate_proj.16
      value: 0.0744
    - filter: mlp.gate_proj.17
      value: 0.08906
    - filter: mlp.gate_proj.18
      value: 0.104
    - filter: mlp.gate_proj.19
      value: 0.09914
    - filter: mlp.gate_proj.20
      value: 0.10889
    - filter: mlp.gate_proj.21
      value: 0.12143
    - filter: mlp.up_proj.0
      value: 0.00118
    - filter: mlp.up_proj.1
      value: 0.00377
    - filter: mlp.up_proj.2
      value: 0.00249
    - filter: mlp.up_proj.3
      value: 0.00103
    - filter: mlp.up_proj.4
      value: 0.00085
    - filter: mlp.up_proj.5
      value: 0.00298
    - filter: mlp.up_proj.6
      value: 0.00318
    - filter: mlp.up_proj.7
      value: 0.01108
    - filter: mlp.up_proj.8
      value: 0.0145
    - filter: mlp.up_proj.9
      value: 0.02919
    - filter: mlp.up_proj.10
      value: 0.03808
    - filter: mlp.up_proj.11
      value: 0.04536
    - filter: mlp.up_proj.12
      value: 0.05076
    - filter: mlp.up_proj.13
      value: 0.05593
    - filter: mlp.up_proj.14
      value: 0.06894
    - filter: mlp.up_proj.15
      value: 0.07535
    - filter: mlp.up_proj.16
      value: 0.07777
    - filter: mlp.up_proj.17
      value: 0.08961
    - filter: mlp.up_proj.18
      value: 0.1045
    - filter: mlp.up_proj.19
      value: 0.10045
    - filter: mlp.up_proj.20
      value: 0.11479
    - filter: mlp.up_proj.21
      value: 0.10822
    - filter: mlp.down_proj.0
      value: 0.07073
    - filter: mlp.down_proj.1
      value: 0.04763
    - filter: mlp.down_proj.2
      value: 0.01994
    - filter: mlp.down_proj.3
      value: 0.00011
    - filter: mlp.down_proj.4
      value: 0.00291
    - filter: mlp.down_proj.5
      value: 0.00115
    - filter: mlp.down_proj.6
      value: 0.00396
    - filter: mlp.down_proj.7
      value: 0.02167
    - filter: mlp.down_proj.8
      value: 0.00561
    - filter: mlp.down_proj.9
      value: 0.00899
    - filter: mlp.down_proj.10
      value: 0.01681
    - filter: mlp.down_proj.11
      value: 0.02464
    - filter: mlp.down_proj.12
      value: 0.02988
    - filter: mlp.down_proj.13
      value: 0.03701
    - filter: mlp.down_proj.14
      value: 0.04521
    - filter: mlp.down_proj.15
      value: 0.07515
    - filter: mlp.down_proj.16
      value: 0.05471
    - filter: mlp.down_proj.17
      value: 0.05965
    - filter: mlp.down_proj.18
      value: 0.06833
    - filter: mlp.down_proj.19
      value: 0.07838
    - filter: mlp.down_proj.20
      value: 0.11912
    - filter: mlp.down_proj.21
      value: 0.20841
    - value: 1
    weight:
    - value: 1
merge_method: ties
base_model: bigcode/starcoder2-3b
parameters:
  normalize: true
  int8_mask: true
dtype: bfloat16
tokenizer_source: union

💻 Usage

!pip install -qU transformers accelerate

from transformers import AutoTokenizer
import transformers
import torch

model = "choprahetarth/they_not_like_us"
messages = [{"role": "user", "content": "What is a large language model?"}]

tokenizer = AutoTokenizer.from_pretrained(model)
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    torch_dtype=torch.float16,
    device_map="auto",
)

outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])