suayptalha
/

minGRU-LM

Text Generation

Model card Files Files and versions Community

suayptalha commited on Dec 20, 2024

Commit

b08ebd4

·

verified ·

1 Parent(s): ae6d9ff

Update modeling_minGRULM.py

Files changed (1) hide show

modeling_minGRULM.py +11 -5

modeling_minGRULM.py CHANGED Viewed

@@ -61,13 +61,19 @@ class MinGRULMForCausalLM(MinGRULMPreTrainedModel):
         # Language modeling head
         self.lm_head = nn.Linear(config.d_model, config.vocab_size, bias=False)
-        # Copy weights instead of sharing them
-        with torch.no_grad():
-            self.lm_head.weight.data.copy_(self.model.min_gru_model.token_emb.weight.data)
         self.post_init()
     def get_input_embeddings(self):
         return self.model.min_gru_model.token_emb

         # Language modeling head
         self.lm_head = nn.Linear(config.d_model, config.vocab_size, bias=False)
         self.post_init()
+    def post_init(self):
+        super().post_init()
+        # Ensure tied weights
+        self.tie_weights()
+    def tie_weights(self):
+        # Tie lm_head weights to the embedding layer weights
+        self.lm_head.weight = self.model.min_gru_model.token_emb.weight
     def get_input_embeddings(self):
         return self.model.min_gru_model.token_emb