OpenMOSE
/

RWKV-5.2-3b-World-DPO

Model card Files Files and versions Community

OpenMOSE commited on Mar 4

Commit

b735e7f

•

1 Parent(s): 49fa9b4

Upload README.md

Files changed (1) hide show

README.md +24 -2

README.md CHANGED Viewed

@@ -1,3 +1,25 @@
----
 license: apache-2.0
----

 license: apache-2.0
+a DPO LoRA fine-tuned model with preference dataset
+LoRA Experiment
+RWKV-5.2-3b-World-DPO is merged model with base
+Base Model
+RWKV-5-World-3B-v2-20231113-ctx4096
+Parameters:
+Lora Rank 8
+Lora Alpha 16
+ctx length 4096
+epoch:19
+Dataset
+Randomly chosed 1000pairs
+https://huggingface.co/datasets/HuggingFaceH4/ultrafeedback_binarized