DenseRewardRLHF-PPO - a yyqoni Collection

yyqoni 's Collections

updated Jan 11

This repository contains the released models for our paper Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model.

Upvote

yyqoni/Phi-3-mini-4k-instruct-segment-rm-700k

Text Classification • Updated Jan 8 • 16
yyqoni/Phi-3-mini-4k-instruct-token-rm-700k

Text Classification • Updated Jan 8 • 25
yyqoni/Phi-3-mini-4k-instruct-bandit-rm-700k

Text Classification • Updated Jan 8 • 31
yyqoni/rlhflow-llama-3-sft-8b-v2-segment-rm-700k

Text Classification • Updated Jan 8 • 11
yyqoni/rlhflow-llama-3-sft-8b-v2-token-rm-700k

Text Classification • Updated Jan 8 • 8
yyqoni/rlhflow-llama-3-sft-8b-v2-bandit-rm-700k

Text Classification • Updated Jan 8 • 10
yyqoni/meta-llama-3.1-instruct-8b-segment-rm-700k

Text Classification • Updated Jan 8 • 7
yyqoni/meta-llama-3.1-instruct-8b-token-rm-700k

Text Classification • Updated Jan 8 • 8
yyqoni/meta-llama-3.1-instruct-8b-bandit-rm-700k

Text Classification • Updated Jan 8 • 9
yyqoni/Phi-3-mini-4k-segment-ppo-60k

Text Generation • Updated Jan 8 • 13
yyqoni/Phi-3-mini-4k-token-ppo-60k

Text Generation • Updated Jan 8 • 11
yyqoni/rlhflow-llama-3-sft-8b-v2-segment-ppo-60k

Text Generation • Updated Jan 8 • 8
yyqoni/rlhflow-llama-3-sft-8b-v2-token-ppo-60k

Text Generation • Updated Jan 8 • 9
yyqoni/rlhflow-llama-3-sft-8b-v2-bandit-ppo-60k

Text Generation • Updated Jan 8 • 10
yyqoni/meta-llama-3.1-instruct-8b-token-ppo-60k

Text Generation • Updated Jan 8 • 7
yyqoni/meta-llama-3.1-instruct-8b-segment-ppo-60k

Text Generation • Updated Jan 8 • 11
yyqoni/meta-llama-3.1-instruct-8b-bandit-ppo-60k

Text Generation • Updated Jan 8 • 8
yyqoni/Phi-3-mini-4k-bandit-ppo-60k

Text Generation • Updated Jan 10 • 11

Upvote