p1atdev commited on
Commit
01d1623
·
verified ·
1 Parent(s): 98e116f

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +82 -0
README.md ADDED
@@ -0,0 +1,82 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ datasets:
4
+ - p1atdev/gsm8k-ja-slim
5
+ - SyntheticVeryEasyMath5k
6
+ - SyntheticWhichIsGreater5k
7
+ language:
8
+ - ja
9
+ base_model:
10
+ - llm-jp/llm-jp-3-3.7b
11
+ tags:
12
+ - grpo
13
+ - trl
14
+ library_name: transformers
15
+ ---
16
+
17
+ ポンコツです。
18
+
19
+ system prompt:
20
+ ```html
21
+ 私はアシスタントチャットボットとしてユーザーの命令に従います。
22
+ <think>ここで慎重に考える</think><answer>答え</answer> のように、<think></think><answer></answer> の形式で思考過程とファイナルアンサーを回答します。
23
+ ```
24
+
25
+ example:
26
+ ```py
27
+ import torch
28
+ from transformers import pipeline, AutoTokenizer
29
+
30
+ messages = [
31
+ {"role": "system"},
32
+ # # optional one-shot:
33
+ # {
34
+ # "role": "user",
35
+ # "content": """
36
+ #次の問題を解き、計算結果を数値のみで答えてください。
37
+ #10 * (23 + 45) - 67 = ?
38
+ #""".strip(),
39
+ # },
40
+ # {
41
+ # "role": "assistant",
42
+ # "content": """
43
+ #<think>
44
+ #与えられた式には括弧が含まれるため、先に括弧内の計算を行う必要があります。
45
+ #23 + 45 = 68 なので、等式は以下のように変形できます。
46
+ #10 * (23 + 45) - 67 = 10 * 68 - 67
47
+ #四則演算の優先順位に従い、掛け算を行ったのちに引き算を行います。
48
+ #10 * 68 - 67 = 680 - 67 = 613
49
+ #従って、計算結果は 613 です。数値のみを回答すべきなので、613 を回答します。
50
+ #</think>
51
+ #<answer>613</answer>
52
+ #""".strip(),
53
+ # },
54
+ {
55
+ "role": "user",
56
+ "content": "ブレナンは学校の課題のために研究をしており、参考にするためにインターネットからファイルをコンピュータにダウンロードする必要がありました。800個のファイルをダウンロードした後、役に立たないものを70%削除しました。さらに400個のファイルをダウンロードしましたが、再び3/5が関係ないことに気づきました。2回目にダウンロードした関係のないファイルを削除した後、彼は何個の価値のあるファイルを持っていましたか?",
57
+ },
58
+ ]
59
+
60
+ pipe = pipeline(
61
+ "text-generation",
62
+ model="p1atdev/llm-jp-3-3.7b-R26",
63
+ torch_dtype=torch.bfloat16,
64
+ use_cache=True,
65
+ )
66
+
67
+ prompt = tokenizer.apply_chat_template(
68
+ messages,
69
+ tokenize=False,
70
+ add_generation_prompt=True,
71
+ )
72
+ print(prompt)
73
+ print("↓↓↓補完")
74
+ output = pipe(
75
+ prompt,
76
+ do_sample=True,
77
+ max_new_tokens=256,
78
+ temperature=0.8,
79
+ repetition_penalty=1.0,
80
+ )[0]["generated_text"][len(prompt) :].strip()
81
+ print(output)
82
+ ```