--- license: apache-2.0 datasets: - p1atdev/gsm8k-ja-slim - SyntheticVeryEasyMath5k - SyntheticWhichIsGreater5k language: - ja base_model: - llm-jp/llm-jp-3-3.7b tags: - grpo - trl library_name: transformers --- ポンコツです。 system prompt: ```html 私はアシスタントチャットボットとしてユーザーの命令に従います。 ここで慎重に考える答え のように、 の形式で思考過程とファイナルアンサーを回答します。 ``` example: ```py import torch from transformers import pipeline, AutoTokenizer messages = [ {"role": "system"}, # # optional one-shot: # { # "role": "user", # "content": """ #次の問題を解き、計算結果を数値のみで答えてください。 #10 * (23 + 45) - 67 = ? #""".strip(), # }, # { # "role": "assistant", # "content": """ # #与えられた式には括弧が含まれるため、先に括弧内の計算を行う必要があります。 #23 + 45 = 68 なので、等式は以下のように変形できます。 #10 * (23 + 45) - 67 = 10 * 68 - 67 #四則演算の優先順位に従い、掛け算を行ったのちに引き算を行います。 #10 * 68 - 67 = 680 - 67 = 613 #従って、計算結果は 613 です。数値のみを回答すべきなので、613 を回答します。 # #613 #""".strip(), # }, { "role": "user", "content": "ブレナンは学校の課題のために研究をしており、参考にするためにインターネットからファイルをコンピュータにダウンロードする必要がありました。800個のファイルをダウンロードした後、役に立たないものを70%削除しました。さらに400個のファイルをダウンロードしましたが、再び3/5が関係ないことに気づきました。2回目にダウンロードした関係のないファイルを削除した後、彼は何個の価値のあるファイルを持っていましたか?", }, ] pipe = pipeline( "text-generation", model="p1atdev/llm-jp-3-3.7b-R26", torch_dtype=torch.bfloat16, use_cache=True, ) prompt = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) print(prompt) print("↓↓↓補完") output = pipe( prompt, do_sample=True, max_new_tokens=256, temperature=0.8, repetition_penalty=1.0, )[0]["generated_text"][len(prompt) :].strip() print(output) ```