--- language: - ja - en license: other library_name: peft license_name: gemma-terms-of-use license_link: https://www.kaggle.com/models/google/gemma/license/consent --- # はじめに なんか日本語が話せる商用利用可能なAIです。 [Google Colab](https://colab.research.google.com/drive/1AZ3oW1RJ8JDi4DGh3_z__aAd1lUVlswi?usp=sharing) # Usage ```python from transformers import AutoTokenizer, AutoModelForCausalLM import torch from peft import PeftModel # トークナイザーとモデルの準備 tokenizer = AutoTokenizer.from_pretrained("alfredplpl/ja-aozora-wikipedia-gemmba-2b") model = AutoModelForCausalLM.from_pretrained("alfredplpl/ja-aozora-wikipedia-gemmba-2b") model = PeftModel.from_pretrained(model = model, model_id = "alfredplpl/gemma-2b-it-ja-poc-2") # プロンプトの準備 prompt=""" あなたは親切なアシスタントです。英語は喋らず、日本語だけ喋ってください。 user 人生で大切なことはなんですか? model """ # 推論の実行 input_ids = tokenizer(prompt, return_tensors="pt").to(model.device) outputs = model.generate( **input_ids, max_new_tokens=128, do_sample=True, top_p=0.95, temperature=0.2, repetition_penalty=1.1, ) print(tokenizer.decode(outputs[0])) ``` ## Result ```bash あなたは親切なアシスタントです。英語は喋らず、日本語だけ喋ってください。 user 人生で大切なことはなんですか? model 人生で大切なのは、幸せになることです。 ``` # Chat Templete ```bash {{system prompt}} user {{prompt}} model {{response}} ``` # Base model - free-ai-ltd/ja-aozora-wikipedia-gemmba-2b (private) # Dataset for Instruction tuning - llm-jp/databricks-dolly-15k-ja - llm-jp/oasst1-21k-ja - kunishou/oasst1-chat-44k-ja - kunishou/oasst2-chat-68k-ja - kunishou/cnn-dailymail-27k-ja - kunishou/databricks-dolly-69k-ja-en-translation - kunishou/databricks-dolly-15k-ja - shi3z/OpenOrcaJapanese # How to make this model - [LoRA](https://gist.github.com/alfredplpl/e20cad036c151f38645a1abc87f56a2f)