OsakanaTeishoku
/

1204lora

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

OsakanaTeishoku commited on Dec 16, 2024

Commit

4855037

·

verified ·

1 Parent(s): abcff1a

Update README.md

Files changed (1) hide show

README.md +61 -1

README.md CHANGED Viewed

@@ -11,14 +11,74 @@ language:
 ---
 # はじめに
 これは，東京大学松尾・岩澤研究室のLLM講座2024のコンペティションで提出するためのモデルです．
 llm-jp/llm-jp-3-13bに，QLoRAによるSFTを施して，LoRAアダプタのみをこちらにアップしています．
 chat templateは，weblab-GENIAC/Tanuki-8B-dpo-v1.0のものと同一のものを使用しています．
 # 推論方法
 提供された環境で，以下のように推論します．L4 GPU×1のインスタンスで，vLLMを用いて推論します．
 Jupyter Notebookで，一かたまりごとに一つのセルになっています．順番に実行してください．
 ```python
-a
 ```

 ---
 # はじめに
 これは，東京大学松尾・岩澤研究室のLLM講座2024のコンペティションで提出するためのモデルです．
 llm-jp/llm-jp-3-13bに，QLoRAによるSFTを施して，LoRAアダプタのみをこちらにアップしています．
 chat templateは，weblab-GENIAC/Tanuki-8B-dpo-v1.0のものと同一のものを使用しています．
 # 推論方法
 提供された環境で，以下のように推論します．L4 GPU×1のインスタンスで，vLLMを用いて推論します．
 Jupyter Notebookで，一かたまりごとに一つのセルになっています．順番に実行してください．
 ```python
+!pip uninstall numpy -y
+!pip install numpy==1.26.4
+%%time
+%pip install vllm==0.6.4.post1 --force-reinstall
+!pip install ipywidgets
+import time
+import torch
+#import pandas as pd
+#import polars as pl
+import transformers
+from transformers import (
+    AutoTokenizer,
+    AutoModelForCausalLM,
+    #GemmaTokenizerFast,
+    #AutoModelForSequenceClassification,
+    BitsAndBytesConfig
+)
+import vllm ### packaging==24.1にしないとエラーになる！！ ###
+from vllm.lora.request import LoRARequest
+from jinja2 import Template
+print(vllm.__version__)
+MAX_LENGTH = 1024
+# BATCH_SIZE = 2
+# MODEL_NAME = "/kaggle/input/gemma/transformers/2b-it/3"
+# CHECKPOINT_PATH = "/kaggle/input/atmacup17-train-causal/checkpoint-468"
+#MODEL_NAME = "/kaggle/input/gemma2-9b-it-for-t4"
+#CHECKPOINT_PATH = "/kaggle/input/exp002-gemma-2-9b-it"
+#MODEL_NAME = "team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-AWQ"
+#MODEL_NAME = "llm-jp/llm-jp-3-3.7b-instruct"
+MODEL_NAME = "llm-jp/llm-jp-3-13b"
+#MODEL_NAME = "OsakanaTeishoku/1127-13b-magpie-sft-step170"
+print(MODEL_NAME)
+import os
+os.environ["HF_TOKEN"] = "あなたのHugging Faceトークン"
+from vllm.lora.request import LoRARequest
+llm = vllm.LLM(
+    MODEL_NAME, # "deepseek-ai/deepseek-math-7b-instruct"
+    tensor_parallel_size=1, # 2, 4
+    gpu_memory_utilization=0.95,
+    trust_remote_code=True,
+    #enable_lora=True,
+    #dtype="half",
+    enforce_eager=True,
+    max_model_len=MAX_LENGTH,
+    enable_lora=True,
+    #quantization="AWQ",
+    quantization="bitsandbytes",
+    load_format="bitsandbytes"
+)
+tokenizer = llm.get_tokenizer()
 ```