How it works

Base model is NousResearch/Llama-2-7b-chat-hf

How to use

import torch
import textwrap

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" if torch.cuda.is_available() else "cpu"

EVAL_PROMPTS = [
    "Hãy viết một phản hồi thích hợp cho chỉ dẫn dưới đây.\n\n### Instruction: Messi đã đạt bao nhiêu quả bóng vàng? \n\n### Response: ",
    "Hãy viết một phản hồi thích hợp cho chỉ dẫn dưới đây.\n\n### Instruction: Thủ đô nào đông dân nhất châu Á?  \n\n### Response: ",
    "Hãy viết một phản hồi thích hợp cho chỉ dẫn dưới đây.\n\n### Instruction: Quốc gia nào có đường biển dài nhất? \n\n### Response: ",
]

def generate_eval(model: AutoModelForCausalLM, tokenizer: AutoTokenizer):
    print("Starting Evaluation...")
    model = model.to(device)
    model.eval()
    for eval_prompt in EVAL_PROMPTS:
        batch = tokenizer(eval_prompt, return_tensors="pt").to(device)

        with torch.cuda.amp.autocast():
            output_tokens = model.generate(**batch, max_new_tokens=128)

        print("\n\n", textwrap.fill(tokenizer.decode(output_tokens[0], skip_special_tokens=False)))
        print("*"*100)
        
# Load the Lora model
model = AutoModelForCausalLM.from_pretrained("huanhkv/llama-2-7b-instruction-tuning_full")
tokenizer = AutoTokenizer.from_pretrained("huanhkv/llama-2-7b-instruction-tuning_full")

generate_eval(model, tokenizer)

The output should be:

<s> Hãy viết một phản hồi thích hợp cho chỉ dẫn dưới đây.

### Instruction: Messi đã đạt bao nhiêu quả bóng vàng? 

### Response: 7</s>

 ****************************** 

<s> Hãy viết một phản hồi thích hợp cho chỉ dẫn dưới đây.

### Instruction: Thủ đô nào đông dân nhất châu Á?  

### Response: Đông Đông Dương là thủ đô nhất châu Á về dân số.</s>

 ****************************** 

<s> Hãy viết một phản hồi thích hợp cho chỉ dẫn dưới đây.

### Instruction: Quốc gia nào có đường biển dài nhất? 

### Response: Đường biển dài nhất trên thế giới là đường biển Ấn Độ Dương, dài khoảng 65.000 km.</s>