metadata

language:
  - ko
  - en
license: cc-by-nc-sa-4.0
library_name: transformers

Llama-3-KoEn-8B-xtuner-llava-preview 🌋

Llama-3-KoEn-8B-xtuner-llava-preview 🌋 is Korean based MutliModal based on Llava architecture, merged with ChatVector methods leveraging 2 models:

Model Details

Model Description

Developed by: Junbum Lee (Beomi)
Model type: HuggingFace Llava 🌋
Language(s) (NLP): Korean, English
License: cc-by-nc-sa-4.0 under Llama3 License
Merged from model: beomi/Llama-3-KoEn-8B-preview & xtuner/llava-llama-3-8b-transformers

Direct Use

Two version recommended

v1. revision='a38aac3': Basic ChatVector, with 25B+ trained KoEn ckpt(rev. d4d25a2).

v1-1. revision='0224971': Basic ChatVector, with 40B+ trained KoEn ckpt(rev. ad39b32).

v2. revision='4f04d1e': Model diff based merging(ref. https://huggingface.co./blog/maywell/llm-feature-transfer), with 25B+ trained KoEn ckpt(rev. d4d25a2).

import requests
from PIL import Image

import torch
from transformers import AutoProcessor, LlavaForConditionalGeneration

model_id = "beomi/Llama-3-KoEn-8B-xtuner-llava-preview"

model = LlavaForConditionalGeneration.from_pretrained(
    model_id, 
    torch_dtype='auto', 
    device_map='auto',
    revision='a38aac3', # 'a38aac3' for basic ChatVector, '4f04d1e' for Model diff based merging(ref. https://huggingface.co./blog/maywell/llm-feature-transfer)
)

processor = AutoProcessor.from_pretrained(model_id)

tokenizer = processor.tokenizer
terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

prompt = ("<|start_header_id|>user<|end_header_id|>\n\n<image>\n이 이미지에 대해서 설명해주세요.<|eot_id|>"
          "<|start_header_id|>assistant<|end_header_id|>\n\n이 이미지에는")
image_file = "https://cdn-uploads.huggingface.co/production/uploads/5e56829137cb5b49818287ea/NWfoArWI4UPAxpEnolkwT.jpeg"

raw_image = Image.open(requests.get(image_file, stream=True).raw)
inputs = processor(prompt, raw_image, return_tensors='pt').to(0, torch.float16)

output = model.generate(**inputs, max_new_tokens=400, do_sample=True, eos_token_id=terminators,)
print(processor.decode(output[0][2:], skip_special_tokens=False))

# --- Example Output [v1, Chat Vector] ---
user<|end_header_id|>

<image>
이 이미지에 대해서 설명해주세요.<|eot_id|><|start_header_id|>assistant<|end_header_id|>

이 이미지에는 고양이 한 마리가 강물 위를 걸어가는 모습이 보여집니다. 고양이는 강물의 잔물결에 미끄럼을 타고 강 가로를 지나는 데 능숙하게 보입니다. 고양이의 발은 강물로 잘 들어가, 그것을 즐기며 걸어갑니다. 

또한 이 이미지도 음성 녹음을 하거나 녹화된 자료로 제작되었으며, 주로 고양이의 모습을 강하게 보여줍니다. 소리 효과도 여러 가지로 추가하여 고양이의 스토리를 다양하게 전달합니다. 강물은 잔물결을 나타내며 강물 위를 걷는 고양이의 모습을 더욱 강렬하게 강조하기 위해 잔물결을 통해 더 디테일한 장면을 보여줍니다.<|eot_id|>

# --- Example Output [v1-1, Chat Vector] ---
user<|end_header_id|>

<image>
이 이미지에 대해서 설명해주세요.<|eot_id|><|start_header_id|>assistant<|end_header_id|>

이 이미지에서는 한 고양이가 서해안에 위치한 바다를 걷고 있는 모습을 볼 수 있습니다. 고양이는 해변에서부터 바다로 걸어들어가는 중이며, 주변에는 잔잔한 파도가 밀려오는 모습을 보여주고 있습니다. 이 고양이는 태어날 때부터 고양이와 강아지와는 다르게 바다를 경험하고, 적응해가고 있습니다. 고양이는 바다를 좋아하고, 이 환경에서 행복을 느끼는 것 같습니다. 이 고양이는 인간이 아닌 자연의 일부로써 이 환경에서 살아가고 있습니다.<|eot_id|>

# --- Example Output [v2, Model diff based merging] ---
user<|end_header_id|>

<image>
이 이미지에 대해서 설명해주세요.<|eot_id|><|start_header_id|>assistant<|end_header_id|>

이 이미지에는 한국어 자막과 함께 고양이가 물에 발을 디디고 걷는 모습이 담겨 있습니다. 고양이는 오른쪽 발을 물에 담그고 걷는 중이며, 한국어 자막은 "고양이는 물을 좋아합니다"라는 문장을 포함하고 있습니다. 이 자막은 고양이가 물을 좋아하는 것을 강조하고 있습니다.<|eot_id|>