beomi
/

Llama-3-KoEn-8B-xtuner-llava-preview

Image-Text-to-Text

Inference Endpoints

Model card Files Files and versions Community

Llama-3-KoEn-8B-xtuner-llava-preview / README.md

beomi's picture

Upload processor

17b3b21 verified 6 months ago

|

3.39 kB

	---
	language:
	- ko
	- en
	license: cc-by-nc-sa-4.0
	library_name: transformers
	---

	# Llama-3-KoEn-8B-xtuner-llava-preview 🌋

	<!-- Provide a quick summary of what the model is/does. -->

	Llama-3-KoEn-8B-xtuner-llava-preview 🌋 is Korean based MutliModal based on Llava architecture, merged with [ChatVector](https://arxiv.org/abs/2310.04799) methods leveraging 2 models:
	1) [beomi/Llama-3-KoEn-8B-preview](https://huggingface.co./beomi/Llama-3-KoEn-8B-preview),
	2) [xtuner/llava-llama-3-8b-transformers](https://huggingface.co./xtuner/llava-llama-3-8b-transformers)

	## Model Details

	### Model Description

	- Developed by: Junbum Lee (Beomi)
	- Model type: HuggingFace Llava 🌋
	- Language(s) (NLP): Korean, English
	- License: cc-by-nc-sa-4.0 under Llama3 License
	- Merged from model: [beomi/Llama-3-KoEn-8B-preview](https://huggingface.co./beomi/Llama-3-KoEn-8B-preview) / [xtuner/llava-llama-3-8b-transformers](https://huggingface.co./xtuner/llava-llama-3-8b-transformers)

	### Direct Use

	<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->

	![Cat walking on frozen Han-River, Seoul](https://cdn-uploads.huggingface.co/production/uploads/5e56829137cb5b49818287ea/NWfoArWI4UPAxpEnolkwT.jpeg)

	```python
	import requests
	from PIL import Image

	import torch
	from transformers import AutoProcessor, LlavaForConditionalGeneration

	model_id = "beomi/Llama-3-KoEn-8B-xtuner-llava-preview"

	model = LlavaForConditionalGeneration.from_pretrained(
	model_id,
	torch_dtype='auto',
	device_map='auto',
	)

	processor = AutoProcessor.from_pretrained(model_id)

	from transformers import AutoTokenizer

	tokenizer = AutoTokenizer.from_pretrained('./llava-llama-3-KoEn-8b-v1_1-transformers')
	terminators = [
	tokenizer.eos_token_id,
	tokenizer.convert_tokens_to_ids("<\|eot_id\|>")
	]

	prompt = ("<\|start_header_id\|>user<\|end_header_id\|>\n\n<image>\n이 이미지에 대해서 설명해주세요.<\|eot_id\|>"
	"<\|start_header_id\|>assistant<\|end_header_id\|>\n\n이 이미지에는")
	image_file = "https://cdn-uploads.huggingface.co/production/uploads/5e56829137cb5b49818287ea/NWfoArWI4UPAxpEnolkwT.jpeg"

	raw_image = Image.open(requests.get(image_file, stream=True).raw)
	inputs = processor(prompt, raw_image, return_tensors='pt').to(0, torch.float16)

	output = model.generate(**inputs, max_new_tokens=400, do_sample=True, eos_token_id=terminators,)
	print(processor.decode(output[0][2:], skip_special_tokens=False))

	# --- Example Output ---
	user<\|end_header_id\|>

	<image>
	이 이미지에 대해서 설명해주세요.<\|eot_id\|><\|start_header_id\|>assistant<\|end_header_id\|>

	이 이미지에는 고양이 한 마리가 강물 위를 걸어가는 모습이 보여집니다. 고양이는 강물의 잔물결에 미끄럼을 타고 강 가로를 지나는 데 능숙하게 보입니다. 고양이의 발은 강물로 잘 들어가, 그것을 즐기며 걸어갑니다.

	또한 이 이미지도 음성 녹음을 하거나 녹화된 자료로 제작되었으며, 주로 고양이의 모습을 강하게 보여줍니다. 소리 효과도 여러 가지로 추가하여 고양이의 스토리를 다양하게 전달합니다. 강물은 잔물결을 나타내며 강물 위를 걷는 고양이의 모습을 더욱 강렬하게 강조하기 위해 잔물결을 통해 더 디테일한 장면을 보여줍니다.<\|eot_id\|>
	```