watashiha
/

Watashiha-Llama-2-13B-Ogiri-sft-neuron

Text Generation

Inference Endpoints

Model card Files Files and versions Community

Watashiha-Llama-2-13B-Ogiri-sft-neuron / README.md

watashihakobashi's picture

watashihakobashi

Update README.md

ac1b2f5 verified 12 months ago

|

history blame contribute delete

3.19 kB

	---
	license: llama2
	language:
	- ja
	---

	The English document is [here](https://huggingface.co./watashiha/Watashiha-Llama-2-13B-Ogiri-sft-neuron/blob/main/README_en.md)

	## モデル概要
	[Watashiha-Llama-2-13B-Ogiri-sft](https://huggingface.co./watashiha/Watashiha-Llama-2-13B-Ogiri-sft)をAWSの[inf2インスタンス](https://aws.amazon.com/jp/ec2/instance-types/inf2/)で動作するようにコンパイルされたモデルです。

	コンパイルは以下の記事を参考に行いました。
	https://huggingface.co./docs/optimum-neuron/tutorials/llama2-13b-chatbot


	* License: [LLAMA 2 COMMUNITY LICENSE](https://github.com/facebookresearch/llama/blob/main/LICENSE)


	## 使用方法

	1. AWS EC2でinf2.xlargeのインスタンスを立てる。
	モデルのダウンロードで50GBほど必要になるので、ストレージのサイズは256GB以上に設定しておくのをおすすめします。
	AMIは以下のものを使用してください。
	Deep Learning AMI Neuron PyTorch 1.13 (Ubuntu 20.04) 20240102

	2. 以下のコマンドを実行し、用意されているpython環境を有効にする。
	```bash
	source /opt/aws_neuron_venv_pytorch/bin/activate
	```

	3. optimumをインストールする。
	```bash
	pip install optimum[neuronx]
	```

	4. 上記の手順を終えたら、以下のソースコードを実行。
	```python
	from optimum.neuron import NeuronModelForCausalLM
	from transformers import AutoTokenizer

	model_name = "watashiha/Watashiha-Llama-2-13B-Ogiri-sft-neuron"
	tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
	model = NeuronModelForCausalLM.from_pretrained(model_name)

	odai = "マジシャンのショーでアシスタントが消えたまま戻ってこない時の一言。"
	text = f"""
	以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。

	### 指示:
	入力の文は大喜利のお題です。お題に沿った面白いボケを生成してください。

	### 入力:
	{odai}

	### 応答:
	"""
	text = text.lstrip()

	token_ids = tokenizer.encode(text, return_tensors="pt")
	input_len = token_ids.shape[1]
	output_ids = model.generate(
	token_ids,
	max_length=input_len + 64,
	do_sample=True,
	top_p=0.9,
	top_k=50,
	temperature=0.8,
	pad_token_id=tokenizer.pad_token_id,
	eos_token_id=tokenizer.eos_token_id,
	)
	output = tokenizer.decode(output_ids.tolist()[0], skip_special_tokens=True)
	print(output)
	"""
	以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。

	### 指示:
	入力の文は大喜利のお題です。お題に沿った面白いボケを生成してください。

	### 入力:
	マジシャンのショーでアシスタントが消えたまま戻ってこない時の一言。

	### 応答:
	もうアシスタントいらなくない？
	"""
	```

	### コンパイルのパラメータ

	#### input_shapes
	```
	{
	"batch_size": 1,
	"sequence_length": 1024,
	}
	```

	#### compiler_args
	```
	{
	"num_cores": 2,
	"auto_cast_type": 'bf16',
	}
	```