--- library_name: transformers tags: - thai - opt - generative ai - SEA - southeast-asian - nlp license: mit language: - the widget: - text: 'User: อะไรคือวิธีที่ดีที่สุดในการทําความสะอาดพรม Assistant:' example_title: Example 1 - text: >- User: ทําไมเครื่องตรวจจับควันถึงส่งเสียงบี๊บเมื่อแบตเตอรี่เหลือน้อย Assistant: example_title: Example 2 - text: 'User: เมื่อไหร่จะเป็นเวลาที่ดีที่สุดของปีที่จะจองล่องเรือ? Assistant:' example_title: Example 3 - text: >- User: ฉันต้องการใช้โฟโต้ชอป แต่ฉันไม่คุ้นเคยกับซอฟต์แวร์ คุณช่วยแนะนําบทเรียนเบื้องต้นเพื่อช่วยฉันให้เร็วขึ้นหน่อยได้ไหม? Assistant: example_title: Example 4 - text: 'User: ฉันควรทําอย่างไรถ้าฉันเจอหมีขณะตั้งแคมป์? Assistant:' example_title: Example 5 --- ![thai-opt350m-instruct-logo](thai-opt350m.png) # thai-opt350m-instruct a generative language model for thai language based on opt350m **Thai-OPT350M-Instruct** is a fine-tuned pretrained transformer for **thai language** based on facebook/opt-350m. Dataset for thai-opt350m-instruct - yadapruk/thai-instructions-rallio ## Base Model - Facebook Open Pretrained Transformer ## Languages - mainly support Thai Language - a few English, Chinese, Arabic ## Training - epochs - 12 - training loss - 0.809200 # Model Page [https://huggingface.co./jojo-ai-mst/thai-opt350m-instruct](https://huggingface.co./jojo-ai-mst/thai-opt350m-instruct) ## Prompt Format ``` User: อะไรคือวิธีที่ดีที่สุดในการทําความสะอาดพรม Assistant: ``` # How to use ```python # pip install transformers from transformers import AutoModelForCausalLM,AutoTokenizer model = AutoModelForCausalLM.from_pretrained("jojo-ai-mst/thai-opt350m-instruct") tokenizer = AutoTokenizer.from_pretrained("jojo-ai-mst/thai-opt350m-instruct") def generate_text(prompt, max_length=200, temperature=0.8, top_k=50): input_ids = tokenizer.encode(prompt, return_tensors="pt").cuda() # remove .cuda() if only cpu output = model.generate( input_ids, max_length=max_length, temperature=temperature, top_k=top_k, pad_token_id=tokenizer.eos_token_id, do_sample=True ) for result in output: generated_text = tokenizer.decode(result, skip_special_tokens=True) print(generated_text) generate_text("User: อะไรคือวิธีที่ดีที่สุดในการทําความสะอาดพรม Assistant:") ``` # Date of Release 22/03/2024 # License MIT # Author [Min Si Thu](https://www.linkedin.com/in/min-si-thu/) # Notes This ai model is a movement of [MyanmarGPT-Movement](https://github.com/MyanmarGPT-Movement).