metadata
license: apache-2.0
language:
- ko
- en
base_model:
- meta-llama/Llama-3.1-8B-Instruct
pipeline_tag: text-generation
datasets:
- AIDX-ktds/ko_leaderboard
tags:
- ktds
- ko
- ko_leaderboard
- korean
β± ν΄λΉ λͺ¨λΈμμ llama3.1 instructλ₯Ό Foundation λͺ¨λΈλ‘ νλ νκ΅μ΄ λ°
νκ΅μ λ€μν λ¬Ένμ μ μ©ν μ μλλ‘ νκΈ° μν΄ κ°λ° λμμΌλ©°
μ체 μ μν 53μμμ νκ΅μ΄ λ°μ΄ν°λ₯Ό νμ©νμ¬ νκ΅ μ¬ν κ°μΉμ λ¬Ένλ₯Ό μ΄ν΄νλ
λͺ¨λΈ μ λλ€. Thanks for ktds β
βΆ νμ΅ λ°μ΄ν°
- ν΄λΉ λͺ¨λΈμμ μ체 κ°λ°ν μ΄ 3.6GB ν¬κΈ°μ λ°μ΄ν°λ₯Ό λ°νμΌλ‘ νμ΅λμμ΅λλ€. λͺ¨λ 233λ§ κ±΄μ QnA, μμ½, λΆλ₯ λ± λ°μ΄ν°λ₯Ό ν¬ν¨νλ©°, κ·Έ μ€ 133λ§ κ±΄μ 53κ° μμμ κ°κ΄μ λ¬Έμ λ‘ κ΅¬μ±λμμ΅λλ€. μ΄ μμμλ νκ΅μ¬, μ¬ν, μ¬λ¬΄, λ²λ₯ , μΈλ¬΄, μν, μλ¬Ό, 물리, νν λ±μ΄ ν¬ν¨λλ©°, Chain of Thought λ°©μμΌλ‘ νμ΅λμμ΅λλ€. λν 130λ§ κ±΄μ μ£Όκ΄μ λ¬Έμ λ νκ΅μ¬, μ¬λ¬΄, λ²λ₯ , μΈλ¬΄, μν λ± 38κ° μμμ κ±Έμ³ νμ΅λμμ΅λλ€. νμ΅ λ°μ΄ν° μ€ νκ΅μ μ¬ν κ°μΉμ μΈκ°μ κ°μ μ μ΄ν΄νκ³ μ§μν μ¬νμ λ°λΌ μΆλ ₯ν μ μλ λ°μ΄ν°λ₯Ό νμ΅νμμ΅λλ€.
- νμ΅ Instruction Datasets Format:
{"prompt": "prompt text", "completion": "ideal generated text"}
β· μ¬μ© μ¬λ‘
ν΄λΉ λͺ¨λΈμ λ€μν μμ© λΆμΌμμ μ¬μ©λ μ μμ΅λλ€. μλ₯Ό λ€μ΄:
- κ΅μ‘ λΆμΌ: μμ¬, μν, κ³Όν λ± λ€μν νμ΅ μλ£μ λν μ§μμλ΅ λ° μ€λͺ μμ±.
- λΉμ¦λμ€: λ²λ₯ , μ¬λ¬΄, μΈλ¬΄ κ΄λ ¨ μ§μμ λν λ΅λ³ μ 곡 λ° λ¬Έμ μμ½.
- μ°κ΅¬ λ° λ¬Έν: νκ΅ μ¬νμ λ¬Ένμ λ§μΆ μμ°μ΄ μ²λ¦¬ μμ , κ°μ λΆμ, λ¬Έμ μμ± λ° λ²μ.
- κ³ κ° μλΉμ€: μ¬μ©μμμ λν μμ± λ° λ§μΆ€ν μλ΅ μ 곡.
- μ΄ λͺ¨λΈμ λ€μν μμ°μ΄ μ²λ¦¬ μμ μμ λμ νμ©λλ₯Ό κ°μ§λλ€.
βΈ νκ³ ββ
- ν΄λΉ λͺ¨λΈμ νκ΅μ΄μ νκ΅ λ¬Ένμ νΉνλμ΄ μμΌλ, νΉμ μμ(μ: μ΅μ κ΅μ μλ£, μ λ¬Έ λΆμΌ)μ λ°μ΄ν° λΆμ‘±μΌλ‘ μΈν΄ λ€λ₯Έ μΈμ΄ λλ λ¬Ένμ λν μλ΅μ μ νμ±μ΄ λ¨μ΄μ§ μ μμ΅λλ€. λν, 볡μ‘ν λ Όλ¦¬μ μ¬κ³ λ₯Ό μꡬνλ λ¬Έμ μ λν΄ μ νλ μΆλ‘ λ₯λ ₯μ λ³΄μΌ μ μμΌλ©°, νΈν₯λ λ°μ΄ν°κ° ν¬ν¨λ κ²½μ° νΈν₯λ μλ΅μ΄ μμ±λ κ°λ₯μ±λ μ‘΄μ¬ν©λλ€.
βΊ μ¬μ© λ°©λ²
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("SEOKDONG/llama3.1_korean_v0.1_sft_by_aidx")
model = AutoModel.from_pretrained("SEOKDONG/llama3.1_korean_v0.1_sft_by_aidx")
input_text = """ γκ΅λ―Όκ±΄κ°λ³΄νλ²γμ 44μ‘°, γκ΅λ―Όκ±΄κ°λ³΄νλ² μνλ Ήγμ 19μ‘°,γμ½κ΄μ κ·μ μ κ΄ν λ²λ₯ γμ 5μ‘°, γμλ²γμ 54μ‘° μ°Έμ‘° νλ¨ ν΄μ€"""
inputs = tokenizer(input_text, return_tensors="pt")
with torch.no_grad():
outputs = model.generate(**inputs, max_length=1024, temperature=0.5, do_sample=True, repetition_penalty=1.15)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)
Hereβs the English version of the provided text: