metadata
datasets:
- beomi/KoAlpaca-v1.1a
- dbdu/ShareGPT-74k-ko
- heegyu/korquad-chat-v1
- HAERAE-HUB/KoInstruct-QA
- changpt/ko-lima-vicuna
- nlpai-lab/kullm-v2
language:
- ko
iknow-lab/AULM-12.8b-v0
- EleutherAI/polyglot-ko-12.8bλ₯Ό μ¬λ¬ νκ΅μ΄ instruction λ°μ΄ν°μ μΌλ‘ νμ΅ν λͺ¨λΈ
μμ±μμ
ν둬ννΈ
λΉμ μ μμ£Όλνκ΅μ νκ΅μ΄ μ±λ΄ μμ°λ¦μ
λλ€. μ¬μ©μμκ² λμμ΄ λκ³ μ μ΅ν λ΄μ©μ μ 곡ν΄μΌν©λλ€. λ΅λ³μ κΈΈκ³ μμΈν΄μΌ νλ©°, λ°λμ μΉμ ν μ€λͺ
μ ν¬ν¨ν΄μΌν©λλ€.
### μ¬μ©μ:
μμ£Όλνκ΅μ λν΄ μμ?
### μ±λ΄:
μμ±λ λ΅λ³:
μμ£Όλνκ΅λ λνλ―Όκ΅μ λνκ΅λ‘, 1973λ
λΆν° μμΉνκ³ μμΌλ©°, κ²½κΈ°λ μμμ μν΅κ΅¬μ μμ¬νκ³ μμ΅λλ€. λνκ΅μ κ·λͺ¨λ λ§€μ° ν¬κ³ , λ€μν μ 곡과 νλ¬Έ λΆμΌλ₯Ό μ 곡νλ©°, λμ μμ€μ κ΅μ‘κ³Ό μ°κ΅¬ νλμ μννκ³ μμ΅λλ€. κ΅μ‘ κΈ°κ΄μΌλ‘μ μμ£Όλμ λͺ©νλ λ€μν κ΅μ μ κΈ°μ€μ κ°μΆ μ λ¬Έμ μ΄κ³ μ°μν μΈμ¬λ₯Ό λ°°μΆνλ κ²μ
λλ€.
μμ£Όλνκ΅λ νμλ€μ μλμ ν€μ°κΈ° μν΄ λ€μν νλ‘κ·Έλ¨μ μ 곡νκ³ μμ΅λλ€. μλ₯Ό λ€μ΄, μΈλ¬Ένκ³Ό μ΄κ³΅κ³ νκ³Όμ νμλ€μ μΈλ¬Ένκ³Ό μμ°μ κ³Όνμ μ΄ν΄ κΈ°λ°μ λμ΄λ κ³Όμ μ ν΅ν΄ μ§μμ νμ₯ν μ μμΌλ©°, 곡νΒ·IT λΆμΌ νμλ€μ κΈ°μ΄ κ³Όν λΆμΌμ μλμ ν¨μν μ μμ΅λλ€. λν, μμ£Όλμ νμ 체μ λ λ€μν κ³Όλͺ©κ³Ό νκ° μ€νμΌμ κ°μ§κ³ μμ΄, νμλ€μ μμ λ§μ κ³΅λΆ λ°©ν₯μ μ€μ νκ³ νμ μμ€ν
μ μ μν μ μλλ‘ μ§μνκ³ μμ΅λλ€.
μμ£Όλνκ΅μλ κ΅λ΄ μ΅κ³ μ λνκ΅λ‘μμ μ격μ μ
μ¦νκΈ° μν΄ λ€μν νμ μ°κ΅¬ μΌν°λ€μ΄ μ‘΄μ¬ν©λλ€. κ·Έ μ€μμλ νμ μ μ°κ΅¬ μΌν°λ€μ μμ£Όλνκ΅μ ν΅μ¬ κΈ°κ΄μΌλ‘, νμλ€μ΄ λμ μμ€μ νμ νλμ κ²½νν μ μλλ‘ λμμ€λλ€. λν, μμ£Όλνκ΅μλ μΈκ΅μ΄ μΌν° λ° μΈκ΅μ΄ κ΅μ‘ μ°κ΅¬λ₯Ό μ§ννλ μΈκ΅μ΄ κ΅μ‘μΌν°κ° μμ΄μ, νμλ€μ΄ μΈκ΅μ΄ λ₯λ ₯μ κ°ννκ³ ν΄μΈμ·¨μ
κ°λ₯μ±μ λμΌ μ μλλ‘ μ§μνκ³ μμ΅λλ€.
μμ£Όλνκ΅λ λ€μν μ¬νμ 곡μ΅μ¬μ
μ μ§ννλ©°, νμλ€κ³Ό μ¬νμμ μνΈμμ©μ΄ λ§€μ° μ€μνλ€κ³ μΈμνκ³ μμ΅λλ€. μ΄λ¬ν λ
Έλ ₯λ€ μ€ νλλ μμ£Όλνκ΅ νμλ€μ λμμΌλ‘ ν μ₯νκΈ μ λλ₯Ό μ΄μνκ³ μλ κ²μ
λλ€. μ₯νκΈμ κ²½μ μ μΈ μ΄μ λ‘ νμ
μ μ΄λ €μμ κ²ͺλ νμλ€μ μ§μνκΈ° μν΄ μ 곡 λκ³ μμΌλ©°, μ΄λ¬ν λ
Έλ ₯μ μμ£Όλνκ΅μμλ μ§μλκ³ μμ΅λλ€.
λν, μμ£Όλνκ΅λ μ§μ μ¬νμμ μνΈμμ©μλ λ§μ κ΄μ¬μ λκ³ μμ΅λλ€. μ΄λ₯Ό μν΄ μμ£Όλνκ΅μ μΊ νΌμ€ λ΄μμ μ§μ λ΄ μ¬λ¬ κΈ°κ΄λ€κ³Ό ν¨κ»νλ κ΅μ‘ νλ ₯ νλ‘κ·Έλ¨μ μ΄μνκ³ μμ΅λλ€. μ΄λ¬ν νλ ₯ νλ‘κ·Έλ¨μ μ§μ λ΄μ νμλ€μ΄ λ€μν κ΅μ‘κ³Ό λ¬Έν 체νμ ν΅ν΄ κΈλ‘λ²ν μΈμ¬λ‘ μ±μ₯ν μ μλλ‘ μ§μνκ³ μμ΅λλ€.
μμ£Όλνκ΅λ νμ μ€μ¬ κ΅μ‘μ μΆκ΅¬νκ³ μμ΅λλ€. μ΄λ₯Ό μν΄ μμ£Όλνκ΅λ νμλ€μ μ견μ μ΅λν μμ©νλ €κ³ λ
Έλ ₯νλ©°, κ΅μλ€μ νμλ€μ΄ μ°½μμ±κ³Ό λ¬Έμ ν΄κ²° λ₯λ ₯μ λ°μ μν¬ μ μλλ‘ λ€μν κ°μμ μ€μ΅ νλμ μ 곡νκ³ μμ΅λλ€. μ΄λ κ² νμλ€μ μ€μ¬μΌλ‘ νλ λ
Έλ ₯κ³Ό μ§μμ μμ£Όλνκ΅μ λ°μ μ ν° μν₯μ λ―ΈμΉκ³ μμ΅λλ€.
μ¬μ©ν λ°μ΄ν°μ
Dataset | # instance | νμ |
---|---|---|
KoAlpaca v1.1 | 50K | μ±κΈν΄ |
dbdu/ShareGPT-74k-ko μ part2_ko_uncleaned | 36K | λ©ν°ν΄ |
heegyu/korquad-chat-v1 | 9.6K | λ©ν°ν΄, μ§μκΈ°λ° |
lcw99/evolve-instruct | 37K | μ±κΈν΄ |
HAERAE-HUB/KoInstruct-QA | 50.3k | μ±κΈν΄ |
changpt/ko-lima-vicuna | 1K | μ±κΈν΄, λ©ν°ν΄(κ·Ήν μΌλΆ) |
nlpai-lab/kullm-v2 | 15K | μ±κΈν΄ |
- KULLM v2 λ°μ΄ν°μ μμλ GPT4ALL, Dolly λ°μ΄ν°λ§ μΆμΆν΄μ μ¬μ©νμ΅λλ€.
- λ€μν νμ΅ λ°μ΄ν°μ μ HeegyuKim/open-korean-instructions GitHub repositoryλ₯Ό μ°Έκ³ νμΈμ.