Create README.md
Browse files
README.md
ADDED
@@ -0,0 +1,56 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
datasets:
|
3 |
+
- beomi/KoAlpaca-v1.1a
|
4 |
+
- dbdu/ShareGPT-74k-ko
|
5 |
+
- heegyu/korquad-chat-v1
|
6 |
+
- HAERAE-HUB/KoInstruct-QA
|
7 |
+
- changpt/ko-lima-vicuna
|
8 |
+
- nlpai-lab/kullm-v2
|
9 |
+
language:
|
10 |
+
- ko
|
11 |
+
---
|
12 |
+
# iknow-lab/AULM-12.8b-v0
|
13 |
+
- [EleutherAI/polyglot-ko-12.8b](https://huggingface.co/EleutherAI/polyglot-ko-12.8b)λ₯Ό μ¬λ¬ νκ΅μ΄ instruction λ°μ΄ν°μ
μΌλ‘ νμ΅ν λͺ¨λΈ
|
14 |
+
|
15 |
+
|
16 |
+
## μμ±μμ
|
17 |
+
ν둬ννΈ
|
18 |
+
```
|
19 |
+
λΉμ μ μμ£Όλνκ΅μ νκ΅μ΄ μ±λ΄ μμ°λ¦μ
λλ€. μ¬μ©μμκ² λμμ΄ λκ³ μ μ΅ν λ΄μ©μ μ 곡ν΄μΌν©λλ€. λ΅λ³μ κΈΈκ³ μμΈν΄μΌ νλ©°, λ°λμ μΉμ ν μ€λͺ
μ ν¬ν¨ν΄μΌν©λλ€.
|
20 |
+
|
21 |
+
### μ¬μ©μ:
|
22 |
+
μμ£Όλνκ΅μ λν΄ μμ?
|
23 |
+
|
24 |
+
### μ±λ΄:
|
25 |
+
```
|
26 |
+
|
27 |
+
μμ±λ λ΅λ³:
|
28 |
+
```
|
29 |
+
μμ£Όλνκ΅λ λνλ―Όκ΅μ λνκ΅λ‘, 1973λ
λΆν° μμΉνκ³ μμΌλ©°, κ²½κΈ°λ μμμ μν΅κ΅¬μ μμ¬νκ³ μμ΅λλ€. λνκ΅μ κ·λͺ¨λ λ§€μ° ν¬κ³ , λ€μν μ 곡과 νλ¬Έ λΆμΌλ₯Ό μ 곡νλ©°, λμ μμ€μ κ΅μ‘κ³Ό μ°κ΅¬ νλμ μννκ³ μμ΅λλ€. κ΅μ‘ κΈ°κ΄μΌλ‘μ μμ£Όλμ λͺ©νλ λ€μν κ΅μ μ κΈ°μ€μ κ°μΆ μ λ¬Έμ μ΄κ³ μ°μν μΈμ¬λ₯Ό λ°°μΆνλ κ²μ
λλ€.
|
30 |
+
|
31 |
+
μμ£Όλνκ΅λ νμλ€μ μλμ ν€μ°κΈ° μν΄ λ€μν νλ‘κ·Έλ¨μ μ 곡νκ³ μμ΅λλ€. μλ₯Ό λ€μ΄, μΈλ¬Ένκ³Ό μ΄κ³΅κ³ νκ³Όμ νμλ€μ μΈλ¬Ένκ³Ό μμ°μ κ³Όνμ μ΄ν΄ κΈ°λ°μ λμ΄λ κ³Όμ μ ν΅ν΄ μ§μμ νμ₯ν μ μμΌλ©°, 곡νΒ·IT λΆμΌ νμλ€μ κΈ°μ΄ κ³Όν λΆμΌμ μλμ ν¨μν μ μμ΅λλ€. λν, μμ£Όλμ νμ 체μ λ λ€μν κ³Όλͺ©κ³Ό νκ° μ€νμΌμ κ°μ§κ³ μμ΄, νμλ€μ μμ λ§μ κ³΅λΆ λ°©ν₯μ μ€μ νκ³ νμ μμ€ν
μ μ μν μ μλλ‘ μ§μνκ³ μμ΅λλ€.
|
32 |
+
|
33 |
+
μμ£Όλνκ΅μλ κ΅λ΄ μ΅κ³ μ λνκ΅λ‘μμ μ격μ μ
μ¦νκΈ° μν΄ λ€μν νμ μ°κ΅¬ μΌν°λ€μ΄ μ‘΄μ¬ν©λλ€. κ·Έ μ€μμλ νμ μ μ°κ΅¬ μΌν°λ€μ μμ£Όλνκ΅μ ν΅μ¬ κΈ°κ΄μΌλ‘, νμλ€μ΄ λμ μμ€μ νμ νλμ κ²½νν μ μλλ‘ λμμ€λλ€. λν, μμ£Όλνκ΅μλ μΈκ΅μ΄ μΌν° λ° μΈκ΅μ΄ κ΅μ‘ μ°κ΅¬λ₯Ό μ§ννλ μΈκ΅μ΄ κ΅μ‘μΌν°κ° μμ΄μ, νμλ€μ΄ μΈκ΅μ΄ λ₯λ ₯μ κ°ννκ³ ν΄μΈμ·¨μ
κ°λ₯μ±μ λμΌ μ μλλ‘ μ§μνκ³ μμ΅λλ€.
|
34 |
+
|
35 |
+
μμ£Όλνκ΅λ λ€μν μ¬νμ 곡μ΅μ¬μ
μ μ§ννλ©°, νμλ€κ³Ό μ¬νμμ μνΈμμ©μ΄ λ§€μ° μ€μνλ€κ³ μΈμνκ³ μμ΅λλ€. μ΄λ¬ν λ
Έλ ₯λ€ μ€ νλλ μμ£Όλνκ΅ νμλ€μ λμμΌλ‘ ν μ₯νκΈ μ λλ₯Ό μ΄μνκ³ μλ κ²μ
λλ€. μ₯νκΈμ κ²½μ μ μΈ μ΄μ λ‘ νμ
μ μ΄λ €μμ κ²ͺλ νμλ€μ μ§μνκΈ° μν΄ μ 곡 λκ³ μμΌλ©°, μ΄λ¬ν λ
Έλ ₯μ μμ£Όλνκ΅μμλ μ§μλκ³ μμ΅λλ€.
|
36 |
+
|
37 |
+
λν, μμ£Όλνκ΅λ μ§μ μ¬νμμ μνΈμμ©μλ λ§μ κ΄μ¬μ λκ³ μμ΅λλ€. μ΄λ₯Ό μν΄ μμ£Όλνκ΅μ μΊ νΌμ€ λ΄μμ μ§μ λ΄ μ¬λ¬ κΈ°κ΄λ€κ³Ό ν¨κ»νλ κ΅μ‘ νλ ₯ νλ‘κ·Έλ¨μ μ΄μνκ³ μμ΅λλ€. μ΄λ¬ν νλ ₯ νλ‘κ·Έλ¨μ μ§μ λ΄μ νμλ€μ΄ λ€μν κ΅μ‘κ³Ό λ¬Έν 체νμ ν΅ν΄ κΈλ‘λ²ν μΈμ¬λ‘ μ±μ₯ν μ μλλ‘ μ§μνκ³ μμ΅λλ€.
|
38 |
+
|
39 |
+
μμ£Όλνκ΅λ νμ μ€μ¬ κ΅μ‘μ μΆκ΅¬νκ³ μμ΅λλ€. μ΄λ₯Ό μν΄ μμ£Όλνκ΅λ νμλ€μ μ견μ μ΅λν μμ©νλ €κ³ λ
Έλ ₯νλ©°, κ΅μλ€μ νμλ€μ΄ μ°½μμ±κ³Ό λ¬Έμ ν΄κ²° λ₯λ ₯μ λ°μ μν¬ μ μλλ‘ λ€μν κ°μμ μ€μ΅ νλμ μ 곡νκ³ μμ΅λλ€. μ΄λ κ² νμλ€μ μ€μ¬μΌλ‘ νλ λ
Έλ ₯κ³Ό μ§μμ μμ£Όλνκ΅μ λ°μ μ ν° μν₯μ λ―ΈμΉκ³ μμ΅λλ€.
|
40 |
+
```
|
41 |
+
|
42 |
+
|
43 |
+
## μ¬μ©ν λ°μ΄ν°μ
|
44 |
+
|
45 |
+
| Dataset | # instance | νμ
|
|
46 |
+
| --- | --- | --- |
|
47 |
+
| [KoAlpaca v1.1](https://raw.githubusercontent.com/Beomi/KoAlpaca/main/KoAlpaca_v1.1.jsonl) | 50K | μ±κΈν΄ |
|
48 |
+
| [dbdu/ShareGPT-74k-ko μ part2_ko_uncleaned](https://huggingface.co/datasets/dbdu/ShareGPT-74k-ko/resolve/main/part2_ko_uncleaned.json) | 36K | λ©ν°ν΄ |
|
49 |
+
| [heegyu/korquad-chat-v1](https://huggingface.co/datasets/heegyu/korquad-chat-v1) | 9.6K | λ©ν°ν΄, μ§μκΈ°λ° |
|
50 |
+
| [lcw99/evolve-instruct](https://github.com/lcw99/evolve-instruct/) | 37K | μ±κΈν΄ |
|
51 |
+
| [HAERAE-HUB/KoInstruct-QA](https://huggingface.co/datasets/HAERAE-HUB/KoInstruct-QA) | 50.3k | μ±κΈν΄ |
|
52 |
+
| [changpt/ko-lima-vicuna](https://huggingface.co/datasets/changpt/ko-lima-vicuna) | 1K | μ±κΈν΄, λ©ν°ν΄(κ·Ήν μΌλΆ) |
|
53 |
+
| [nlpai-lab/kullm-v2](https://huggingface.co/datasets/nlpai-lab/kullm-v2) | 15K | μ±κΈν΄ |
|
54 |
+
|
55 |
+
- KULLM v2 λ°μ΄ν°μ
μμλ GPT4ALL, Dolly λ°μ΄ν°λ§ μΆμΆν΄μ μ¬μ©νμ΅λλ€.
|
56 |
+
- λ€μν νμ΅ λ°μ΄ν°μ
μ [HeegyuKim/open-korean-instructions](https://github.com/HeegyuKim/open-korean-instructions) GitHub repositoryλ₯Ό μ°Έκ³ νμΈμ.
|