---
datasets:
- beomi/KoAlpaca-v1.1a
- dbdu/ShareGPT-74k-ko
- heegyu/korquad-chat-v1
- HAERAE-HUB/KoInstruct-QA
- changpt/ko-lima-vicuna
- nlpai-lab/kullm-v2
language:
- ko
---
# iknow-lab/AULM-12.8b-v0
- [EleutherAI/polyglot-ko-12.8b](https://huggingface.co./EleutherAI/polyglot-ko-12.8b)를 여러 한국어 instruction 데이터셋으로 학습한 모델


## 생성예시
프롬프트
```
당신은 아주대학교의 한국어 챗봇 아우름입니다. 사용자에게 도움이 되고 유익한 내용을 제공해야합니다. 답변은 길고 자세해야 하며, 반드시 친절한 설명을 포함해야합니다.

### 사용자:
아주대학교에 대해 알아?

### 챗봇:
```

생성된 답변:
```
아주대학교는 대한민국의 대학교로, 1973년부터 위치하고 있으며, 경기도 수원시 영통구에 소재하고 있습니다. 대학교의 규모는 매우 크고, 다양한 전공과 학문 분야를 제공하며, 높은 수준의 교육과 연구 활동을 수행하고 있습니다. 교육 기관으로서 아주대의 목표는 다양한 국제적 기준을 갖춘 전문적이고 우수한 인재를 배출하는 것입니다.

아주대학교는 학생들의 역량을 키우기 위해 다양한 프로그램을 제공하고 있습니다. 예를 들어, 인문학과 이공계 학과의 학생들은 인문학과 자연의 과학적 이해 기반을 높이는 과정을 통해 지식을 확장할 수 있으며, 공학·IT 분야 학생들은 기초 과학 분야의 역량을 함양할 수 있습니다. 또한, 아주대의 학점 체제는 다양한 과목과 평가 스타일을 가지고 있어, 학생들은 자신만의 공부 방향을 설정하고 학점 시스템에 적응할 수 있도록 지원하고 있습니다.

아주대학교에는 국내 최고의 대학교로서의 자격을 입증하기 위해 다양한 학술 연구 센터들이 존재합니다. 그 중에서도 학술적 연구 센터들은 아주대학교의 핵심 기관으로, 학생들이 높은 수준의 학술 활동을 경험할 수 있도록 도와줍니다. 또한, 아주대학교에는 외국어 센터 및 외국어 교육 연구를 진행하는 외국어 교육센터가 있어서, 학생들이 외국어 능력을 강화하고 해외취업 가능성을 높일 수 있도록 지원하고 있습니다.

아주대학교는 다양한 사회적 공익사업을 진행하며, 학생들과 사회와의 상호작용이 매우 중요하다고 인식하고 있습니다. 이러한 노력들 중 하나는 아주대학교 학생들을 대상으로 한 장학금 제도를 운영하고 있는 것입니다. 장학금은 경제적인 이유로 학업에 어려움을 겪는 학생들을 지원하기 위해 제공 되고 있으며, 이러한 노력은 아주대학교에서도 지속되고 있습니다.

또한, 아주대학교는 지역 사회와의 상호작용에도 많은 관심을 두고 있습니다. 이를 위해 아주대학교의 캠퍼스 내에서 지역 내 여러 기관들과 함께하는 교육 협력 프로그램을 운영하고 있습니다. 이러한 협력 프로그램은 지역 내의 학생들이 다양한 교육과 문화 체험을 통해 글로벌한 인재로 성장할 수 있도록 지원하고 있습니다.

아주대학교는 학생 중심 교육을 추구하고 있습니다. 이를 위해 아주대학교는 학생들의 의견을 최대한 수용하려고 노력하며, 교수들은 학생들이 창의성과 문제해결 능력을 발전시킬 수 있도록 다양한 강의와 실습 활동을 제공하고 있습니다. 이렇게 학생들을 중심으로 하는 노력과 지원은 아주대학교의 발전에 큰 영향을 미치고 있습니다.
```


## 사용한 데이터셋

| Dataset | # instance | 타입 |
| --- | --- | --- |
| [KoAlpaca v1.1](https://raw.githubusercontent.com/Beomi/KoAlpaca/main/KoAlpaca_v1.1.jsonl) | 50K | 싱글턴 |
| [dbdu/ShareGPT-74k-ko 의 part2_ko_uncleaned](https://huggingface.co./datasets/dbdu/ShareGPT-74k-ko/resolve/main/part2_ko_uncleaned.json) | 36K | 멀티턴 |
| [heegyu/korquad-chat-v1](https://huggingface.co./datasets/heegyu/korquad-chat-v1) | 9.6K | 멀티턴, 지식기반 |
| [lcw99/evolve-instruct](https://github.com/lcw99/evolve-instruct/) | 37K | 싱글턴 |
| [HAERAE-HUB/KoInstruct-QA](https://huggingface.co./datasets/HAERAE-HUB/KoInstruct-QA) | 50.3k | 싱글턴 |
| [changpt/ko-lima-vicuna](https://huggingface.co./datasets/changpt/ko-lima-vicuna) | 1K | 싱글턴, 멀티턴(극히 일부) |
| [nlpai-lab/kullm-v2](https://huggingface.co./datasets/nlpai-lab/kullm-v2) | 15K | 싱글턴 |

- KULLM v2 데이터셋에서는 GPT4ALL, Dolly 데이터만 추출해서 사용했습니다.
- 다양한 학습 데이터셋은 [HeegyuKim/open-korean-instructions](https://github.com/HeegyuKim/open-korean-instructions) GitHub repository를 참고하세요.