|
--- |
|
license: apache-2.0 |
|
language: |
|
- tr |
|
model-index: |
|
- name: Orbita-v0.1 |
|
results: |
|
- task: |
|
type: text-generation |
|
name: Text Generation |
|
dataset: |
|
name: AI2 Reasoning Challenge TR |
|
type: ai2_arc |
|
config: ARC-Challenge |
|
split: test |
|
args: |
|
num_few_shot: 25 |
|
metrics: |
|
- type: acc |
|
value: 41.97 |
|
name: accuracy |
|
- task: |
|
type: text-generation |
|
name: Text Generation |
|
dataset: |
|
name: HellaSwag TR |
|
type: hellaswag |
|
split: validation |
|
args: |
|
num_few_shot: 10 |
|
metrics: |
|
- type: acc |
|
value: 48 |
|
name: accuracy |
|
- task: |
|
type: text-generation |
|
name: Text Generation |
|
dataset: |
|
name: MMLU TR |
|
type: cais/mmlu |
|
config: all |
|
split: test |
|
args: |
|
num_few_shot: 5 |
|
metrics: |
|
- type: acc |
|
value: 49.51 |
|
name: accuracy |
|
- task: |
|
type: text-generation |
|
name: Text Generation |
|
dataset: |
|
name: TruthfulQA TR |
|
type: truthful_qa |
|
config: multiple_choice |
|
split: validation |
|
args: |
|
num_few_shot: 0 |
|
metrics: |
|
- type: acc |
|
name: accuracy |
|
value: 50.78 |
|
- task: |
|
type: text-generation |
|
name: Text Generation |
|
dataset: |
|
name: Winogrande TR |
|
type: winogrande |
|
config: winogrande_xl |
|
split: validation |
|
args: |
|
num_few_shot: 5 |
|
metrics: |
|
- type: acc |
|
value: 56.16 |
|
name: accuracy |
|
- task: |
|
type: text-generation |
|
name: Text Generation |
|
dataset: |
|
name: GSM8k TR |
|
type: gsm8k |
|
config: main |
|
split: test |
|
args: |
|
num_few_shot: 5 |
|
metrics: |
|
- type: acc |
|
value: 50.41 |
|
name: accuracy |
|
--- |
|
|
|
<img src="https://huggingface.co./Orbina/Orbita-v0.1/resolve/main/orbita.png" |
|
alt="Orbita LLM" width="500"/> |
|
|
|
# Orbita-v0.1 |
|
This model is a Turkish Large Language Model with multiple abilites across different dimensions on the Turkish Language covering a variety of Tasks like Coding, Math, etc... |
|
This model is an extended version of a Qwen-based Large Language Model (LLM) for Turkish. It was trained on a cleaned Turkish dataset carefully annotated to carry out turkish instructions in an accurate and organized manner. This model was fully finetuned extensively on 8x H100 GPU's for 2 days using a carefully annotated Turkish dataset. |
|
## Model Details |
|
|
|
- **Base Model**: Qwen 14B based LLM |
|
- **Training Dataset**: Annotated Turkish Dataset |
|
- **Training Method**: Full Finetuning |
|
|
|
## Usage Examples |
|
|
|
```python |
|
|
|
from transformers import AutoModelForCausalLM, AutoTokenizer |
|
device = "cuda" # the device to load the model onto |
|
|
|
model = AutoModelForCausalLM.from_pretrained( |
|
"Orbina/Orbita-v0.1", |
|
torch_dtype="auto", |
|
device_map="auto" |
|
) |
|
tokenizer = AutoTokenizer.from_pretrained("Orbina/Orbita-v0.1") |
|
|
|
prompt = "Python'da ekrana 'Merhaba Dünya' nasıl yazılır?" |
|
messages = [ |
|
{"role": "system", "content": "Sen, Orbina AI tarafından üretilen ve verilen talimatları takip ederek en iyi cevabı üretmeye çalışan yardımcı bir yapay zekasın."}, |
|
{"role": "user", "content": prompt} |
|
] |
|
text = tokenizer.apply_chat_template( |
|
messages, |
|
tokenize=False, |
|
add_generation_prompt=True |
|
) |
|
model_inputs = tokenizer([text], return_tensors="pt").to(device) |
|
|
|
generated_ids = model.generate( |
|
model_inputs.input_ids, |
|
temperature=0.3, |
|
top_k=50, |
|
top_p=0.9, |
|
max_new_tokens=512, |
|
repetition_penalty=1, |
|
) |
|
generated_ids = [ |
|
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids) |
|
] |
|
|
|
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0] |
|
``` |
|
## Example Generations |
|
|
|
``` |
|
Prompt: |
|
Türkiye'deki finansal kurumlar, yapay zeka ile birlikte gelen veri güvenliği risklerini nasıl yönetiyor, 3 örnek verir misin? |
|
|
|
Cevap: |
|
Türkiye'deki finansal kurumlar, yapay zeka (AI) teknolojilerinin getirdiği veri güvenliği riskleri çeşitli yöntemlerle ele almakta ve bu riskleri azaltmaya çalışmaktadır. İşte üç örnek: |
|
|
|
1. **Veri Şifreleme:** Finansal kuruluşlar, müşteri bilgileri gibi hassas verileri şifrelemeyi kullanarak veri ihlallerine karşı koruma sağlar. AES (Advanced Encryption Standard), RSA (Rivest-Shamir-Adleman) veya ECC (Elliptik Eğri Kriptografisi) gibi güçlü şifreleme algoritmaları, verilerin okunmasını engelleyebilir. |
|
2. **Anomali Tespit Sistemleri:** Yapay zeka destekli anomali tespit sistemleri, beklenmedik davranışları algılayabilir ve güvenlik ekiplerini uyarır. Bu sistemler, makine öğrenimi modelleri sayesinde zaman içinde daha etkili hale gelebilir ve dolandırıcılık faaliyetlerini önlemede önemli rol oynar. |
|
3. **Sürekli İzleme ve Güvenlik Politikası Uygulama:** Türkiye'deki finansal kurumlar, sürekli izleme ve güvenlik politikalarını uygularak veri güvenliğini sürdürür. Bu süreçlerde düzenli güvenlik denetimleri yapılır ve tüm personelin güvenlik konusunda eğitildiği göz önünde bulundurulur. Ayrıca, müşterilere de güvenlik protokollerini anlatan eğitimler sunulur. |
|
|
|
Bu örnekler, Türkiye'deki finansal kurumların yapay zeka ile ilgili veri güvenliği risklerini yönetmek için kullandıkları bazı stratejileri göstermektedir. Ancak herhangi bir güvenlik sistemi mükemmel değildir ve bu nedenle kurumlar da sürekli olarak güvenlik durumlarını değerlendirip iyileştirmeler yapmaktadırlar. |
|
``` |
|
|
|
``` |
|
Prompt: |
|
Python'da ekrana "Merhaba Dünya" nasıl yazılır? |
|
|
|
Cevap: |
|
Python'da ekrana "Merhaba Dünya" yazmak için `print` fonksiyonunu kullanabilirsiniz. İşte basit bir örnek: |
|
|
|
``python |
|
print("Merhaba Dünya") |
|
`` |
|
|
|
Bu kodu çalıştırdığınızda, konsol ekranında "Merhaba Dünya" metnini göreceksiniz. `print` fonksiyonu, verilen argümanı (bu durumda "Merhaba Dünya") alır ve onu çıktı olarak verir. |
|
``` |
|
|
|
# [Open LLM Turkish Leaderboard Evaluation Results](https://huggingface.co./spaces/malhajar/OpenLLMTurkishLeaderboard) |
|
|
|
| Metric |Value| |
|
|---------------------------------|----:| |
|
|Avg. |49.47| |
|
|AI2 Reasoning Challenge_tr |41.97| |
|
|HellaSwag_tr |48.00| |
|
|MMLU_tr |49.51| |
|
|TruthfulQA_tr |50.78| |
|
|Winogrande _tr |56.16| |
|
|GSM8k_tr |50.41| |
|
|
|
|