Model Card: TunChat-V0.1

Model Overview:

  • Model Name: TunChat-V0.1
  • Model Size: 2B parameters
  • Instruction-Tuned: Yes
  • Language: Tunisian Dialect
  • Use Case Focus: Conversational exchanges, translation, summarization, content generation, and cultural research.

Model Description: TunChat-V0.1 is a 2-billion parameter language model specifically instruction-tuned for the Tunisian dialect. It is designed to handle tasks such as conversational exchanges, informal text summarization, and culturally-aware content generation. The model is optimized to understand and generate text in Tunisian Dialect, enabling enhanced performance for applications targeting Tunisian users.

Intended Use:

  • Conversational agents and chatbots operating in Tunisian Dialect.
  • Translation, summarization, and content generation in informal Tunisian dialect.
  • Supporting cultural research related to Tunisian language and heritage.

How to Use:

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="saifamdouni/TunChat-V0.1",
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda" # replace with "mps" to run on a Mac device
)

messages = [
    {"role": "user", "content": 'احكيلي على تونس'},
]

outputs = pipe(messages,
              max_new_tokens=2048,
              do_sample=True,
              top_p=0.95,
              temperature=0.1,
              top_k=50)
assistant_response = outputs[0]["generated_text"][-1]["content"].strip()
print(assistant_response)

تونس بلاد موجودة في شمال افريقيا، في الجنوب متاع البحر الأبيض المتوسط. عندها حدود مع ليبيا و الجزائر. تونس عندها مساحة جملية تقريب 176،700 كيلومتر مربع، و عدد سكان يوصل ل 11.7 مليون نسمة. العاصمة متاعها و أكبر مدينة هي تونس العاصمة، و العاصمة السياسية و الاقتصادية. تونس عندها تاريخ غني و ثقافة متنوعة، و فيها برشا معالم أثرية، كيما قرطاج، اللي كانت مدينة قديمة و مركز تجاري مهم في قرطاج القديمة. تونس عندها نظام اقتصادي متنوع، و قطاع الخدمات هو أكبر قطاع في البلاد. زيد على هذا، قطاع السياحة مهم زادة، خاطر البلاد معروفة بالبلايص التاريخية متاعها، الماكلة و الثقافة. في الخلاصة، تونس بلاد متنوعة و فيها برشا حاجات، عندها تاريخ غني، ثقافة فريدة و مناظر طبيعية خلابة.

Quantized Versions:

  • GGUF quantized versions will be released later.

Training Dataset:

  • Tun-SFT dataset (to be released later):
    • A mix between organically collected and synthetically generated data

Limitations and Ethical Considerations:

  • The model may occasionally produce incorrect or biased responses.
  • The model may occasionally produce culturally inappropriate responses.
  • It may not perform optimally on formal Tunisian Arabic texts.

Future Plans:

  • Release of GGUF quantized versions.
  • Open-source availability of the Tun-SFT dataset.

Author: Saif Eddine Amdouni

Downloads last month
20
Safetensors
Model size
2.61B params
Tensor type
BF16
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for saifamdouni/TunChat-V0.1

Finetuned
(13)
this model