---
language:
- ar
library_name: sentence-transformers
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:2772052
- loss:MultipleNegativesRankingLoss
- loss:SoftmaxLoss
- loss:CoSENTLoss
base_model: google-bert/bert-base-multilingual-cased
datasets:
- Omartificial-Intelligence-Space/Arabic-stsb
- Omartificial-Intelligence-Space/Arabic-Quora-Duplicates
widget:
- source_sentence: امرأة تكتب شيئاً
sentences:
- قد يكون من الممكن أن يوجد نظام شمسي مثل نظامنا خارج المجرة
- امرأة تقطع البصل الأخضر.
- مراهق يتحدث إلى فتاة عبر كاميرا الإنترنت
- source_sentence: لاعب التزلج على الجليد يقفز فوق برميل
sentences:
- الرجل كان يمشي
- رجل عجوز يجلس في غرفة الانتظار بالمستشفى.
- متزلج على الجليد يقفز
- source_sentence: العديد من النساء يرتدين ملابس الشرق الأوسط من الذهب والأزرق والأصفر
والأحمر ويؤدون رقصة.
sentences:
- الناس توقفوا على جانب الطريق
- هناك على الأقل إمرأتين
- المرأة وحدها نائمة في قاربها على القمر
- source_sentence: الرجل يرتدي قميصاً أزرق.
sentences:
- رجل يرتدي قميصاً أزرق يميل إلى الجدار بجانب الطريق مع شاحنة زرقاء وسيارة حمراء
مع الماء في الخلفية.
- الرجل يجلس بجانب لوحة لنفسه
- رجل يرتدي قميص أسود يعزف على الجيتار.
- source_sentence: ما هي الدروس التي يمكن أن نتعلمها من أدولف هتلر؟
sentences:
- ما هي الدروس التي يمكن أن نتعلمها من أدولف هتلر؟
- ما مدى قربنا من الحرب العالمية؟
- هل حرق وقود الطائرات يذوب أعمدة الصلب؟
pipeline_tag: sentence-similarity
---
# SentenceTransformer based on google-bert/bert-base-multilingual-cased
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [google-bert/bert-base-multilingual-cased](https://huggingface.co./google-bert/bert-base-multilingual-cased) on the all-nli-pair, all-nli-pair-class, all-nli-pair-score, all-nli-triplet, [stsb](https://huggingface.co./datasets/Omartificial-Intelligence-Space/arabic-stsb) and [quora](https://huggingface.co./datasets/Omartificial-Intelligence-Space/arabic-quora-duplicates) datasets. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [google-bert/bert-base-multilingual-cased](https://huggingface.co./google-bert/bert-base-multilingual-cased)
- **Maximum Sequence Length:** 512 tokens
- **Output Dimensionality:** 768 tokens
- **Similarity Function:** Cosine Similarity
- **Training Datasets:**
- all-nli-pair
- all-nli-pair-class
- all-nli-pair-score
- all-nli-triplet
- [stsb](https://huggingface.co./datasets/Omartificial-Intelligence-Space/arabic-stsb)
- [quora](https://huggingface.co./datasets/Omartificial-Intelligence-Space/arabic-quora-duplicates)
- **Language:** ar
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co./models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("Omartificial-Intelligence-Space/Arabic-base-all-nli-stsb-quora")
# Run inference
sentences = [
'ما هي الدروس التي يمكن أن نتعلمها من أدولف هتلر؟',
'ما هي الدروس التي يمكن أن نتعلمها من أدولف هتلر؟',
'ما مدى قربنا من الحرب العالمية؟',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```
## Training Details
### Training Datasets
#### all-nli-pair
* Dataset: all-nli-pair
* Size: 314,315 training samples
* Columns: anchor
and positive
* Approximate statistics based on the first 1000 samples:
| | anchor | positive |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
| type | string | string |
| details |
شخص على حصان يقفز فوق طائرة معطلة
| شخص في الهواء الطلق، على حصان.
|
| أطفال يبتسمون و يلوحون للكاميرا
| هناك أطفال حاضرون
|
| صبي يقفز على لوح التزلج في منتصف الجسر الأحمر.
| الفتى يقوم بخدعة التزلج
|
* Loss: [MultipleNegativesRankingLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
#### all-nli-pair-class
* Dataset: all-nli-pair-class
* Size: 942,069 training samples
* Columns: premise
, hypothesis
, and label
* Approximate statistics based on the first 1000 samples:
| | premise | hypothesis | label |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------|
| type | string | string | int |
| details | شخص على حصان يقفز فوق طائرة معطلة
| شخص يقوم بتدريب حصانه للمنافسة
| 1
|
| شخص على حصان يقفز فوق طائرة معطلة
| شخص في مطعم، يطلب عجة.
| 2
|
| شخص على حصان يقفز فوق طائرة معطلة
| شخص في الهواء الطلق، على حصان.
| 0
|
* Loss: [SoftmaxLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#softmaxloss)
#### all-nli-pair-score
* Dataset: all-nli-pair-score
* Size: 942,069 training samples
* Columns: sentence1
, sentence2
, and score
* Approximate statistics based on the first 1000 samples:
| | sentence1 | sentence2 | score |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:--------------------------------------------------------------|
| type | string | string | float |
| details | شخص على حصان يقفز فوق طائرة معطلة
| شخص يقوم بتدريب حصانه للمنافسة
| 0.5
|
| شخص على حصان يقفز فوق طائرة معطلة
| شخص في مطعم، يطلب عجة.
| 0.0
|
| شخص على حصان يقفز فوق طائرة معطلة
| شخص في الهواء الطلق، على حصان.
| 1.0
|
* Loss: [CoSENTLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "pairwise_cos_sim"
}
```
#### all-nli-triplet
* Dataset: all-nli-triplet
* Size: 557,850 training samples
* Columns: anchor
, positive
, and negative
* Approximate statistics based on the first 1000 samples:
| | anchor | positive | negative |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
| type | string | string | string |
| details | شخص على حصان يقفز فوق طائرة معطلة
| شخص في الهواء الطلق، على حصان.
| شخص في مطعم، يطلب عجة.
|
| أطفال يبتسمون و يلوحون للكاميرا
| هناك أطفال حاضرون
| الاطفال يتجهمون
|
| صبي يقفز على لوح التزلج في منتصف الجسر الأحمر.
| الفتى يقوم بخدعة التزلج
| الصبي يتزلج على الرصيف
|
* Loss: [MultipleNegativesRankingLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
#### stsb
* Dataset: [stsb](https://huggingface.co./datasets/Omartificial-Intelligence-Space/arabic-stsb) at [7c6c4bd](https://huggingface.co./datasets/Omartificial-Intelligence-Space/arabic-stsb/tree/7c6c4bd31a465a0f3ed1a3704a31f2682a0f65be)
* Size: 5,749 training samples
* Columns: sentence1
, sentence2
, and score
* Approximate statistics based on the first 1000 samples:
| | sentence1 | sentence2 | score |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------|
| type | string | string | float |
| details | طائرة ستقلع
| طائرة جوية ستقلع
| 1.0
|
| رجل يعزف على ناي كبير
| رجل يعزف على الناي.
| 0.76
|
| رجل ينشر الجبن الممزق على البيتزا
| رجل ينشر الجبن الممزق على بيتزا غير مطبوخة
| 0.76
|
* Loss: [CoSENTLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "pairwise_cos_sim"
}
```
#### quora
* Dataset: [quora](https://huggingface.co./datasets/Omartificial-Intelligence-Space/arabic-quora-duplicates) at [7d49308](https://huggingface.co./datasets/Omartificial-Intelligence-Space/arabic-quora-duplicates/tree/7d49308a21bbad3a2762d11f2e8c0cbcc86510fe)
* Size: 10,000 training samples
* Columns: anchor
and positive
* Approximate statistics based on the first 1000 samples:
| | anchor | positive |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
| type | string | string |
| details | علم التنجيم: أنا برج الجدي الشمس القمر والقبعة الشمسية...
| أنا برج الجدي الثلاثي (الشمس والقمر والصعود في برج الجدي) ماذا يقول هذا عني؟
|
| كيف أكون جيولوجياً جيداً؟
| ماذا علي أن أفعل لأكون جيولوجياً عظيماً؟
|
| كيف أقرأ وأجد تعليقاتي على يوتيوب؟
| كيف يمكنني رؤية كل تعليقاتي على اليوتيوب؟
|
* Loss: [MultipleNegativesRankingLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
### Evaluation Datasets
#### all-nli-triplet
* Dataset: all-nli-triplet
* Size: 6,584 evaluation samples
* Columns: anchor
, positive
, and negative
* Approximate statistics based on the first 1000 samples:
| | anchor | positive | negative |
|:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
| type | string | string | string |
| details | امرأتان يتعانقان بينما يحملان حزمة
| إمرأتان يحملان حزمة
| الرجال يتشاجرون خارج مطعم
|
| طفلين صغيرين يرتديان قميصاً أزرق، أحدهما يرتدي الرقم 9 والآخر يرتدي الرقم 2 يقفان على خطوات خشبية في الحمام ويغسلان أيديهما في المغسلة.
| طفلين يرتديان قميصاً مرقماً يغسلون أيديهم
| طفلين يرتديان سترة يذهبان إلى المدرسة
|
| رجل يبيع الدونات لعميل خلال معرض عالمي أقيم في مدينة أنجليس
| رجل يبيع الدونات لعميل
| امرأة تشرب قهوتها في مقهى صغير
|
* Loss: [MultipleNegativesRankingLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
#### stsb
* Dataset: [stsb](https://huggingface.co./datasets/Omartificial-Intelligence-Space/arabic-stsb) at [7c6c4bd](https://huggingface.co./datasets/Omartificial-Intelligence-Space/arabic-stsb/tree/7c6c4bd31a465a0f3ed1a3704a31f2682a0f65be)
* Size: 1,500 evaluation samples
* Columns: sentence1
, sentence2
, and score
* Approximate statistics based on the first 1000 samples:
| | sentence1 | sentence2 | score |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------|
| type | string | string | float |
| details | رجل يرتدي قبعة صلبة يرقص
| رجل يرتدي قبعة صلبة يرقص.
| 1.0
|
| طفل صغير يركب حصاناً.
| طفل يركب حصاناً.
| 0.95
|
| رجل يطعم فأراً لأفعى
| الرجل يطعم الفأر للثعبان.
| 1.0
|
* Loss: [CoSENTLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "pairwise_cos_sim"
}
```
#### quora
* Dataset: [quora](https://huggingface.co./datasets/Omartificial-Intelligence-Space/arabic-quora-duplicates) at [7d49308](https://huggingface.co./datasets/Omartificial-Intelligence-Space/arabic-quora-duplicates/tree/7d49308a21bbad3a2762d11f2e8c0cbcc86510fe)
* Size: 1,000 evaluation samples
* Columns: anchor
and positive
* Approximate statistics based on the first 1000 samples:
| | anchor | positive |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
| type | string | string |
| details | ما هو قرارك في السنة الجديدة؟
| ما الذي يمكن أن يكون قراري للعام الجديد لعام 2017؟
|
| هل يجب أن أشتري هاتف آيفون 6 أو سامسونج غالاكسي إس 7؟
| أيهما أفضل: الـ iPhone 6S Plus أو الـ Samsung Galaxy S7 Edge؟
|
| ما هي الاختلافات بين التجاوز والتراجع؟
| ما الفرق بين التجاوز والتراجع؟
|
* Loss: [MultipleNegativesRankingLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `per_device_train_batch_size`: 128
- `num_train_epochs`: 1
- `warmup_ratio`: 0.1
#### All Hyperparameters