metadata

license: mit
base_model: facebook/bart-large-xsum
tags:
  - generated_from_trainer
metrics:
  - rouge
model-index:
  - name: bart_samsum
    results: []

bart_samsum

This model is a fine-tuned version of facebook/bart-large-xsum on the None dataset. It achieves the following results on the evaluation set:

Loss: 2.6994
Rouge1: 54.5529
Rouge2: 30.0179
Rougel: 45.3837
Rougelsum: 50.4176
Gen Len: 28.967

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 2e-05
train_batch_size: 4
eval_batch_size: 4
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 8
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
num_epochs: 4
mixed_precision_training: Native AMP
label_smoothing_factor: 0.1

Training results

Training Loss	Epoch	Step	Validation Loss	Rouge1	Rouge2	Rougel	Rougelsum	Gen Len
2.7327	0.9997	1841	2.7677	52.2923	27.6237	43.1558	48.08	30.4005
2.4597	2.0	3683	2.7286	53.4085	28.7235	44.5737	49.3042	29.3004
2.2042	2.9997	5524	2.7436	53.6036	28.857	44.7337	49.2789	28.4188
2.1096	3.9989	7364	2.7886	53.0547	28.3597	44.0648	48.804	29.5165

Framework versions

Transformers 4.42.4
Pytorch 2.4.0+cu121
Datasets 2.21.0
Tokenizers 0.19.1