metadata

license: mit
base_model: xlnet-large-cased
tags:
  - generated_from_keras_callback
model-index:
  - name: vedantjumle/xlnet-1
    results: []

vedantjumle/xlnet-1

This model is a fine-tuned version of xlnet-large-cased on an unknown dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

optimizer: {'name': 'Adam', 'weight_decay': None, 'clipnorm': None, 'global_clipnorm': None, 'clipvalue': None, 'use_ema': False, 'ema_momentum': 0.99, 'ema_overwrite_frequency': None, 'jit_compile': True, 'is_legacy_optimizer': False, 'learning_rate': {'module': 'keras.optimizers.schedules', 'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 2e-05, 'decay_steps': 6000, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}, 'registered_name': None}, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False}
training_precision: float32

Train Loss	Validation Loss	Train Accuracy	Epoch
5.1007	4.9565	0.0133	0
5.0503	4.8870	0.0367	1
4.9095	4.6674	0.07	2
4.5990	4.1706	0.2033	3
4.0403	3.4616	0.4267	4
3.2648	2.6274	0.6033	5
2.5315	1.8851	0.71	6
1.8938	1.4084	0.8033	7
1.3599	1.0397	0.84	8
0.9752	0.7675	0.8667	9
0.6995	0.6496	0.8667	10
0.5132	0.5293	0.89	11
0.3848	0.4618	0.9	12
0.2920	0.4516	0.8733	13
0.2286	0.4097	0.8967	14
0.1789	0.3951	0.9	15
0.1512	0.3845	0.8933	16
0.1320	0.3741	0.9067	17
0.1116	0.3553	0.9067	18
0.0935	0.3710	0.9	19
0.0886	0.3831	0.9067	20
0.0723	0.3490	0.91	21
0.0641	0.3448	0.91	22
0.0601	0.3682	0.9	23
0.0590	0.3716	0.9033	24
0.0491	0.3619	0.91	25
0.0404	0.3728	0.9033	26
0.0394	0.3624	0.91	27
0.0394	0.3249	0.9167	28
0.0387	0.3465	0.91	29
0.0456	0.3580	0.91	30
0.0323	0.3645	0.9133	31
0.0308	0.3633	0.9133	32
0.0312	0.3658	0.9033	33
0.0244	0.3621	0.9067	34
0.0255	0.3705	0.9067	35
0.0238	0.3618	0.9067	36
0.0222	0.3603	0.9067	37
0.0230	0.3678	0.9067	38
0.0272	0.4125	0.9033	39
0.0318	0.3973	0.91	40
0.0262	0.3871	0.9067	41
0.0299	0.3935	0.9033	42
0.0285	0.4192	0.9067	43
0.0206	0.4100	0.9133	44
0.0188	0.4106	0.9067	45
0.0179	0.4355	0.91	46
0.0151	0.4091	0.9133	47
0.0138	0.4046	0.9167	48