====== Perplexity statistics ======
Mean PPL(Q)                   :  28.239199 ±0.276339
Mean PPL(base)                :  24.931431 ±0.241228
Cor(ln(PPL(Q)), ln(PPL(base))):  97.23%
Mean ln(PPL(Q)/PPL(base))     :   0.124582 ±0.002294
Mean PPL(Q)/PPL(base)         :   1.132675 ±0.002598
Mean PPL(Q)-PPL(base)         :   3.307769 ±0.070198

====== KL divergence statistics ======
Mean    KLD:   0.230055 ±0.000737
Maximum KLD:   8.185512
99.9%   KLD:   2.553982
99.0%   KLD:   1.288128
99.0%   KLD:   1.288128
Median  KLD:   0.147510
10.0%   KLD:   0.004156
 5.0%   KLD:   0.000713
 1.0%   KLD:   0.000035
Minimum KLD:  -0.000052

====== Token probability statistics ======
Mean    Δp: -2.074 ± 0.029 %
Maximum Δp: 95.238%
99.9%   Δp: 55.714%
99.0%   Δp: 30.183%
95.0%   Δp: 12.353%
90.0%   Δp:  5.671%
75.0%   Δp:  0.292%
Median  Δp: -0.036%
25.0%   Δp: -3.215%
10.0%   Δp: -13.752%
 5.0%   Δp: -22.530%
 1.0%   Δp: -43.213%
 0.1%   Δp: -69.338%
Minimum Δp: -99.414%
RMS Δp    : 11.536 ± 0.050 %
Same top p: 76.903 ± 0.109 %