====== Perplexity statistics ======
Mean PPL(Q)                   :   8.238324 ±   0.051597
Mean PPL(base)                :   6.554978 ±   0.040159
Cor(ln(PPL(Q)), ln(PPL(base))):  95.64%
Mean ln(PPL(Q)/PPL(base))     :   0.228572 ±   0.001835
Mean PPL(Q)/PPL(base)         :   1.256804 ±   0.002306
Mean PPL(Q)-PPL(base)         :   1.683345 ±   0.017653

====== KL divergence statistics ======
Mean    KLD:   0.223382 ±   0.000737
Maximum KLD:  13.166234
99.9%   KLD:   3.156968
99.0%   KLD:   1.269592
99.0%   KLD:   1.269592
Median  KLD:   0.172361
10.0%   KLD:   0.010869
 5.0%   KLD:   0.003011
 1.0%   KLD:   0.000389
Minimum KLD:   0.000001

====== Token probability statistics ======
Mean    Δp: -5.360 ± 0.036 %
Maximum Δp: 79.574%
99.9%   Δp: 44.925%
99.0%   Δp: 25.301%
95.0%   Δp: 11.514%
90.0%   Δp:  5.467%
75.0%   Δp:  0.109%
Median  Δp: -1.281%
25.0%   Δp: -9.243%
10.0%   Δp: -22.453%
 5.0%   Δp: -32.053%
 1.0%   Δp: -54.484%
 0.1%   Δp: -87.388%
Minimum Δp: -99.680%
RMS Δp    : 14.820 ± 0.056 %
Same top p: 75.373 ± 0.114 %