WE are COOKED

Test Log 08 March 2025

First Test:

Mean Perplexity : tested on wikitext-2-raw-v1, ~2k English samples was 1420.7414870547489

Second Test

Evaluated the tokenizer's performance on:

Unicode coverage.
Token distribution.
Tokenization complexity across different scripts.
Encoding and decoding capabilities &
Edge cases e.g., special characters, numbers, etc.
1k samples: 500 Hindi, 500 English

1. Edge Case Handling

Language	Test Type	Token Count	Unique Tokens
Hindi	Script Test	14	13
	Unicode Test	21	21
	Special Characters	19	19
English	Script Test	16	15
	Unicode Test	14	14
	Special Characters	18	18

2. Unicode Coverage

Language	Coverage Ratio	Token Count	Unique Tokens
Hindi	100%	21	21
English	100%	14	14

3. Complexity

Language	Original Length	Token Count	Avg Token Length	Token Diversity
Hindi	49	14	9.07	0.928
English	65	16	4.06	0.937

4. Encoding-Decoding Capabilities


Hindi Analysis:
Original Text: नमस्ते, मैं भारत से हूँ। दिल्ली बहुत बड़ा शहर है।
Token IDs Count: 14
Token Strings: ['à¤¨à¤®', 'à¤¸à¥įà¤¤à¥ĩ', ',', 'Ġà¤®à¥Īà¤Ĥ', 'Ġà¤Ńà¤¾à¤°à¤¤', 'Ġà¤¸à¥ĩ', 'Ġà¤¹à¥Ĥà¤ģ', 'à¥¤', 'Ġà¤¦à¤¿à¤²à¥įà¤²à¥Ģ', 'Ġà¤¬à¤¹à¥ģà¤¤', 'Ġà¤¬à¤¡à¤¼à¤¾', 'Ġà¤¶à¤¹à¤°', 'Ġà¤¹à¥Ī', 'à¥¤']
Decoded Text: नमस्ते, मैं भारत से हूँ। दिल्ली बहुत बड़ा शहर है।
Text Reconstruction: True

Hindi Analysis:
Original Text: हिंदी भाषा बहुत सुंदर है।
Token IDs Count: 7
Token Strings: ['à¤¹', 'à¤¿à¤Ĥà¤¦à¥Ģ', 'Ġà¤Ńà¤¾à¤·à¤¾', 'Ġà¤¬à¤¹à¥ģà¤¤', 'Ġà¤¸à¥ģà¤Ĥà¤¦à¤°', 'Ġà¤¹à¥Ī', 'à¥¤']
Decoded Text: हिंदी भाषा बहुत सुंदर है।
Text Reconstruction: True

Hindi Analysis:
Original Text: मुझे किताबें पढ़ना पसंद है।
Token IDs Count: 7
Token Strings: ['à¤®', 'à¥ģà¤Ŀà¥ĩ', 'Ġà¤ķà¤¿à¤¤à¤¾à¤¬à¥ĩà¤Ĥ', 'Ġà¤ªà¤¢à¤¼à¤¨à¤¾', 'Ġà¤ªà¤¸à¤Ĥà¤¦', 'Ġà¤¹à¥Ī', 'à¥¤']
Decoded Text: मुझे किताबें पढ़ना पसंद है।
Text Reconstruction: True

Hindi Analysis:
Original Text: यह एक उदाहरण वाक्य है।
Token IDs Count: 6
Token Strings: ['à¤¯à¤¹', 'Ġà¤ıà¤ķ', 'Ġà¤īà¤¦à¤¾à¤¹à¤°à¤£', 'Ġà¤µà¤¾à¤ķà¥įà¤¯', 'Ġà¤¹à¥Ī', 'à¥¤']
Decoded Text: यह एक उदाहरण वाक्य है।
Text Reconstruction: True

English Analysis:
Original Text: Hello, I am from India. Delhi is a big city.
Token IDs Count: 13
Token Strings: ['Hello', ',', 'ĠI', 'Ġam', 'Ġfrom', 'ĠIndia', '.', 'ĠDelhi', 'Ġis', 'Ġa', 'Ġbig', 'Ġcity', '.']
Decoded Text: Hello, I am from India. Delhi is a big city.
Text Reconstruction: True

English Analysis:
Original Text: The English language is widely spoken.
Token IDs Count: 7
Token Strings: ['The', 'ĠEnglish', 'Ġlanguage', 'Ġis', 'Ġwidely', 'Ġspoken', '.']
Decoded Text: The English language is widely spoken.
Text Reconstruction: True

English Analysis:
Original Text: I enjoy reading books.
Token IDs Count: 5
Token Strings: ['I', 'Ġenjoy', 'Ġreading', 'Ġbooks', '.']
Decoded Text: I enjoy reading books.
Text Reconstruction: True

English Analysis:
Original Text: This is an example sentence.
Token IDs Count: 6
Token Strings: ['This', 'Ġis', 'Ġan', 'Ġexample', 'Ġsentence', '.']
Decoded Text: This is an example sentence.
Text Reconstruction: True