import glob import os from tokenizers import Tokenizer import gradio as gr loaded_tokenizer = Tokenizer.from_file("hindi_tokenizer.json") def inference(text): encoded = loaded_tokenizer.encode(text) sent_text = [loaded_tokenizer.decode([i]) for i in encoded.ids] lst_sent = [] for w, e in zip(sent_text, encoded.ids): lst_sent.append((w, str(e))) return len(encoded.ids), lst_sent title = "Hindi Tokenizer" description = "This is a Hindi Tokenizer Breakdown" examples = [ ["जब मैं कल बाजार गया था, मैंने बहुत सारी सब्जियाँ और फल खरीदे क्योंकि वे ताजे और सस्ते थे।"], [ "हमारे स्कूल के प्रधानाचार्य ने घोषणा की कि इस वर्ष का वार्षिक उत्सव अगले महीने आयोजित किया जाएगा।" ], ["उसने अपने दोस्त को बहुत अच्छे से समझा और उसकी मदद की।"], ["उसने अपने दोस्त को बहुत अच्छे से समझा और उसकी मदद की।"], ] demo = gr.Interface( fn=inference, inputs=[gr.Textbox(label="Enter Hindi Sentence", type="text")], outputs=[ gr.Label(label="Number of Tokens"), gr.HighlightedText(label="Tokenized Sentence with Token ID") ], title=title, description=description, examples=examples, ) demo.launch()