import glob
import os
from tokenizers import Tokenizer
import gradio as gr


loaded_tokenizer = Tokenizer.from_file("hindi_tokenizer.json")


def inference(text):
    encoded = loaded_tokenizer.encode(text)
    sent_text = [loaded_tokenizer.decode([i]) for i in encoded.ids]

    lst_sent = []

    for w, e in zip(sent_text, encoded.ids):
        lst_sent.append((w, str(e)))

    return len(encoded.ids), lst_sent


title = "Hindi Tokenizer"
description = "This is a Hindi Tokenizer Breakdown"

examples = [
    ["जब मैं कल बाजार गया था, मैंने बहुत सारी सब्जियाँ और फल खरीदे क्योंकि वे ताजे और सस्ते थे।"],
    [
        "हमारे स्कूल के प्रधानाचार्य ने घोषणा की कि इस वर्ष का वार्षिक उत्सव अगले महीने आयोजित किया जाएगा।"
    ],
    ["उसने अपने दोस्त को बहुत अच्छे से समझा और उसकी मदद की।"],
    ["उसने अपने दोस्त को बहुत अच्छे से समझा और उसकी मदद की।"],
]

demo = gr.Interface(
    fn=inference,
    inputs=[gr.Textbox(label="Enter Hindi Sentence", type="text")],
    outputs=[
        gr.Label(label="Number of Tokens"),
        gr.HighlightedText(label="Tokenized Sentence with Token ID")
    ],
    title=title,
    description=description,
    examples=examples,
)

demo.launch()