morphemizer - Morpheme-based Russian Tokenizer

Репозиторий содержит только токенизатор русского текста, данный токенизатор позволяет преобразовывать входные текстовые данные в последовательность токенов, каждый из которых представляет из себя морфемы из которых состоят слова.

https://github.com/EvilFreelancer/ruMorpheme

В данный момент проект на ранней стадии разработки.

Как пользоваться

Для начала необходимо скачать пару библиотек:

pip install transformers rumorpheme

Небольшой пример использования:

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("evilfreelancer/morphemizer", trust_remote_code=True)
test_text = "Философское восприятие мира."
input_ids = tokenizer.encode(test_text)

print("Text:", test_text)
print("Encoded:", input_ids)
print("Tokens:", tokenizer.convert_ids_to_tokens(input_ids))
print("Decoded:", tokenizer.decode(input_ids))