morphemizer - Morpheme-based Russian Tokenizer
Репозиторий содержит только токенизатор русского текста, данный токенизатор позволяет преобразовывать входные текстовые данные в последовательность токенов, каждый из которых представляет из себя морфемы из которых состоят слова.
В данный момент проект на ранней стадии разработки.
Как пользоваться
Для начала необходимо скачать пару библиотек:
pip install transformers rumorpheme
Небольшой пример использования:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("evilfreelancer/morphemizer", trust_remote_code=True)
test_text = "Философское восприятие мира."
input_ids = tokenizer.encode(test_text)
print("Text:", test_text)
print("Encoded:", input_ids)
print("Tokens:", tokenizer.convert_ids_to_tokens(input_ids))
print("Decoded:", tokenizer.decode(input_ids))