README.md · Zayt/viRoberta-l6-h384-word-cased at main

More information: github

from underthesea import word_tokenize
from transformers import RobertaTokenizer, RobertaModel

model_name = 'Zayt/viRoberta-l6-h384-word-cased'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForMaskedLM.from_pretrained(model_name)

text = word_tokenize("Xin chào, tôi không còn là sinh viên đại học Bách Khoa.", format='text')
output = model(**tokenizer(text, return_tensors='pt))
output