efederici
/

ipt-350m

Text Generation

text-generation-inference

text generation

Model card Files Files and versions Community

efederici commited on Nov 6, 2023

Commit

d6b775b

·

1 Parent(s): 8ee0f76

Update adapt_tokenizer.py

Files changed (1) hide show

adapt_tokenizer.py +4 -5

adapt_tokenizer.py CHANGED Viewed

@@ -1,9 +1,8 @@
-from typing import Union
-from transformers import AutoTokenizer, PreTrainedTokenizer, PreTrainedTokenizerFast
-Tokenizer = Union[PreTrainedTokenizer, PreTrainedTokenizerFast]
 NUM_SENTINEL_TOKENS: int = 100
-def adapt_tokenizer_for_denoising(tokenizer: Tokenizer):
     """Adds sentinel tokens and padding token (if missing).
     Expands the tokenizer vocabulary to include sentinel tokens
@@ -34,7 +33,7 @@ class AutoTokenizerForMOD(AutoTokenizer):
     """
     @classmethod
-    def from_pretrained(cls, *args, **kwargs):
         """See `AutoTokenizer.from_pretrained` docstring."""
         tokenizer = super().from_pretrained(*args, **kwargs)
         adapt_tokenizer_for_denoising(tokenizer)

+from typing import Any
+from transformers import AutoTokenizer, PreTrainedTokenizerBase
 NUM_SENTINEL_TOKENS: int = 100
+def adapt_tokenizer_for_denoising(tokenizer: PreTrainedTokenizerBase) -> None:
     """Adds sentinel tokens and padding token (if missing).
     Expands the tokenizer vocabulary to include sentinel tokens
     """
     @classmethod
+    def from_pretrained(cls, *args: Any, **kwargs: Any) -> PreTrainedTokenizerBase:
         """See `AutoTokenizer.from_pretrained` docstring."""
         tokenizer = super().from_pretrained(*args, **kwargs)
         adapt_tokenizer_for_denoising(tokenizer)