transformers/docs/source/zh/internal/tokenization_utils.md

1.5 KiB
Raw Permalink Blame History

Tokenizers的工具

并保留格式此页面列出了tokenizers使用的所有实用函数主要是类 [~tokenization_utils_base.PreTrained TokenizerBase] 实现了常用方法之间的 [PreTrained Tokenizer] 和 [PreTrained TokenizerFast] 以及混合类 [~tokenization_utils_base.SpecialTokens Mixin]。

其中大多数只有在您研究库中tokenizers的代码时才有用。

PreTrainedTokenizerBase

autodoc tokenization_utils_base.PreTrainedTokenizerBase - call - all

SpecialTokensMixin

autodoc tokenization_utils_base.SpecialTokensMixin

Enums和namedtuples(命名元组)

autodoc tokenization_utils_base.TruncationStrategy

autodoc tokenization_utils_base.CharSpan

autodoc tokenization_utils_base.TokenSpan