transformers/docs/source/zh/main_classes/data_collator.md

2.2 KiB
Raw Permalink Blame History

Data Collator

Data collators是一个对象通过使用数据集元素列表作为输入来形成一个批次。这些元素与 train_dataseteval_dataset 的元素类型相同。

为了能够构建批次Data collators可能会应用一些预处理比如填充。其中一些比如[DataCollatorForLanguageModeling])还会在形成的批次上应用一些随机数据增强(比如随机掩码)。

示例脚本示例notebooks中可以找到使用的示例。

Default data collator

autodoc data.data_collator.default_data_collator

DefaultDataCollator

autodoc data.data_collator.DefaultDataCollator

DataCollatorWithPadding

autodoc data.data_collator.DataCollatorWithPadding

DataCollatorForTokenClassification

autodoc data.data_collator.DataCollatorForTokenClassification

DataCollatorForSeq2Seq

autodoc data.data_collator.DataCollatorForSeq2Seq

DataCollatorForLanguageModeling

autodoc data.data_collator.DataCollatorForLanguageModeling - numpy_mask_tokens - tf_mask_tokens - torch_mask_tokens

DataCollatorForWholeWordMask

autodoc data.data_collator.DataCollatorForWholeWordMask - numpy_mask_tokens - tf_mask_tokens - torch_mask_tokens

DataCollatorForPermutationLanguageModeling

autodoc data.data_collator.DataCollatorForPermutationLanguageModeling - numpy_mask_tokens - tf_mask_tokens - torch_mask_tokens