2.2 KiB
Data Collator
Data collators是一个对象,通过使用数据集元素列表作为输入来形成一个批次。这些元素与 train_dataset
或 eval_dataset
的元素类型相同。
为了能够构建批次,Data collators可能会应用一些预处理(比如填充)。其中一些(比如[DataCollatorForLanguageModeling
])还会在形成的批次上应用一些随机数据增强(比如随机掩码)。
在示例脚本或示例notebooks中可以找到使用的示例。
Default data collator
autodoc data.data_collator.default_data_collator
DefaultDataCollator
autodoc data.data_collator.DefaultDataCollator
DataCollatorWithPadding
autodoc data.data_collator.DataCollatorWithPadding
DataCollatorForTokenClassification
autodoc data.data_collator.DataCollatorForTokenClassification
DataCollatorForSeq2Seq
autodoc data.data_collator.DataCollatorForSeq2Seq
DataCollatorForLanguageModeling
autodoc data.data_collator.DataCollatorForLanguageModeling - numpy_mask_tokens - tf_mask_tokens - torch_mask_tokens
DataCollatorForWholeWordMask
autodoc data.data_collator.DataCollatorForWholeWordMask - numpy_mask_tokens - tf_mask_tokens - torch_mask_tokens
DataCollatorForPermutationLanguageModeling
autodoc data.data_collator.DataCollatorForPermutationLanguageModeling - numpy_mask_tokens - tf_mask_tokens - torch_mask_tokens