transformers/docs/source/zh/performance.md

3.6 KiB
Raw Permalink Blame History

性能与可扩展性

训练大型transformer模型并将其部署到生产环境会面临各种挑战。 在训练过程中模型可能需要比可用的GPU内存更多的资源或者表现出较慢的训练速度。在部署阶段模型可能在生产环境中难以处理所需的吞吐量。

本文档旨在帮助您克服这些挑战并找到适合您使用场景的最佳设置。教程分为训练和推理部分因为每个部分都有不同的挑战和解决方案。在每个部分中您将找到针对不同硬件配置的单独指南例如单GPU与多GPU用于训练或CPU与GPU用于推理。

将此文档作为您的起点,进一步导航到与您的情况匹配的方法。

训练

高效训练大型transformer模型需要使用加速器硬件如GPU或TPU。最常见的情况是您只有一个GPU。您应用于单个GPU上提高训练效率的方法可以扩展到其他设置如多个GPU。然而也有一些特定于多GPU或CPU训练的技术。我们在单独的部分中介绍它们。

推理

在生产环境中对大型模型进行高效推理可能与训练它们一样具有挑战性。在接下来的部分中我们将详细介绍如何在CPU和单/多GPU设置上进行推理的步骤。

训练和推理

在这里,您将找到适用于训练模型或使用它进行推理的技巧、窍门和技巧。

贡献

这份文档还远远没有完成还有很多需要添加的内容所以如果你有补充或更正的内容请毫不犹豫地提交一个PRPull Request或者如果你不确定可以创建一个Issue我们可以在那里讨论细节。

在做出贡献时如果A比B更好请尽量包含可重复的基准测试和(或)该信息来源的链接(除非它直接来自您)。