4.6 KiB

Raw Permalink Blame History

Conditional DETR

Overview

条件付き DETR モデルは、Conditional DETR for Fast Training Convergence で Depu Meng、Xiaokang Chen、Zejia Fan、Gang Zeng、Houqiang Li、Yuhui Yuan、Lei Sun, Jingdong Wang によって提案されました。王京東。条件付き DETR は、高速 DETR トレーニングのための条件付きクロスアテンションメカニズムを提供します。条件付き DETR は DETR よりも 6.7 倍から 10 倍速く収束します。

論文の要約は次のとおりです。

最近開発された DETR アプローチは、トランスフォーマーエンコーダーおよびデコーダーアーキテクチャを物体検出に適用し、有望なパフォーマンスを実現します。この論文では、トレーニングの収束が遅いという重要な問題を扱い、高速 DETR トレーニングのための条件付きクロスアテンションメカニズムを紹介します。私たちのアプローチは、DETR におけるクロスアテンションが 4 つの四肢の位置特定とボックスの予測にコンテンツの埋め込みに大きく依存しているため、高品質のコンテンツの埋め込みの必要性が高まり、トレーニングの難易度が高くなるという点に動機づけられています。条件付き DETR と呼ばれる私たちのアプローチは、デコーダーのマルチヘッドクロスアテンションのためにデコーダーの埋め込みから条件付きの空間クエリを学習します。利点は、条件付き空間クエリを通じて、各クロスアテンションヘッドが、個別の領域 (たとえば、1 つのオブジェクトの端またはオブジェクトボックス内の領域) を含むバンドに注目できることです。これにより、オブジェクト分類とボックス回帰のための個別の領域をローカライズするための空間範囲が狭まり、コンテンツの埋め込みへの依存が緩和され、トレーニングが容易になります。実験結果は、条件付き DETR がバックボーン R50 および R101 で 6.7 倍速く収束し、より強力なバックボーン DC5-R50 および DC5-R101 で 10 倍速く収束することを示しています。コードは https://github.com/Atten4Vis/ConditionalDETR で入手できます。

条件付き DETR は、元の DETR に比べてはるかに速い収束を示します。元の論文から引用。

このモデルは DepuMeng によって寄稿されました。元のコードはここにあります。

Resources

オブジェクト検出タスクガイド