transformers/docs/source/ja/bertology.md

2.8 KiB
Raw Permalink Blame History

BERTology

大規模なトランスフォーマー、例えばBERTの内部動作を調査する研究領域が急成長していますこれを「BERTology」とも呼びます。この分野の良い例は以下です

  • BERT Rediscovers the Classical NLP Pipeline by Ian Tenney, Dipanjan Das, Ellie Pavlick: 論文リンク
  • Are Sixteen Heads Really Better than One? by Paul Michel, Omer Levy, Graham Neubig: 論文リンク
  • What Does BERT Look At? An Analysis of BERT's Attention by Kevin Clark, Urvashi Khandelwal, Omer Levy, Christopher D. Manning: 論文リンク
  • CAT-probing: A Metric-based Approach to Interpret How Pre-trained Models for Programming Language Attend Code Structure: 論文リンク

この新しい分野の発展を支援するために、BERT/GPT/GPT-2モデルにいくつかの追加機能を組み込み、人々が内部表現にアクセスできるようにしました。これらの機能は、主にPaul Michel氏の優れた研究論文リンク)に基づいています。具体的には、以下の機能が含まれています:

  • BERT/GPT/GPT-2のすべての隠れ状態にアクセスすることができます。
  • BERT/GPT/GPT-2の各ヘッドの注意重みにアクセスできます。
  • ヘッドの出力値と勾配を取得し、ヘッドの重要性スコアを計算し、論文リンクで説明されているようにヘッドを削減できます。

これらの機能を理解し、使用するのを支援するために、特定のサンプルスクリプト「bertology.py」を追加しました。このスクリプトは、GLUEで事前トレーニングされたモデルから情報を抽出し、ヘッドを削減する役割を果たします。