4.4 KiB

Raw Permalink Blame History

CamemBERT

Overview

CamemBERT モデルは、CamemBERT: a Tasty French Language Model で提案されました。 Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah, and Benoît Sagot. 2019年にリリースされたFacebookのRoBERTaモデルをベースにしたモデルです。 138GBのフランス語テキストでトレーニングされました。

論文の要約は次のとおりです。

事前トレーニングされた言語モデルは現在、自然言語処理で広く普及しています。成功にもかかわらず、利用可能なほとんどのモデルは英語のデータ、または複数言語のデータの連結でトレーニングされています。これにより、このようなモデルの実際の使用は、英語を除くすべての言語で非常に限られています。フランス人にとってこの問題に対処することを目指して、 Bi-direction Encoders for Transformers (BERT) のフランス語版である CamemBERT をリリースします。測定します複数の下流タスク、つまり品詞タグ付けにおける多言語モデルと比較した CamemBERT のパフォーマンス依存関係解析、固有表現認識、自然言語推論。 CamemBERT は最先端技術を向上させます検討されているほとんどのタスクに対応します。私たちは、研究とフランス語 NLP の下流アプリケーション。

このモデルは camembert によって提供されました。元のコードはここにあります。

この実装はRoBERTaと同じです。使用例についてはRoBERTaのドキュメントも参照してください。入力と出力に関する情報として。

Resources

CamembertConfig

autodoc CamembertConfig

CamembertTokenizer

autodoc CamembertTokenizer - build_inputs_with_special_tokens - get_special_tokens_mask - create_token_type_ids_from_sequences - save_vocabulary

CamembertTokenizerFast

autodoc CamembertTokenizerFast

CamembertModel

autodoc CamembertModel

CamembertForCausalLM

autodoc CamembertForCausalLM

CamembertForMaskedLM

autodoc CamembertForMaskedLM

CamembertForSequenceClassification

autodoc CamembertForSequenceClassification

CamembertForMultipleChoice

autodoc CamembertForMultipleChoice

CamembertForTokenClassification

autodoc CamembertForTokenClassification

CamembertForQuestionAnswering

autodoc CamembertForQuestionAnswering

TFCamembertModel

autodoc TFCamembertModel

TFCamembertForCasualLM

autodoc TFCamembertForCausalLM

TFCamembertForMaskedLM

autodoc TFCamembertForMaskedLM

TFCamembertForSequenceClassification

autodoc TFCamembertForSequenceClassification

TFCamembertForMultipleChoice

autodoc TFCamembertForMultipleChoice

TFCamembertForTokenClassification

autodoc TFCamembertForTokenClassification

TFCamembertForQuestionAnswering

autodoc TFCamembertForQuestionAnswering

4.4 KiB Raw Permalink Blame History