4.4 KiB
CamemBERT
Overview
CamemBERT モデルは、CamemBERT: a Tasty French Language Model で提案されました。 Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah, and Benoît Sagot. 2019年にリリースされたFacebookのRoBERTaモデルをベースにしたモデルです。 138GBのフランス語テキストでトレーニングされました。
論文の要約は次のとおりです。
事前トレーニングされた言語モデルは現在、自然言語処理で広く普及しています。成功にもかかわらず、利用可能なほとんどの モデルは英語のデータ、または複数言語のデータの連結でトレーニングされています。これにより、 このようなモデルの実際の使用は、英語を除くすべての言語で非常に限られています。フランス人にとってこの問題に対処することを目指して、 Bi-direction Encoders for Transformers (BERT) のフランス語版である CamemBERT をリリースします。測定します 複数の下流タスク、つまり品詞タグ付けにおける多言語モデルと比較した CamemBERT のパフォーマンス 依存関係解析、固有表現認識、自然言語推論。 CamemBERT は最先端技術を向上させます 検討されているほとんどのタスクに対応します。私たちは、研究と フランス語 NLP の下流アプリケーション。
このモデルは camembert によって提供されました。元のコードは ここ にあります。
この実装はRoBERTaと同じです。使用例についてはRoBERTaのドキュメントも参照してください。 入力と出力に関する情報として。
Resources
CamembertConfig
autodoc CamembertConfig
CamembertTokenizer
autodoc CamembertTokenizer - build_inputs_with_special_tokens - get_special_tokens_mask - create_token_type_ids_from_sequences - save_vocabulary
CamembertTokenizerFast
autodoc CamembertTokenizerFast
CamembertModel
autodoc CamembertModel
CamembertForCausalLM
autodoc CamembertForCausalLM
CamembertForMaskedLM
autodoc CamembertForMaskedLM
CamembertForSequenceClassification
autodoc CamembertForSequenceClassification
CamembertForMultipleChoice
autodoc CamembertForMultipleChoice
CamembertForTokenClassification
autodoc CamembertForTokenClassification
CamembertForQuestionAnswering
autodoc CamembertForQuestionAnswering
TFCamembertModel
autodoc TFCamembertModel
TFCamembertForCasualLM
autodoc TFCamembertForCausalLM
TFCamembertForMaskedLM
autodoc TFCamembertForMaskedLM
TFCamembertForSequenceClassification
autodoc TFCamembertForSequenceClassification
TFCamembertForMultipleChoice
autodoc TFCamembertForMultipleChoice
TFCamembertForTokenClassification
autodoc TFCamembertForTokenClassification
TFCamembertForQuestionAnswering
autodoc TFCamembertForQuestionAnswering