5.2 KiB
CodeGen
Overview
CodeGen モデルは、A Conversational Paradigm for Program Synthesis で Erik Nijkamp、Bo Pang、林宏明、Lifu Tu、Huan Wang、Yingbo Zhou、Silvio Savarese、Caiming Xiong およびカイミン・ションさん。
CodeGen は、The Pile、BigQuery、BigPython で順次トレーニングされたプログラム合成用の自己回帰言語モデルです。
論文の要約は次のとおりです。
プログラム合成は、与えられた問題仕様の解決策としてコンピューター プログラムを生成することを目的としています。我々は、大規模な言語モデルを介した会話型プログラム合成アプローチを提案します。これは、従来のアプローチで直面した広大なプログラム空間とユーザーの意図の仕様を検索するという課題に対処します。私たちの新しいアプローチでは、仕様とプログラムを作成するプロセスを、ユーザーとシステムの間の複数回の対話として捉えます。これはプログラム合成をシーケンス予測問題として扱い、仕様が自然言語で表現され、目的のプログラムが条件付きでサンプリングされます。私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGen と呼ばれる大規模な言語モデルのファミリーをトレーニングします。データの監視が弱く、データ サイズとモデル サイズが拡大すると、単純な自己回帰言語モデリングから会話能力が生まれます。会話型プログラム合成におけるモデルの動作を研究するために、マルチターン プログラミング ベンチマーク (MTPB) を開発します。このベンチマークでは、各問題を解決するには、ユーザーとモデル間のマルチターン会話を介したマルチステップ合成が必要です。私たちの調査結果は、会話機能の出現と、提案されている会話プログラム合成パラダイムの有効性を示しています。さらに、私たちのモデル CodeGen (TPU-v4 でトレーニングされた最大 16B パラメーターを含む) は、HumanEval ベンチマークで OpenAI の Codex を上回ります。私たちはチェックポイントを含むトレーニング ライブラリ JaxFormer をオープン ソースのコントリビューションとして利用できるようにしています: この https URL。
このモデルは 林 宏明 によって寄稿されました。 元のコードは ここ にあります。
Checkpoint Naming
- CodeGen モデル チェックポイント は、可変サイズのさまざまな事前トレーニング データで利用できます。
- 形式は「Salesforce/codegen-{size}-{data}」です。ここで、
size
:350M
、2B
、6B
、16B
data
:nl
: パイルで事前トレーニング済みmulti
:nl
で初期化され、複数のプログラミング言語データでさらに事前トレーニングされます。mono
:multi
で初期化され、Python データでさらに事前トレーニングされます。
- たとえば、
Salesforce/codegen-350M-mono
は、Pile、複数のプログラミング言語、および Python で順次事前トレーニングされた 3 億 5,000 万のパラメーターのチェックポイントを提供します。
Usage example
>>> from transformers import AutoModelForCausalLM, AutoTokenizer
>>> checkpoint = "Salesforce/codegen-350M-mono"
>>> model = AutoModelForCausalLM.from_pretrained(checkpoint)
>>> tokenizer = AutoTokenizer.from_pretrained(checkpoint)
>>> text = "def hello_world():"
>>> completion = model.generate(**tokenizer(text, return_tensors="pt"))
>>> print(tokenizer.decode(completion[0]))
def hello_world():
print("Hello World")
hello_world()
Resources
CodeGenConfig
autodoc CodeGenConfig - all
CodeGenTokenizer
autodoc CodeGenTokenizer - save_vocabulary
CodeGenTokenizerFast
autodoc CodeGenTokenizerFast
CodeGenModel
autodoc CodeGenModel - forward
CodeGenForCausalLM
autodoc CodeGenForCausalLM - forward