4.4 KiB

Raw Permalink Blame History

BARTpho

Overview

BARTpho モデルは、Nguyen Luong Tran、Duong Minh Le、Dat Quoc Nguyen によって BARTpho: Pre-trained Sequence-to-Sequence Models for Vietnam で提案されました。

論文の要約は次のとおりです。

BARTpho には、BARTpho_word と BARTpho_syllable の 2 つのバージョンがあり、初の公開された大規模な単一言語です。ベトナム語用に事前トレーニングされたシーケンスツーシーケンスモデル。当社の BARTpho は「大規模な」アーキテクチャと事前トレーニングを使用しますシーケンス間ノイズ除去モデル BART のスキームなので、生成 NLP タスクに特に適しています。実験ベトナム語テキスト要約の下流タスクでは、自動評価と人間による評価の両方で、BARTpho が強力なベースライン mBART を上回り、最先端の性能を向上させます。将来を容易にするためにBARTphoをリリースします生成的なベトナム語 NLP タスクの研究と応用。

このモデルは dqnguyen によって提供されました。元のコードはこちらにあります。

Usage example

>>> import torch
>>> from transformers import AutoModel, AutoTokenizer

>>> bartpho = AutoModel.from_pretrained("vinai/bartpho-syllable")

>>> tokenizer = AutoTokenizer.from_pretrained("vinai/bartpho-syllable")

>>> line = "Chúng tôi là những nghiên cứu viên."

>>> input_ids = tokenizer(line, return_tensors="pt")

>>> with torch.no_grad():
...     features = bartpho(**input_ids)  # Models outputs are now tuples

>>> # With TensorFlow 2.0+:
>>> from transformers import TFAutoModel

>>> bartpho = TFAutoModel.from_pretrained("vinai/bartpho-syllable")
>>> input_ids = tokenizer(line, return_tensors="tf")
>>> features = bartpho(**input_ids)

Usage tips

mBARTに続いて、BARTphoはBARTの「大規模な」アーキテクチャを使用し、その上に追加の層正規化層を備えています。エンコーダとデコーダの両方。したがって、BART のドキュメントの使用例は、使用に適応する場合に使用されます。 BARTpho を使用する場合は、BART に特化したクラスを mBART に特化した対応するクラスに置き換えることによって調整する必要があります。例えば：

>>> from transformers import MBartForConditionalGeneration

>>> bartpho = MBartForConditionalGeneration.from_pretrained("vinai/bartpho-syllable")
>>> TXT = "Chúng tôi là <mask> nghiên cứu viên."
>>> input_ids = tokenizer([TXT], return_tensors="pt")["input_ids"]
>>> logits = bartpho(input_ids).logits
>>> masked_index = (input_ids[0] == tokenizer.mask_token_id).nonzero().item()
>>> probs = logits[0, masked_index].softmax(dim=0)
>>> values, predictions = probs.topk(5)
>>> print(tokenizer.decode(predictions).split())

この実装はトークン化のみを目的としています。monolingual_vocab_fileはベトナム語に特化した型で構成されています多言語 XLM-RoBERTa から利用できる事前トレーニング済み SentencePiece モデルvocab_fileから抽出されます。他の言語 (サブワードにこの事前トレーニング済み多言語 SentencePiece モデルvocab_fileを使用する場合) セグメンテーションにより、独自の言語に特化したmonolingual_vocab_fileを使用して BartphoTokenizer を再利用できます。

BartphoTokenizer

autodoc BartphoTokenizer

4.4 KiB Raw Permalink Blame History