transformers/tests/test_tokenization_pegasus.py

# Copyright 2020 The HuggingFace Team. All rights reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

import unittest

from transformers import PegasusTokenizer, PegasusTokenizerFast
from transformers.file_utils import cached_property
from transformers.testing_utils import get_tests_dir, require_sentencepiece, require_tokenizers, require_torch

from .test_tokenization_common import TokenizerTesterMixin


SAMPLE_VOCAB = get_tests_dir("fixtures/test_sentencepiece_no_bos.model")


@require_sentencepiece
@require_tokenizers
class PegasusTokenizationTest(TokenizerTesterMixin, unittest.TestCase):

    tokenizer_class = PegasusTokenizer
    rust_tokenizer_class = PegasusTokenizerFast
    test_rust_tokenizer = True

    def setUp(self):
        super().setUp()

        # We have a SentencePiece fixture for testing
        tokenizer = PegasusTokenizer(SAMPLE_VOCAB)
        tokenizer.save_pretrained(self.tmpdirname)

    @cached_property
    def _large_tokenizer(self):
        return PegasusTokenizer.from_pretrained("google/pegasus-large")

    def get_tokenizer(self, **kwargs) -> PegasusTokenizer:
        return PegasusTokenizer.from_pretrained(self.tmpdirname, **kwargs)

    def get_input_output_texts(self, tokenizer):
        return ("This is a test", "This is a test")

    def test_mask_tokens_rust_pegasus(self):
        rust_tokenizer = self.rust_tokenizer_class.from_pretrained(self.tmpdirname)
        py_tokenizer = self.tokenizer_class.from_pretrained(self.tmpdirname)
        raw_input_str = "Let's see which <unk> is the better <unk_token_11> one <mask_1> It seems like this <mask_2> was important </s> <pad> <pad> <pad>"
        rust_ids = rust_tokenizer([raw_input_str], return_tensors=None, add_special_tokens=False).input_ids[0]
        py_ids = py_tokenizer([raw_input_str], return_tensors=None, add_special_tokens=False).input_ids[0]
        # TODO: (Thom, Patrick) - this fails because the rust tokenizer does not know about the <mask_1>, <mask_2>, and those <unk_token_x> yet
        self.assertListEqual(py_ids, rust_ids)

    def test_large_mask_tokens(self):
        tokenizer = self._large_tokenizer
        # <mask_1> masks whole sentence while <mask_2> masks single word
        raw_input_str = "<mask_1> To ensure a <mask_2> flow of bank resolutions."
        desired_result = [2, 413, 615, 114, 3, 1971, 113, 1679, 10710, 107, 1]
        ids = tokenizer([raw_input_str], return_tensors=None).input_ids[0]
        self.assertListEqual(desired_result, ids)

    def test_large_tokenizer_settings(self):
        tokenizer = self._large_tokenizer
        # The tracebacks for the following asserts are **better** without messages or self.assertEqual
        assert tokenizer.vocab_size == 96103
        assert tokenizer.pad_token_id == 0
        assert tokenizer.eos_token_id == 1
        assert tokenizer.offset == 103
        assert tokenizer.unk_token_id == tokenizer.offset + 2 == 105
        assert tokenizer.unk_token == "<unk>"
        assert tokenizer.model_max_length == 1024
        raw_input_str = "To ensure a smooth flow of bank resolutions."
        desired_result = [413, 615, 114, 2291, 1971, 113, 1679, 10710, 107, 1]
        ids = tokenizer([raw_input_str], return_tensors=None).input_ids[0]
        self.assertListEqual(desired_result, ids)
        assert tokenizer.convert_ids_to_tokens([0, 1, 2, 3]) == ["<pad>", "</s>", "<mask_1>", "<mask_2>"]

    @require_torch
    def test_large_seq2seq_truncation(self):
        src_texts = ["This is going to be way too long." * 150, "short example"]
        tgt_texts = ["not super long but more than 5 tokens", "tiny"]
        batch = self._large_tokenizer.prepare_seq2seq_batch(
            src_texts, tgt_texts=tgt_texts, max_target_length=5, return_tensors="pt"
        )
        assert batch.input_ids.shape == (2, 1024)
        assert batch.attention_mask.shape == (2, 1024)
        assert "labels" in batch  # because tgt_texts was specified
        assert batch.labels.shape == (2, 5)
        assert len(batch) == 3  # input_ids, attention_mask, labels. Other things make by BartModel
Copyright (#8970) * Add copyright everywhere missing * Style 2020-12-08 07:36:34 +08:00			`# Copyright 2020 The HuggingFace Team. All rights reserved.`
			`#`
			`# Licensed under the Apache License, Version 2.0 (the "License");`
			`# you may not use this file except in compliance with the License.`
			`# You may obtain a copy of the License at`
			`#`
			`# http://www.apache.org/licenses/LICENSE-2.0`
			`#`
			`# Unless required by applicable law or agreed to in writing, software`
			`# distributed under the License is distributed on an "AS IS" BASIS,`
			`# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.`
			`# See the License for the specific language governing permissions and`
			`# limitations under the License.`

PegasusForConditionalGeneration (torch version) (#6340) Co-authored-by: Jingqing Zhang <jingqing.zhang15@imperial.ac.uk> 2020-08-12 02:31:23 +08:00			`import unittest`

[Dependencies\|tokenizers] Make both SentencePiece and Tokenizers optional dependencies (#7659) * splitting fast and slow tokenizers [WIP] * [WIP] splitting sentencepiece and tokenizers dependencies * update dummy objects * add name_or_path to models and tokenizers * prefix added to file names * prefix * styling + quality * spliting all the tokenizer files - sorting sentencepiece based ones * update tokenizer version up to 0.9.0 * remove hard dependency on sentencepiece 🎉 * and removed hard dependency on tokenizers 🎉 * update conversion script * update missing models * fixing tests * move test_tokenization_fast to main tokenization tests - fix bugs * bump up tokenizers * fix bert_generation * update ad fix several tokenizers * keep sentencepiece in deps for now * fix funnel and deberta tests * fix fsmt * fix marian tests * fix layoutlm * fix squeezebert and gpt2 * fix T5 tokenization * fix xlnet tests * style * fix mbart * bump up tokenizers to 0.9.2 * fix model tests * fix tf models * fix seq2seq examples * fix tests without sentencepiece * fix slow => fast conversion without sentencepiece * update auto and bert generation tests * fix mbart tests * fix auto and common test without tokenizers * fix tests without tokenizers * clean up tests lighten up when tokenizers + sentencepiece are both off * style quality and tests fixing * add sentencepiece to doc/examples reqs * leave sentencepiece on for now * style quality split hebert and fix pegasus * WIP Herbert fast * add sample_text_no_unicode and fix hebert tokenization * skip FSMT example test for now * fix style * fix fsmt in example tests * update following Lysandre and Sylvain's comments * Update src/transformers/testing_utils.py Co-authored-by: Sylvain Gugger <35901082+sgugger@users.noreply.github.com> * Update src/transformers/testing_utils.py Co-authored-by: Sylvain Gugger <35901082+sgugger@users.noreply.github.com> * Update src/transformers/tokenization_utils_base.py Co-authored-by: Sylvain Gugger <35901082+sgugger@users.noreply.github.com> * Update src/transformers/tokenization_utils_base.py Co-authored-by: Sylvain Gugger <35901082+sgugger@users.noreply.github.com> Co-authored-by: Sylvain Gugger <35901082+sgugger@users.noreply.github.com> 2020-10-19 02:51:24 +08:00			`from transformers import PegasusTokenizer, PegasusTokenizerFast`
PegasusForConditionalGeneration (torch version) (#6340) Co-authored-by: Jingqing Zhang <jingqing.zhang15@imperial.ac.uk> 2020-08-12 02:31:23 +08:00			`from transformers.file_utils import cached_property`
[Dependencies\|tokenizers] Make both SentencePiece and Tokenizers optional dependencies (#7659) * splitting fast and slow tokenizers [WIP] * [WIP] splitting sentencepiece and tokenizers dependencies * update dummy objects * add name_or_path to models and tokenizers * prefix added to file names * prefix * styling + quality * spliting all the tokenizer files - sorting sentencepiece based ones * update tokenizer version up to 0.9.0 * remove hard dependency on sentencepiece 🎉 * and removed hard dependency on tokenizers 🎉 * update conversion script * update missing models * fixing tests * move test_tokenization_fast to main tokenization tests - fix bugs * bump up tokenizers * fix bert_generation * update ad fix several tokenizers * keep sentencepiece in deps for now * fix funnel and deberta tests * fix fsmt * fix marian tests * fix layoutlm * fix squeezebert and gpt2 * fix T5 tokenization * fix xlnet tests * style * fix mbart * bump up tokenizers to 0.9.2 * fix model tests * fix tf models * fix seq2seq examples * fix tests without sentencepiece * fix slow => fast conversion without sentencepiece * update auto and bert generation tests * fix mbart tests * fix auto and common test without tokenizers * fix tests without tokenizers * clean up tests lighten up when tokenizers + sentencepiece are both off * style quality and tests fixing * add sentencepiece to doc/examples reqs * leave sentencepiece on for now * style quality split hebert and fix pegasus * WIP Herbert fast * add sample_text_no_unicode and fix hebert tokenization * skip FSMT example test for now * fix style * fix fsmt in example tests * update following Lysandre and Sylvain's comments * Update src/transformers/testing_utils.py Co-authored-by: Sylvain Gugger <35901082+sgugger@users.noreply.github.com> * Update src/transformers/testing_utils.py Co-authored-by: Sylvain Gugger <35901082+sgugger@users.noreply.github.com> * Update src/transformers/tokenization_utils_base.py Co-authored-by: Sylvain Gugger <35901082+sgugger@users.noreply.github.com> * Update src/transformers/tokenization_utils_base.py Co-authored-by: Sylvain Gugger <35901082+sgugger@users.noreply.github.com> Co-authored-by: Sylvain Gugger <35901082+sgugger@users.noreply.github.com> 2020-10-19 02:51:24 +08:00			`from transformers.testing_utils import get_tests_dir, require_sentencepiece, require_tokenizers, require_torch`
PegasusForConditionalGeneration (torch version) (#6340) Co-authored-by: Jingqing Zhang <jingqing.zhang15@imperial.ac.uk> 2020-08-12 02:31:23 +08:00
			`from .test_tokenization_common import TokenizerTesterMixin`


[pegasus] Faster tokenizer tests (#7672) 2020-10-09 23:10:32 +08:00			`SAMPLE_VOCAB = get_tests_dir("fixtures/test_sentencepiece_no_bos.model")`


[Dependencies\|tokenizers] Make both SentencePiece and Tokenizers optional dependencies (#7659) * splitting fast and slow tokenizers [WIP] * [WIP] splitting sentencepiece and tokenizers dependencies * update dummy objects * add name_or_path to models and tokenizers * prefix added to file names * prefix * styling + quality * spliting all the tokenizer files - sorting sentencepiece based ones * update tokenizer version up to 0.9.0 * remove hard dependency on sentencepiece 🎉 * and removed hard dependency on tokenizers 🎉 * update conversion script * update missing models * fixing tests * move test_tokenization_fast to main tokenization tests - fix bugs * bump up tokenizers * fix bert_generation * update ad fix several tokenizers * keep sentencepiece in deps for now * fix funnel and deberta tests * fix fsmt * fix marian tests * fix layoutlm * fix squeezebert and gpt2 * fix T5 tokenization * fix xlnet tests * style * fix mbart * bump up tokenizers to 0.9.2 * fix model tests * fix tf models * fix seq2seq examples * fix tests without sentencepiece * fix slow => fast conversion without sentencepiece * update auto and bert generation tests * fix mbart tests * fix auto and common test without tokenizers * fix tests without tokenizers * clean up tests lighten up when tokenizers + sentencepiece are both off * style quality and tests fixing * add sentencepiece to doc/examples reqs * leave sentencepiece on for now * style quality split hebert and fix pegasus * WIP Herbert fast * add sample_text_no_unicode and fix hebert tokenization * skip FSMT example test for now * fix style * fix fsmt in example tests * update following Lysandre and Sylvain's comments * Update src/transformers/testing_utils.py Co-authored-by: Sylvain Gugger <35901082+sgugger@users.noreply.github.com> * Update src/transformers/testing_utils.py Co-authored-by: Sylvain Gugger <35901082+sgugger@users.noreply.github.com> * Update src/transformers/tokenization_utils_base.py Co-authored-by: Sylvain Gugger <35901082+sgugger@users.noreply.github.com> * Update src/transformers/tokenization_utils_base.py Co-authored-by: Sylvain Gugger <35901082+sgugger@users.noreply.github.com> Co-authored-by: Sylvain Gugger <35901082+sgugger@users.noreply.github.com> 2020-10-19 02:51:24 +08:00			`@require_sentencepiece`
			`@require_tokenizers`
PegasusForConditionalGeneration (torch version) (#6340) Co-authored-by: Jingqing Zhang <jingqing.zhang15@imperial.ac.uk> 2020-08-12 02:31:23 +08:00			`class PegasusTokenizationTest(TokenizerTesterMixin, unittest.TestCase):`

			`tokenizer_class = PegasusTokenizer`
Adding Fast tokenizers for SentencePiece based tokenizers - Breaking: remove Transfo-XL fast tokenizer (#7141) * [WIP] SP tokenizers * fixing tests for T5 * WIP tokenizers * serialization * update T5 * WIP T5 tokenization * slow to fast conversion script * Refactoring to move tokenzier implementations inside transformers * Adding gpt - refactoring - quality * WIP adding several tokenizers to the fast world * WIP Roberta - moving implementations * update to dev4 switch file loading to in-memory loading * Updating and fixing * advancing on the tokenizers - updating do_lower_case * style and quality * moving forward with tokenizers conversion and tests * MBart, T5 * dumping the fast version of transformer XL * Adding to autotokenizers + style/quality * update init and space_between_special_tokens * style and quality * bump up tokenizers version * add protobuf * fix pickle Bert JP with Mecab * fix newly added tokenizers * style and quality * fix bert japanese * fix funnel * limite tokenizer warning to one occurence * clean up file * fix new tokenizers * fast tokenizers deep tests * WIP adding all the special fast tests on the new fast tokenizers * quick fix * adding more fast tokenizers in the fast tests * all tokenizers in fast version tested * Adding BertGenerationFast * bump up setup.py for CI * remove BertGenerationFast (too early) * bump up tokenizers version * Clean old docstrings * Typo * Update following Lysandre comments Co-authored-by: Sylvain Gugger <sylvain.gugger@gmail.com> 2020-10-08 17:32:16 +08:00			`rust_tokenizer_class = PegasusTokenizerFast`
			`test_rust_tokenizer = True`
PegasusForConditionalGeneration (torch version) (#6340) Co-authored-by: Jingqing Zhang <jingqing.zhang15@imperial.ac.uk> 2020-08-12 02:31:23 +08:00
			`def setUp(self):`
			`super().setUp()`

[pegasus] Faster tokenizer tests (#7672) 2020-10-09 23:10:32 +08:00			`# We have a SentencePiece fixture for testing`
			`tokenizer = PegasusTokenizer(SAMPLE_VOCAB)`
			`tokenizer.save_pretrained(self.tmpdirname)`
PegasusForConditionalGeneration (torch version) (#6340) Co-authored-by: Jingqing Zhang <jingqing.zhang15@imperial.ac.uk> 2020-08-12 02:31:23 +08:00
			`@cached_property`
[Pegasus] Refactor Tokenizer (#8731) * refactor * further refactor * fix the rest tomorrow * save intermediate * finish slow tokenizer * make more tests pass * finish refactor * fix comment * clean further * fix name * fix naming * Update src/transformers/models/reformer/tokenization_reformer.py * Apply suggestions from code review * Apply suggestions from code review * refactor * fix init tokenizers * refactor * improve convert * refactor * correct convert slow tokenizer * final fix for Pegasus Tok * remove ipdb * improve links 2020-11-29 23:57:43 +08:00			`def _large_tokenizer(self):`
PegasusForConditionalGeneration (torch version) (#6340) Co-authored-by: Jingqing Zhang <jingqing.zhang15@imperial.ac.uk> 2020-08-12 02:31:23 +08:00			`return PegasusTokenizer.from_pretrained("google/pegasus-large")`

			`def get_tokenizer(self, **kwargs) -> PegasusTokenizer:`
[pegasus] Faster tokenizer tests (#7672) 2020-10-09 23:10:32 +08:00			`return PegasusTokenizer.from_pretrained(self.tmpdirname, **kwargs)`
PegasusForConditionalGeneration (torch version) (#6340) Co-authored-by: Jingqing Zhang <jingqing.zhang15@imperial.ac.uk> 2020-08-12 02:31:23 +08:00
			`def get_input_output_texts(self, tokenizer):`
			`return ("This is a test", "This is a test")`

[Pegasus] Refactor Tokenizer (#8731) * refactor * further refactor * fix the rest tomorrow * save intermediate * finish slow tokenizer * make more tests pass * finish refactor * fix comment * clean further * fix name * fix naming * Update src/transformers/models/reformer/tokenization_reformer.py * Apply suggestions from code review * Apply suggestions from code review * refactor * fix init tokenizers * refactor * improve convert * refactor * correct convert slow tokenizer * final fix for Pegasus Tok * remove ipdb * improve links 2020-11-29 23:57:43 +08:00			`def test_mask_tokens_rust_pegasus(self):`
			`rust_tokenizer = self.rust_tokenizer_class.from_pretrained(self.tmpdirname)`
			`py_tokenizer = self.tokenizer_class.from_pretrained(self.tmpdirname)`
			`raw_input_str = "Let's see which <unk> is the better <unk_token_11> one <mask_1> It seems like this <mask_2> was important </s> <pad> <pad> <pad>"`
			`rust_ids = rust_tokenizer([raw_input_str], return_tensors=None, add_special_tokens=False).input_ids[0]`
			`py_ids = py_tokenizer([raw_input_str], return_tensors=None, add_special_tokens=False).input_ids[0]`
			`# TODO: (Thom, Patrick) - this fails because the rust tokenizer does not know about the <mask_1>, <mask_2>, and those <unk_token_x> yet`
			`self.assertListEqual(py_ids, rust_ids)`

			`def test_large_mask_tokens(self):`
			`tokenizer = self._large_tokenizer`
			`# <mask_1> masks whole sentence while <mask_2> masks single word`
			`raw_input_str = "<mask_1> To ensure a <mask_2> flow of bank resolutions."`
			`desired_result = [2, 413, 615, 114, 3, 1971, 113, 1679, 10710, 107, 1]`
			`ids = tokenizer([raw_input_str], return_tensors=None).input_ids[0]`
			`self.assertListEqual(desired_result, ids)`

			`def test_large_tokenizer_settings(self):`
			`tokenizer = self._large_tokenizer`
PegasusForConditionalGeneration (torch version) (#6340) Co-authored-by: Jingqing Zhang <jingqing.zhang15@imperial.ac.uk> 2020-08-12 02:31:23 +08:00			`# The tracebacks for the following asserts are better without messages or self.assertEqual`
			`assert tokenizer.vocab_size == 96103`
			`assert tokenizer.pad_token_id == 0`
			`assert tokenizer.eos_token_id == 1`
			`assert tokenizer.offset == 103`
			`assert tokenizer.unk_token_id == tokenizer.offset + 2 == 105`
			`assert tokenizer.unk_token == "<unk>"`
			`assert tokenizer.model_max_length == 1024`
			`raw_input_str = "To ensure a smooth flow of bank resolutions."`
			`desired_result = [413, 615, 114, 2291, 1971, 113, 1679, 10710, 107, 1]`
			`ids = tokenizer([raw_input_str], return_tensors=None).input_ids[0]`
			`self.assertListEqual(desired_result, ids)`
[Pegasus] Refactor Tokenizer (#8731) * refactor * further refactor * fix the rest tomorrow * save intermediate * finish slow tokenizer * make more tests pass * finish refactor * fix comment * clean further * fix name * fix naming * Update src/transformers/models/reformer/tokenization_reformer.py * Apply suggestions from code review * Apply suggestions from code review * refactor * fix init tokenizers * refactor * improve convert * refactor * correct convert slow tokenizer * final fix for Pegasus Tok * remove ipdb * improve links 2020-11-29 23:57:43 +08:00			`assert tokenizer.convert_ids_to_tokens([0, 1, 2, 3]) == ["<pad>", "</s>", "<mask_1>", "<mask_2>"]`
PegasusForConditionalGeneration (torch version) (#6340) Co-authored-by: Jingqing Zhang <jingqing.zhang15@imperial.ac.uk> 2020-08-12 02:31:23 +08:00
			`@require_torch`
[Pegasus] Refactor Tokenizer (#8731) * refactor * further refactor * fix the rest tomorrow * save intermediate * finish slow tokenizer * make more tests pass * finish refactor * fix comment * clean further * fix name * fix naming * Update src/transformers/models/reformer/tokenization_reformer.py * Apply suggestions from code review * Apply suggestions from code review * refactor * fix init tokenizers * refactor * improve convert * refactor * correct convert slow tokenizer * final fix for Pegasus Tok * remove ipdb * improve links 2020-11-29 23:57:43 +08:00			`def test_large_seq2seq_truncation(self):`
Faster pegasus tokenization test with reduced data size (#7762) 2020-10-14 04:22:29 +08:00			`src_texts = ["This is going to be way too long." * 150, "short example"]`
PegasusForConditionalGeneration (torch version) (#6340) Co-authored-by: Jingqing Zhang <jingqing.zhang15@imperial.ac.uk> 2020-08-12 02:31:23 +08:00			`tgt_texts = ["not super long but more than 5 tokens", "tiny"]`
[Pegasus] Refactor Tokenizer (#8731) * refactor * further refactor * fix the rest tomorrow * save intermediate * finish slow tokenizer * make more tests pass * finish refactor * fix comment * clean further * fix name * fix naming * Update src/transformers/models/reformer/tokenization_reformer.py * Apply suggestions from code review * Apply suggestions from code review * refactor * fix init tokenizers * refactor * improve convert * refactor * correct convert slow tokenizer * final fix for Pegasus Tok * remove ipdb * improve links 2020-11-29 23:57:43 +08:00			`batch = self._large_tokenizer.prepare_seq2seq_batch(`
Tokenizers should be framework agnostic (#8599) * Tokenizers should be framework agnostic * Run the slow tests * Not testing * Fix documentation * Apply suggestions from code review Co-authored-by: Patrick von Platen <patrick.v.platen@gmail.com> Co-authored-by: Patrick von Platen <patrick.v.platen@gmail.com> 2020-11-18 03:03:03 +08:00			`src_texts, tgt_texts=tgt_texts, max_target_length=5, return_tensors="pt"`
			`)`
PegasusForConditionalGeneration (torch version) (#6340) Co-authored-by: Jingqing Zhang <jingqing.zhang15@imperial.ac.uk> 2020-08-12 02:31:23 +08:00			`assert batch.input_ids.shape == (2, 1024)`
			`assert batch.attention_mask.shape == (2, 1024)`
prepare_seq2seq_batch makes labels/ decoder_input_ids made later. (#6654) * broken test * batch parity * tests pass * boom boom * boom boom * split out bart tokenizer tests * fix tests * boom boom * Fixed dataset bug * Fix marian * Undo extra * Get marian working * Fix t5 tok tests * Test passing * Cleanup * better assert msg * require torch * Fix mbart tests * undo extra decoder_attn_mask change * Fix import * pegasus tokenizer can ignore src_lang kwargs * unused kwarg test cov * boom boom * add todo for pegasus issue * cover one word translation edge case * Cleanup * doc 2020-08-28 23:15:17 +08:00			`assert "labels" in batch # because tgt_texts was specified`
			`assert batch.labels.shape == (2, 5)`
			`assert len(batch) == 3 # input_ids, attention_mask, labels. Other things make by BartModel`