83 KiB
🤗 Transformers
PyTorch, TensorFlow, JAXのための最先端機械学習。
🤗 Transformers は最先端の学習済みモデルを簡単にダウンロードして学習するAPIとツールを提供します。学習済みモデルを使用することで計算コストと二酸化炭素の排出量を削減でき、またゼロからモデルを学習するために要求される時間とリソースを節約することができます。 これらのモデルは以下のような異なるモダリティにおける一般的なタスクをサポートします:
📝 自然言語処理: テキスト分類、 固有表現抽出、 質問応答、 言語モデリング、 文章要約、 機械翻訳、 複数選択、テキスト生成。
🖼️ コンピュータビジョン: 画像分類、 物体検出、 セグメンテーション。
🗣️ 音声: 自動音声認識、音声分類。
🐙 マルチモーダル: テーブル質問応答、 光学文字認識(OCR)、 スキャンされたドキュメントからの情報抽出、 動画分類、 visual question answering(視覚的質問応答)。
🤗 Transformers はPyTorch, TensorFlow, JAX間のフレームワーク相互運用性をサポートしています。 これはモデルの各段階で異なるフレームワークを使うための柔軟性を提供します。あるフレームワークで3行のコードでモデルを学習し、別のフレームワークで推論のためにモデルをロードすることが可能です。また、本番環境のデプロイのためにモデルをONNXやTorchScriptのような形式でエクスポートすることも可能です。
Hub, forum, Discordで成長中のコミュニティに今日参加しましょう!
Hugging Faceチームによるカスタムサポートをご希望の場合
目次
ドキュメントは以下の5つのセクションで構成されています:
-
はじめに は、ライブラリのクイックツアーとライブラリを使い始めるためのインストール手順を提供しています。
-
チュートリアル は、初心者が始めるのに最適な場所です。このセクションでは、ライブラリを使い始めるために必要な基本的なスキルを習得できます。
-
HOW-TOガイド は、言語モデリングのために学習済みモデルをfinetuningすることやカスタムモデルの作成と共有の方法などといった特定の目標を達成するための方法を示しています。
-
コンセプトガイド は、モデルやタスク、そして 🤗 Transformersの設計思想の背景にある基本的にコンセプトや考え方についてより深く考察し解説しています。
-
API 全てのクラスと関数を説明します:
- MAIN CLASSES は、configuration, model, tokenizer, pipelineといった最も重要なクラスについて詳細に説明しています。
- MODELS は、ライブラリで実装されているそれぞれのモデルに関連したクラスと関数を詳細に説明しています。
- INTERNAL HELPERS は、内部で使用されているユーティリティクラスや関数を詳細に説明しています。
サポートされているモデル
- ALBERT (Google Research and the Toyota Technological Institute at Chicago から) Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut から公開された研究論文: ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
- AltCLIP (BAAI から) Chen, Zhongzhi and Liu, Guang and Zhang, Bo-Wen and Ye, Fulong and Yang, Qinghong and Wu, Ledell から公開された研究論文: AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities
- Audio Spectrogram Transformer (MIT から) Yuan Gong, Yu-An Chung, James Glass から公開された研究論文: AST: Audio Spectrogram Transformer
- BART (Facebook から) Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov and Luke Zettlemoyer から公開された研究論文: BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
- BARThez (École polytechnique から) Moussa Kamal Eddine, Antoine J.-P. Tixier, Michalis Vazirgiannis から公開された研究論文: BARThez: a Skilled Pretrained French Sequence-to-Sequence Model
- BARTpho (VinAI Research から) Nguyen Luong Tran, Duong Minh Le and Dat Quoc Nguyen から公開された研究論文: BARTpho: Pre-trained Sequence-to-Sequence Models for Vietnamese
- BEiT (Microsoft から) Hangbo Bao, Li Dong, Furu Wei から公開された研究論文: BEiT: BERT Pre-Training of Image Transformers
- BERT (Google から) Jacob Devlin, Ming-Wei Chang, Kenton Lee and Kristina Toutanova から公開された研究論文: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- BERT For Sequence Generation (Google から) Sascha Rothe, Shashi Narayan, Aliaksei Severyn から公開された研究論文: Leveraging Pre-trained Checkpoints for Sequence Generation Tasks
- BERTweet (VinAI Research から) Dat Quoc Nguyen, Thanh Vu and Anh Tuan Nguyen から公開された研究論文: BERTweet: A pre-trained language model for English Tweets
- BigBird-Pegasus (Google Research から) Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed から公開された研究論文: Big Bird: Transformers for Longer Sequences
- BigBird-RoBERTa (Google Research から) Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed から公開された研究論文: Big Bird: Transformers for Longer Sequences
- BioGpt (Microsoft Research AI4Science から) Renqian Luo, Liai Sun, Yingce Xia, Tao Qin, Sheng Zhang, Hoifung Poon and Tie-Yan Liu から公開された研究論文: BioGPT: generative pre-trained transformer for biomedical text generation and mining
- BiT (Google AI から) Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Joan Puigcerver, Jessica Yung, Sylvain Gelly, Neil から公開された研究論文: Big Transfer (BiT)Houlsby.
- Blenderbot (Facebook から) Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M. Smith, Y-Lan Boureau, Jason Weston から公開された研究論文: Recipes for building an open-domain chatbot
- BlenderbotSmall (Facebook から) Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M. Smith, Y-Lan Boureau, Jason Weston から公開された研究論文: Recipes for building an open-domain chatbot
- BLIP (Salesforce から) Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi から公開された研究論文: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- BLOOM (BigScience workshop から) BigScience Workshop から公開されました.
- BORT (Alexa から) Adrian de Wynter and Daniel J. Perry から公開された研究論文: Optimal Subarchitecture Extraction For BERT
- ByT5 (Google Research から) Linting Xue, Aditya Barua, Noah Constant, Rami Al-Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel から公開された研究論文: ByT5: Towards a token-free future with pre-trained byte-to-byte models
- CamemBERT (Inria/Facebook/Sorbonne から) Louis Martin*, Benjamin Muller*, Pedro Javier Ortiz Suárez*, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah and Benoît Sagot から公開された研究論文: CamemBERT: a Tasty French Language Model
- CANINE (Google Research から) Jonathan H. Clark, Dan Garrette, Iulia Turc, John Wieting から公開された研究論文: CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation
- Chinese-CLIP (OFA-Sys から) An Yang, Junshu Pan, Junyang Lin, Rui Men, Yichang Zhang, Jingren Zhou, Chang Zhou から公開された研究論文: Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese
- CLIP (OpenAI から) Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever から公開された研究論文: Learning Transferable Visual Models From Natural Language Supervision
- CLIPSeg (University of Göttingen から) Timo Lüddecke and Alexander Ecker から公開された研究論文: Image Segmentation Using Text and Image Prompts
- CodeGen (Salesforce から) Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, Caiming Xiong から公開された研究論文: A Conversational Paradigm for Program Synthesis
- Conditional DETR (Microsoft Research Asia から) Depu Meng, Xiaokang Chen, Zejia Fan, Gang Zeng, Houqiang Li, Yuhui Yuan, Lei Sun, Jingdong Wang から公開された研究論文: Conditional DETR for Fast Training Convergence
- ConvBERT (YituTech から) Zihang Jiang, Weihao Yu, Daquan Zhou, Yunpeng Chen, Jiashi Feng, Shuicheng Yan から公開された研究論文: ConvBERT: Improving BERT with Span-based Dynamic Convolution
- ConvNeXT (Facebook AI から) Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie から公開された研究論文: A ConvNet for the 2020s
- ConvNeXTV2 (from Facebook AI) released with the paper ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders by Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon, Saining Xie.
- CPM (Tsinghua University から) Zhengyan Zhang, Xu Han, Hao Zhou, Pei Ke, Yuxian Gu, Deming Ye, Yujia Qin, Yusheng Su, Haozhe Ji, Jian Guan, Fanchao Qi, Xiaozhi Wang, Yanan Zheng, Guoyang Zeng, Huanqi Cao, Shengqi Chen, Daixuan Li, Zhenbo Sun, Zhiyuan Liu, Minlie Huang, Wentao Han, Jie Tang, Juanzi Li, Xiaoyan Zhu, Maosong Sun から公開された研究論文: CPM: A Large-scale Generative Chinese Pre-trained Language Model
- CTRL (Salesforce から) Nitish Shirish Keskar*, Bryan McCann*, Lav R. Varshney, Caiming Xiong and Richard Socher から公開された研究論文: CTRL: A Conditional Transformer Language Model for Controllable Generation
- CvT (Microsoft から) Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, Lei Zhang から公開された研究論文: CvT: Introducing Convolutions to Vision Transformers
- Data2Vec (Facebook から) Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli から公開された研究論文: Data2Vec: A General Framework for Self-supervised Learning in Speech, Vision and Language
- DeBERTa (Microsoft から) Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen から公開された研究論文: DeBERTa: Decoding-enhanced BERT with Disentangled Attention
- DeBERTa-v2 (Microsoft から) Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen から公開された研究論文: DeBERTa: Decoding-enhanced BERT with Disentangled Attention
- Decision Transformer (Berkeley/Facebook/Google から) Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch から公開された研究論文: Decision Transformer: Reinforcement Learning via Sequence Modeling
- Deformable DETR (SenseTime Research から) Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai から公開された研究論文: Deformable DETR: Deformable Transformers for End-to-End Object Detection
- DeiT (Facebook から) Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou から公開された研究論文: Training data-efficient image transformers & distillation through attention
- DETR (Facebook から) Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko から公開された研究論文: End-to-End Object Detection with Transformers
- DialoGPT (Microsoft Research から) Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, Bill Dolan から公開された研究論文: DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation
- DiNAT (SHI Labs から) Ali Hassani and Humphrey Shi から公開された研究論文: Dilated Neighborhood Attention Transformer
- DistilBERT (HuggingFace から), Victor Sanh, Lysandre Debut and Thomas Wolf. 同じ手法で GPT2, RoBERTa と Multilingual BERT の圧縮を行いました.圧縮されたモデルはそれぞれ DistilGPT2、DistilRoBERTa、DistilmBERT と名付けられました. 公開された研究論文: DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
- DiT (Microsoft Research から) Junlong Li, Yiheng Xu, Tengchao Lv, Lei Cui, Cha Zhang, Furu Wei から公開された研究論文: DiT: Self-supervised Pre-training for Document Image Transformer
- Donut (NAVER から), Geewook Kim, Teakgyu Hong, Moonbin Yim, Jeongyeon Nam, Jinyoung Park, Jinyeong Yim, Wonseok Hwang, Sangdoo Yun, Dongyoon Han, Seunghyun Park から公開された研究論文: OCR-free Document Understanding Transformer
- DPR (Facebook から) Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, and Wen-tau Yih から公開された研究論文: Dense Passage Retrieval for Open-Domain Question Answering
- DPT (Intel Labs から) René Ranftl, Alexey Bochkovskiy, Vladlen Koltun から公開された研究論文: Vision Transformers for Dense Prediction
- EfficientNet (from Google Research) released with the paper EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks by Mingxing Tan and Quoc V. Le.
- ELECTRA (Google Research/Stanford University から) Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning から公開された研究論文: ELECTRA: Pre-training text encoders as discriminators rather than generators
- EncoderDecoder (Google Research から) Sascha Rothe, Shashi Narayan, Aliaksei Severyn から公開された研究論文: Leveraging Pre-trained Checkpoints for Sequence Generation Tasks
- ERNIE (Baidu から) Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Xuyi Chen, Han Zhang, Xin Tian, Danxiang Zhu, Hao Tian, Hua Wu から公開された研究論文: ERNIE: Enhanced Representation through Knowledge Integration
- ESM (Meta AI から) はトランスフォーマープロテイン言語モデルです. ESM-1b は Alexander Rives, Joshua Meier, Tom Sercu, Siddharth Goyal, Zeming Lin, Jason Liu, Demi Guo, Myle Ott, C. Lawrence Zitnick, Jerry Ma, and Rob Fergus から公開された研究論文: Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. ESM-1v は Joshua Meier, Roshan Rao, Robert Verkuil, Jason Liu, Tom Sercu and Alexander Rives から公開された研究論文: Language models enable zero-shot prediction of the effects of mutations on protein function. ESM-2 と ESMFold は Zeming Lin, Halil Akin, Roshan Rao, Brian Hie, Zhongkai Zhu, Wenting Lu, Allan dos Santos Costa, Maryam Fazel-Zarandi, Tom Sercu, Sal Candido, Alexander Rives から公開された研究論文: Language models of protein sequences at the scale of evolution enable accurate structure prediction
- FLAN-T5 (Google AI から) Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Slav Petrov, Ed H. Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V から公開されたレポジトリー google-research/t5x Le, and Jason Wei
- FlauBERT (CNRS から) Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab から公開された研究論文: FlauBERT: Unsupervised Language Model Pre-training for French
- FLAVA (Facebook AI から) Amanpreet Singh, Ronghang Hu, Vedanuj Goswami, Guillaume Couairon, Wojciech Galuba, Marcus Rohrbach, and Douwe Kiela から公開された研究論文: FLAVA: A Foundational Language And Vision Alignment Model
- FNet (Google Research から) James Lee-Thorp, Joshua Ainslie, Ilya Eckstein, Santiago Ontanon から公開された研究論文: FNet: Mixing Tokens with Fourier Transforms
- Funnel Transformer (CMU/Google Brain から) Zihang Dai, Guokun Lai, Yiming Yang, Quoc V. Le から公開された研究論文: Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing
- GIT (Microsoft Research から) Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang. から公開された研究論文 GIT: A Generative Image-to-text Transformer for Vision and Language
- GLPN (KAIST から) Doyeon Kim, Woonghyun Ga, Pyungwhan Ahn, Donggyu Joo, Sehwan Chun, Junmo Kim から公開された研究論文: Global-Local Path Networks for Monocular Depth Estimation with Vertical CutDepth
- GPT (OpenAI から) Alec Radford, Karthik Narasimhan, Tim Salimans and Ilya Sutskever から公開された研究論文: Improving Language Understanding by Generative Pre-Training
- GPT Neo (EleutherAI から) Sid Black, Stella Biderman, Leo Gao, Phil Wang and Connor Leahy から公開されたレポジトリー : EleutherAI/gpt-neo
- GPT NeoX (EleutherAI から) Sid Black, Stella Biderman, Eric Hallahan, Quentin Anthony, Leo Gao, Laurence Golding, Horace He, Connor Leahy, Kyle McDonell, Jason Phang, Michael Pieler, USVSN Sai Prashanth, Shivanshu Purohit, Laria Reynolds, Jonathan Tow, Ben Wang, Samuel Weinbach から公開された研究論文: GPT-NeoX-20B: An Open-Source Autoregressive Language Model
- GPT NeoX Japanese (ABEJA から) Shinya Otani, Takayoshi Makabe, Anuj Arora, and Kyo Hattori からリリース.
- GPT-2 (OpenAI から) Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei and Ilya Sutskever から公開された研究論文: Language Models are Unsupervised Multitask Learners
- GPT-J (EleutherAI から) Ben Wang and Aran Komatsuzaki から公開されたレポジトリー kingoflolz/mesh-transformer-jax
- GPT-Sw3 (AI-Sweden から) Ariel Ekgren, Amaru Cuba Gyllensten, Evangelia Gogoulou, Alice Heiman, Severine Verlinden, Joey Öhman, Fredrik Carlsson, Magnus Sahlgren から公開された研究論文: Lessons Learned from GPT-SW3: Building the First Large-Scale Generative Language Model for Swedish
- GroupViT (UCSD, NVIDIA から) Jiarui Xu, Shalini De Mello, Sifei Liu, Wonmin Byeon, Thomas Breuel, Jan Kautz, Xiaolong Wang から公開された研究論文: GroupViT: Semantic Segmentation Emerges from Text Supervision
- Hubert (Facebook から) Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed から公開された研究論文: HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
- I-BERT (Berkeley から) Sehoon Kim, Amir Gholami, Zhewei Yao, Michael W. Mahoney, Kurt Keutzer から公開された研究論文: I-BERT: Integer-only BERT Quantization
- ImageGPT (OpenAI から) Mark Chen, Alec Radford, Rewon Child, Jeffrey Wu, Heewoo Jun, David Luan, Ilya Sutskever から公開された研究論文: Generative Pretraining from Pixels
- Jukebox (OpenAI から) Prafulla Dhariwal, Heewoo Jun, Christine Payne, Jong Wook Kim, Alec Radford, Ilya Sutskever から公開された研究論文: Jukebox: A Generative Model for Music
- LayoutLM (Microsoft Research Asia から) Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou から公開された研究論文: LayoutLM: Pre-training of Text and Layout for Document Image Understanding
- LayoutLMv2 (Microsoft Research Asia から) Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou から公開された研究論文: LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding
- LayoutLMv3 (Microsoft Research Asia から) Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei から公開された研究論文: LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking
- LayoutXLM (Microsoft Research Asia から) Yiheng Xu, Tengchao Lv, Lei Cui, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Furu Wei から公開された研究論文: LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding
- LED (AllenAI から) Iz Beltagy, Matthew E. Peters, Arman Cohan から公開された研究論文: Longformer: The Long-Document Transformer
- LeViT (Meta AI から) Ben Graham, Alaaeldin El-Nouby, Hugo Touvron, Pierre Stock, Armand Joulin, Hervé Jégou, Matthijs Douze から公開された研究論文: LeViT: A Vision Transformer in ConvNet's Clothing for Faster Inference
- LiLT (South China University of Technology から) Jiapeng Wang, Lianwen Jin, Kai Ding から公開された研究論文: LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding
- Longformer (AllenAI から) Iz Beltagy, Matthew E. Peters, Arman Cohan から公開された研究論文: Longformer: The Long-Document Transformer
- LongT5 (Google AI から) Mandy Guo, Joshua Ainslie, David Uthus, Santiago Ontanon, Jianmo Ni, Yun-Hsuan Sung, Yinfei Yang から公開された研究論文: LongT5: Efficient Text-To-Text Transformer for Long Sequences
- LUKE (Studio Ousia から) Ikuya Yamada, Akari Asai, Hiroyuki Shindo, Hideaki Takeda, Yuji Matsumoto から公開された研究論文: LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention
- LXMERT (UNC Chapel Hill から) Hao Tan and Mohit Bansal から公開された研究論文: LXMERT: Learning Cross-Modality Encoder Representations from Transformers for Open-Domain Question Answering
- M-CTC-T (Facebook から) Loren Lugosch, Tatiana Likhomanenko, Gabriel Synnaeve, and Ronan Collobert から公開された研究論文: Pseudo-Labeling For Massively Multilingual Speech Recognition
- M2M100 (Facebook から) Angela Fan, Shruti Bhosale, Holger Schwenk, Zhiyi Ma, Ahmed El-Kishky, Siddharth Goyal, Mandeep Baines, Onur Celebi, Guillaume Wenzek, Vishrav Chaudhary, Naman Goyal, Tom Birch, Vitaliy Liptchinsky, Sergey Edunov, Edouard Grave, Michael Auli, Armand Joulin から公開された研究論文: Beyond English-Centric Multilingual Machine Translation
- MarianMT Jörg Tiedemann から. OPUS を使いながら学習された "Machine translation" (マシントランスレーション) モデル. Marian Framework はMicrosoft Translator Team が現在開発中です.
- MarkupLM (Microsoft Research Asia から) Junlong Li, Yiheng Xu, Lei Cui, Furu Wei から公開された研究論文: MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding
- Mask2Former (FAIR and UIUC から) Bowen Cheng, Ishan Misra, Alexander G. Schwing, Alexander Kirillov, Rohit Girdhar. から公開された研究論文 Masked-attention Mask Transformer for Universal Image Segmentation
- MaskFormer (Meta and UIUC から) Bowen Cheng, Alexander G. Schwing, Alexander Kirillov から公開された研究論文: Per-Pixel Classification is Not All You Need for Semantic Segmentation
- mBART (Facebook から) Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, Luke Zettlemoyer から公開された研究論文: Multilingual Denoising Pre-training for Neural Machine Translation
- mBART-50 (Facebook から) Yuqing Tang, Chau Tran, Xian Li, Peng-Jen Chen, Naman Goyal, Vishrav Chaudhary, Jiatao Gu, Angela Fan から公開された研究論文: Multilingual Translation with Extensible Multilingual Pretraining and Finetuning
- Megatron-BERT (NVIDIA から) Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper and Bryan Catanzaro から公開された研究論文: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
- Megatron-GPT2 (NVIDIA から) Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper and Bryan Catanzaro から公開された研究論文: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
- mLUKE (Studio Ousia から) Ryokan Ri, Ikuya Yamada, and Yoshimasa Tsuruoka から公開された研究論文: mLUKE: The Power of Entity Representations in Multilingual Pretrained Language Models
- MobileBERT (CMU/Google Brain から) Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, and Denny Zhou から公開された研究論文: MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices
- MobileNetV1 (Google Inc. から) Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam から公開された研究論文: MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
- MobileNetV2 (Google Inc. から) Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, Liang-Chieh Chen から公開された研究論文: MobileNetV2: Inverted Residuals and Linear Bottlenecks
- MobileViT (Apple から) Sachin Mehta and Mohammad Rastegari から公開された研究論文: MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer
- MPNet (Microsoft Research から) Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie-Yan Liu から公開された研究論文: MPNet: Masked and Permuted Pre-training for Language Understanding
- MT5 (Google AI から) Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel から公開された研究論文: mT5: A massively multilingual pre-trained text-to-text transformer
- MVP (RUC AI Box から) Tianyi Tang, Junyi Li, Wayne Xin Zhao and Ji-Rong Wen から公開された研究論文: MVP: Multi-task Supervised Pre-training for Natural Language Generation
- NAT (SHI Labs から) Ali Hassani, Steven Walton, Jiachen Li, Shen Li, and Humphrey Shi から公開された研究論文: Neighborhood Attention Transformer
- Nezha (Huawei Noah’s Ark Lab から) Junqiu Wei, Xiaozhe Ren, Xiaoguang Li, Wenyong Huang, Yi Liao, Yasheng Wang, Jiashu Lin, Xin Jiang, Xiao Chen and Qun Liu から公開された研究論文: NEZHA: Neural Contextualized Representation for Chinese Language Understanding
- NLLB (Meta から) the NLLB team から公開された研究論文: No Language Left Behind: Scaling Human-Centered Machine Translation
- Nyströmformer (the University of Wisconsin - Madison から) Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan, Glenn Fung, Yin Li, Vikas Singh から公開された研究論文: Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention
- OneFormer (SHI Labs から) Jitesh Jain, Jiachen Li, MangTik Chiu, Ali Hassani, Nikita Orlov, Humphrey Shi から公開された研究論文: OneFormer: One Transformer to Rule Universal Image Segmentation
- OPT (Meta AI から) Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen et al から公開された研究論文: OPT: Open Pre-trained Transformer Language Models
- OWL-ViT (Google AI から) Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, Xiao Wang, Xiaohua Zhai, Thomas Kipf, and Neil Houlsby から公開された研究論文: Simple Open-Vocabulary Object Detection with Vision Transformers
- Pegasus (Google から) Jingqing Zhang, Yao Zhao, Mohammad Saleh and Peter J. Liu から公開された研究論文: PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
- PEGASUS-X (Google から) Jason Phang, Yao Zhao, and Peter J. Liu から公開された研究論文: Investigating Efficiently Extending Transformers for Long Input Summarization
- Perceiver IO (Deepmind から) Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier Hénaff, Matthew M. Botvinick, Andrew Zisserman, Oriol Vinyals, João Carreira から公開された研究論文: Perceiver IO: A General Architecture for Structured Inputs & Outputs
- PhoBERT (VinAI Research から) Dat Quoc Nguyen and Anh Tuan Nguyen から公開された研究論文: PhoBERT: Pre-trained language models for Vietnamese
- PLBart (UCLA NLP から) Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang から公開された研究論文: Unified Pre-training for Program Understanding and Generation
- PoolFormer (Sea AI Labs から) Yu, Weihao and Luo, Mi and Zhou, Pan and Si, Chenyang and Zhou, Yichen and Wang, Xinchao and Feng, Jiashi and Yan, Shuicheng から公開された研究論文: MetaFormer is Actually What You Need for Vision
- ProphetNet (Microsoft Research から) Yu Yan, Weizhen Qi, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang and Ming Zhou から公開された研究論文: ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training
- QDQBert (NVIDIA から) Hao Wu, Patrick Judd, Xiaojie Zhang, Mikhail Isaev and Paulius Micikevicius から公開された研究論文: Integer Quantization for Deep Learning Inference: Principles and Empirical Evaluation
- RAG (Facebook から) Patrick Lewis, Ethan Perez, Aleksandara Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela から公開された研究論文: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
- REALM (Google Research から) Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat and Ming-Wei Chang から公開された研究論文: REALM: Retrieval-Augmented Language Model Pre-Training
- Reformer (Google Research から) Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya から公開された研究論文: Reformer: The Efficient Transformer
- RegNet (META Platforms から) Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, Piotr Dollár から公開された研究論文: Designing Network Design Space
- RemBERT (Google Research から) Hyung Won Chung, Thibault Févry, Henry Tsai, M. Johnson, Sebastian Ruder から公開された研究論文: Rethinking embedding coupling in pre-trained language models
- ResNet (Microsoft Research から) Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun から公開された研究論文: Deep Residual Learning for Image Recognition
- RoBERTa (Facebook から), Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov から公開された研究論文: RoBERTa: A Robustly Optimized BERT Pretraining Approach
- RoBERTa-PreLayerNorm (Facebook から) Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, Michael Auli から公開された研究論文: fairseq: A Fast, Extensible Toolkit for Sequence Modeling
- RoCBert (WeChatAI から) HuiSu, WeiweiShi, XiaoyuShen, XiaoZhou, TuoJi, JiaruiFang, JieZhou から公開された研究論文: RoCBert: Robust Chinese Bert with Multimodal Contrastive Pretraining
- RoFormer (ZhuiyiTechnology から), Jianlin Su and Yu Lu and Shengfeng Pan and Bo Wen and Yunfeng Liu から公開された研究論文: RoFormer: Enhanced Transformer with Rotary Position Embedding
- SegFormer (NVIDIA から) Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo から公開された研究論文: SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
- SEW (ASAPP から) Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi から公開された研究論文: Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition
- SEW-D (ASAPP から) Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi から公開された研究論文: Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition
- SpeechToTextTransformer (Facebook から), Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Dmytro Okhonko, Juan Pino から公開された研究論文: fairseq S2T: Fast Speech-to-Text Modeling with fairseq
- SpeechToTextTransformer2 (Facebook から), Changhan Wang, Anne Wu, Juan Pino, Alexei Baevski, Michael Auli, Alexis Conneau から公開された研究論文: Large-Scale Self- and Semi-Supervised Learning for Speech Translation
- Splinter (Tel Aviv University から), Ori Ram, Yuval Kirstain, Jonathan Berant, Amir Globerson, Omer Levy から公開された研究論文: Few-Shot Question Answering by Pretraining Span Selection
- SqueezeBERT (Berkeley から) Forrest N. Iandola, Albert E. Shaw, Ravi Krishna, and Kurt W. Keutzer から公開された研究論文: SqueezeBERT: What can computer vision teach NLP about efficient neural networks?
- Swin Transformer (Microsoft から) Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo から公開された研究論文: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
- Swin Transformer V2 (Microsoft から) Ze Liu, Han Hu, Yutong Lin, Zhuliang Yao, Zhenda Xie, Yixuan Wei, Jia Ning, Yue Cao, Zheng Zhang, Li Dong, Furu Wei, Baining Guo から公開された研究論文: Swin Transformer V2: Scaling Up Capacity and Resolution
- Swin2SR (University of Würzburg から) Marcos V. Conde, Ui-Jin Choi, Maxime Burchi, Radu Timofte から公開された研究論文: Swin2SR: SwinV2 Transformer for Compressed Image Super-Resolution and Restoration
- SwitchTransformers (Google から) William Fedus, Barret Zoph, Noam Shazeer から公開された研究論文: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
- T5 (Google AI から) Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu から公開された研究論文: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- T5v1.1 (Google AI から) Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu から公開されたレポジトリー google-research/text-to-text-transfer-transformer
- Table Transformer (Microsoft Research から) Brandon Smock, Rohith Pesala, Robin Abraham から公開された研究論文: PubTables-1M: Towards Comprehensive Table Extraction From Unstructured Documents
- TAPAS (Google AI から) Jonathan Herzig, Paweł Krzysztof Nowak, Thomas Müller, Francesco Piccinno and Julian Martin Eisenschlos から公開された研究論文: TAPAS: Weakly Supervised Table Parsing via Pre-training
- TAPEX (Microsoft Research から) Qian Liu, Bei Chen, Jiaqi Guo, Morteza Ziyadi, Zeqi Lin, Weizhu Chen, Jian-Guang Lou から公開された研究論文: TAPEX: Table Pre-training via Learning a Neural SQL Executor
- Time Series Transformer (HuggingFace から).
- TimeSformer (Facebook から) Gedas Bertasius, Heng Wang, Lorenzo Torresani から公開された研究論文: Is Space-Time Attention All You Need for Video Understanding?
- Trajectory Transformer (the University of California at Berkeley から) Michael Janner, Qiyang Li, Sergey Levine から公開された研究論文: Offline Reinforcement Learning as One Big Sequence Modeling Problem
- Transformer-XL (Google/CMU から) Zihang Dai*, Zhilin Yang*, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov から公開された研究論文: Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
- TrOCR (Microsoft から), Minghao Li, Tengchao Lv, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, Furu Wei から公開された研究論文: TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models
- UL2 (Google Research から) Yi Tay, Mostafa Dehghani, Vinh Q から公開された研究論文: Unifying Language Learning Paradigms Tran, Xavier Garcia, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Neil Houlsby, Donald Metzler
- UniSpeech (Microsoft Research から) Chengyi Wang, Yu Wu, Yao Qian, Kenichi Kumatani, Shujie Liu, Furu Wei, Michael Zeng, Xuedong Huang から公開された研究論文: UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data
- UniSpeechSat (Microsoft Research から) Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu から公開された研究論文: UNISPEECH-SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE-TRAINING
- UPerNet (Peking University から) Tete Xiao, Yingcheng Liu, Bolei Zhou, Yuning Jiang, Jian Sun. から公開された研究論文 Unified Perceptual Parsing for Scene Understanding
- VAN (Tsinghua University and Nankai University から) Meng-Hao Guo, Cheng-Ze Lu, Zheng-Ning Liu, Ming-Ming Cheng, Shi-Min Hu から公開された研究論文: Visual Attention Network
- VideoMAE (Multimedia Computing Group, Nanjing University から) Zhan Tong, Yibing Song, Jue Wang, Limin Wang から公開された研究論文: VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training
- ViLT (NAVER AI Lab/Kakao Enterprise/Kakao Brain から) Wonjae Kim, Bokyung Son, Ildoo Kim から公開された研究論文: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
- Vision Transformer (ViT) (Google AI から) Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby から公開された研究論文: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
- VisualBERT (UCLA NLP から) Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, Kai-Wei Chang から公開された研究論文: VisualBERT: A Simple and Performant Baseline for Vision and Language
- ViT Hybrid (Google AI から) Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby から公開された研究論文: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
- ViTMAE (Meta AI から) Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick から公開された研究論文: Masked Autoencoders Are Scalable Vision Learners
- ViTMSN (Meta AI から) Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas から公開された研究論文: Masked Siamese Networks for Label-Efficient Learning
- Wav2Vec2 (Facebook AI から) Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli から公開された研究論文: wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations
- Wav2Vec2-Conformer (Facebook AI から) Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Sravya Popuri, Dmytro Okhonko, Juan Pino から公開された研究論文: FAIRSEQ S2T: Fast Speech-to-Text Modeling with FAIRSEQ
- Wav2Vec2Phoneme (Facebook AI から) Qiantong Xu, Alexei Baevski, Michael Auli から公開された研究論文: Simple and Effective Zero-shot Cross-lingual Phoneme Recognition
- WavLM (Microsoft Research から) Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei から公開された研究論文: WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing
- Whisper (OpenAI から) Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever から公開された研究論文: Robust Speech Recognition via Large-Scale Weak Supervision
- X-CLIP (Microsoft Research から) Bolin Ni, Houwen Peng, Minghao Chen, Songyang Zhang, Gaofeng Meng, Jianlong Fu, Shiming Xiang, Haibin Ling から公開された研究論文: Expanding Language-Image Pretrained Models for General Video Recognition
- XGLM (From Facebook AI) Xi Victoria Lin, Todor Mihaylov, Mikel Artetxe, Tianlu Wang, Shuohui Chen, Daniel Simig, Myle Ott, Naman Goyal, Shruti Bhosale, Jingfei Du, Ramakanth Pasunuru, Sam Shleifer, Punit Singh Koura, Vishrav Chaudhary, Brian O'Horo, Jeff Wang, Luke Zettlemoyer, Zornitsa Kozareva, Mona Diab, Veselin Stoyanov, Xian Li から公開された研究論文: Few-shot Learning with Multilingual Language Models
- XLM (Facebook から) Guillaume Lample and Alexis Conneau から公開された研究論文: Cross-lingual Language Model Pretraining
- XLM-ProphetNet (Microsoft Research から) Yu Yan, Weizhen Qi, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang and Ming Zhou から公開された研究論文: ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training
- XLM-RoBERTa (Facebook AI から), Alexis Conneau*, Kartikay Khandelwal*, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer and Veselin Stoyanov から公開された研究論文: Unsupervised Cross-lingual Representation Learning at Scale
- XLM-RoBERTa-XL (Facebook AI から), Naman Goyal, Jingfei Du, Myle Ott, Giri Anantharaman, Alexis Conneau から公開された研究論文: Larger-Scale Transformers for Multilingual Masked Language Modeling
- XLNet (Google/CMU から) Zhilin Yang*, Zihang Dai*, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le から公開された研究論文: XLNet: Generalized Autoregressive Pretraining for Language Understanding
- XLS-R (Facebook AI から) Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli から公開された研究論文: XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale
- XLSR-Wav2Vec2 (Facebook AI から) Alexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed, Michael Auli から公開された研究論文: Unsupervised Cross-Lingual Representation Learning For Speech Recognition
- YOLOS (Huazhong University of Science & Technology から) Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, Jiyang Qi, Rui Wu, Jianwei Niu, Wenyu Liu から公開された研究論文: You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection
- YOSO (the University of Wisconsin - Madison から) Zhanpeng Zeng, Yunyang Xiong, Sathya N. Ravi, Shailesh Acharya, Glenn Fung, Vikas Singh から公開された研究論文: You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling
サポートされているフレームワーク
以下のテーブルはそれぞれのモデルでサポートされているライブラリを示しています。"slow"と呼ばれるPythonトークナイザー、🤗 Tokenizers ライブラリによる"fast"トークナイザー、PyTorch, TensorFlow, Flaxの5つのそれぞれがサポートされているかを示しています。
Model | Tokenizer slow | Tokenizer fast | PyTorch support | TensorFlow support | Flax Support |
---|---|---|---|---|---|
ALBERT | ✅ | ✅ | ✅ | ✅ | ✅ |
AltCLIP | ❌ | ❌ | ✅ | ❌ | ❌ |
Audio Spectrogram Transformer | ❌ | ❌ | ✅ | ❌ | ❌ |
BART | ✅ | ✅ | ✅ | ✅ | ✅ |
BEiT | ❌ | ❌ | ✅ | ❌ | ✅ |
BERT | ✅ | ✅ | ✅ | ✅ | ✅ |
Bert Generation | ✅ | ❌ | ✅ | ❌ | ❌ |
BigBird | ✅ | ✅ | ✅ | ❌ | ✅ |
BigBird-Pegasus | ❌ | ❌ | ✅ | ❌ | ❌ |
BioGpt | ✅ | ❌ | ✅ | ❌ | ❌ |
BiT | ❌ | ❌ | ✅ | ❌ | ❌ |
Blenderbot | ✅ | ✅ | ✅ | ✅ | ✅ |
BlenderbotSmall | ✅ | ✅ | ✅ | ✅ | ✅ |
BLIP | ❌ | ❌ | ✅ | ❌ | ❌ |
BLOOM | ❌ | ✅ | ✅ | ❌ | ❌ |
CamemBERT | ✅ | ✅ | ✅ | ✅ | ❌ |
CANINE | ✅ | ❌ | ✅ | ❌ | ❌ |
Chinese-CLIP | ❌ | ❌ | ✅ | ❌ | ❌ |
CLIP | ✅ | ✅ | ✅ | ✅ | ✅ |
CLIPSeg | ❌ | ❌ | ✅ | ❌ | ❌ |
CodeGen | ✅ | ✅ | ✅ | ❌ | ❌ |
Conditional DETR | ❌ | ❌ | ✅ | ❌ | ❌ |
ConvBERT | ✅ | ✅ | ✅ | ✅ | ❌ |
ConvNeXT | ❌ | ❌ | ✅ | ✅ | ❌ |
CTRL | ✅ | ❌ | ✅ | ✅ | ❌ |
CvT | ❌ | ❌ | ✅ | ✅ | ❌ |
Data2VecAudio | ❌ | ❌ | ✅ | ❌ | ❌ |
Data2VecText | ❌ | ❌ | ✅ | ❌ | ❌ |
Data2VecVision | ❌ | ❌ | ✅ | ✅ | ❌ |
DeBERTa | ✅ | ✅ | ✅ | ✅ | ❌ |
DeBERTa-v2 | ✅ | ✅ | ✅ | ✅ | ❌ |
Decision Transformer | ❌ | ❌ | ✅ | ❌ | ❌ |
Deformable DETR | ❌ | ❌ | ✅ | ❌ | ❌ |
DeiT | ❌ | ❌ | ✅ | ✅ | ❌ |
DETR | ❌ | ❌ | ✅ | ❌ | ❌ |
DiNAT | ❌ | ❌ | ✅ | ❌ | ❌ |
DistilBERT | ✅ | ✅ | ✅ | ✅ | ✅ |
DonutSwin | ❌ | ❌ | ✅ | ❌ | ❌ |
DPR | ✅ | ✅ | ✅ | ✅ | ❌ |
DPT | ❌ | ❌ | ✅ | ❌ | ❌ |
ELECTRA | ✅ | ✅ | ✅ | ✅ | ✅ |
Encoder decoder | ❌ | ❌ | ✅ | ✅ | ✅ |
ERNIE | ❌ | ❌ | ✅ | ❌ | ❌ |
ESM | ✅ | ❌ | ✅ | ✅ | ❌ |
FairSeq Machine-Translation | ✅ | ❌ | ✅ | ❌ | ❌ |
FlauBERT | ✅ | ❌ | ✅ | ✅ | ❌ |
FLAVA | ❌ | ❌ | ✅ | ❌ | ❌ |
FNet | ✅ | ✅ | ✅ | ❌ | ❌ |
Funnel Transformer | ✅ | ✅ | ✅ | ✅ | ❌ |
GIT | ❌ | ❌ | ✅ | ❌ | ❌ |
GLPN | ❌ | ❌ | ✅ | ❌ | ❌ |
GPT Neo | ❌ | ❌ | ✅ | ❌ | ✅ |
GPT NeoX | ❌ | ✅ | ✅ | ❌ | ❌ |
GPT NeoX Japanese | ✅ | ❌ | ✅ | ❌ | ❌ |
GPT-J | ❌ | ❌ | ✅ | ✅ | ✅ |
GPT-Sw3 | ✅ | ✅ | ✅ | ✅ | ✅ |
GroupViT | ❌ | ❌ | ✅ | ✅ | ❌ |
Hubert | ❌ | ❌ | ✅ | ✅ | ❌ |
I-BERT | ❌ | ❌ | ✅ | ❌ | ❌ |
ImageGPT | ❌ | ❌ | ✅ | ❌ | ❌ |
Jukebox | ✅ | ❌ | ✅ | ❌ | ❌ |
LayoutLM | ✅ | ✅ | ✅ | ✅ | ❌ |
LayoutLMv2 | ✅ | ✅ | ✅ | ❌ | ❌ |
LayoutLMv3 | ✅ | ✅ | ✅ | ✅ | ❌ |
LED | ✅ | ✅ | ✅ | ✅ | ❌ |
LeViT | ❌ | ❌ | ✅ | ❌ | ❌ |
LiLT | ❌ | ❌ | ✅ | ❌ | ❌ |
Longformer | ✅ | ✅ | ✅ | ✅ | ❌ |
LongT5 | ❌ | ❌ | ✅ | ❌ | ✅ |
LUKE | ✅ | ❌ | ✅ | ❌ | ❌ |
LXMERT | ✅ | ✅ | ✅ | ✅ | ❌ |
M-CTC-T | ❌ | ❌ | ✅ | ❌ | ❌ |
M2M100 | ✅ | ❌ | ✅ | ❌ | ❌ |
Marian | ✅ | ❌ | ✅ | ✅ | ✅ |
MarkupLM | ✅ | ✅ | ✅ | ❌ | ❌ |
Mask2Former | ❌ | ❌ | ✅ | ❌ | ❌ |
MaskFormer | ❌ | ❌ | ✅ | ❌ | ❌ |
MaskFormerSwin | ❌ | ❌ | ❌ | ❌ | ❌ |
mBART | ✅ | ✅ | ✅ | ✅ | ✅ |
Megatron-BERT | ❌ | ❌ | ✅ | ❌ | ❌ |
MobileBERT | ✅ | ✅ | ✅ | ✅ | ❌ |
MobileNetV1 | ❌ | ❌ | ✅ | ❌ | ❌ |
MobileNetV2 | ❌ | ❌ | ✅ | ❌ | ❌ |
MobileViT | ❌ | ❌ | ✅ | ✅ | ❌ |
MPNet | ✅ | ✅ | ✅ | ✅ | ❌ |
MT5 | ✅ | ✅ | ✅ | ✅ | ✅ |
MVP | ✅ | ✅ | ✅ | ❌ | ❌ |
NAT | ❌ | ❌ | ✅ | ❌ | ❌ |
Nezha | ❌ | ❌ | ✅ | ❌ | ❌ |
Nyströmformer | ❌ | ❌ | ✅ | ❌ | ❌ |
OpenAI GPT | ✅ | ✅ | ✅ | ✅ | ❌ |
OpenAI GPT-2 | ✅ | ✅ | ✅ | ✅ | ✅ |
OPT | ❌ | ❌ | ✅ | ✅ | ✅ |
OWL-ViT | ❌ | ❌ | ✅ | ❌ | ❌ |
Pegasus | ✅ | ✅ | ✅ | ✅ | ✅ |
PEGASUS-X | ❌ | ❌ | ✅ | ❌ | ❌ |
Perceiver | ✅ | ❌ | ✅ | ❌ | ❌ |
PLBart | ✅ | ❌ | ✅ | ❌ | ❌ |
PoolFormer | ❌ | ❌ | ✅ | ❌ | ❌ |
ProphetNet | ✅ | ❌ | ✅ | ❌ | ❌ |
QDQBert | ❌ | ❌ | ✅ | ❌ | ❌ |
RAG | ✅ | ❌ | ✅ | ✅ | ❌ |
REALM | ✅ | ✅ | ✅ | ❌ | ❌ |
Reformer | ✅ | ✅ | ✅ | ❌ | ❌ |
RegNet | ❌ | ❌ | ✅ | ✅ | ✅ |
RemBERT | ✅ | ✅ | ✅ | ✅ | ❌ |
ResNet | ❌ | ❌ | ✅ | ✅ | ✅ |
RetriBERT | ✅ | ✅ | ✅ | ❌ | ❌ |
RoBERTa | ✅ | ✅ | ✅ | ✅ | ✅ |
RoBERTa-PreLayerNorm | ❌ | ❌ | ✅ | ✅ | ✅ |
RoCBert | ✅ | ❌ | ✅ | ❌ | ❌ |
RoFormer | ✅ | ✅ | ✅ | ✅ | ✅ |
SegFormer | ❌ | ❌ | ✅ | ✅ | ❌ |
SEW | ❌ | ❌ | ✅ | ❌ | ❌ |
SEW-D | ❌ | ❌ | ✅ | ❌ | ❌ |
Speech Encoder decoder | ❌ | ❌ | ✅ | ❌ | ✅ |
Speech2Text | ✅ | ❌ | ✅ | ✅ | ❌ |
Speech2Text2 | ✅ | ❌ | ❌ | ❌ | ❌ |
Splinter | ✅ | ✅ | ✅ | ❌ | ❌ |
SqueezeBERT | ✅ | ✅ | ✅ | ❌ | ❌ |
Swin Transformer | ❌ | ❌ | ✅ | ✅ | ❌ |
Swin Transformer V2 | ❌ | ❌ | ✅ | ❌ | ❌ |
Swin2SR | ❌ | ❌ | ✅ | ❌ | ❌ |
SwitchTransformers | ❌ | ❌ | ✅ | ❌ | ❌ |
T5 | ✅ | ✅ | ✅ | ✅ | ✅ |
Table Transformer | ❌ | ❌ | ✅ | ❌ | ❌ |
TAPAS | ✅ | ❌ | ✅ | ✅ | ❌ |
Time Series Transformer | ❌ | ❌ | ✅ | ❌ | ❌ |
TimeSformer | ❌ | ❌ | ✅ | ❌ | ❌ |
Trajectory Transformer | ❌ | ❌ | ✅ | ❌ | ❌ |
Transformer-XL | ✅ | ❌ | ✅ | ✅ | ❌ |
TrOCR | ❌ | ❌ | ✅ | ❌ | ❌ |
UniSpeech | ❌ | ❌ | ✅ | ❌ | ❌ |
UniSpeechSat | ❌ | ❌ | ✅ | ❌ | ❌ |
UPerNet | ❌ | ❌ | ✅ | ❌ | ❌ |
VAN | ❌ | ❌ | ✅ | ❌ | ❌ |
VideoMAE | ❌ | ❌ | ✅ | ❌ | ❌ |
ViLT | ❌ | ❌ | ✅ | ❌ | ❌ |
Vision Encoder decoder | ❌ | ❌ | ✅ | ✅ | ✅ |
VisionTextDualEncoder | ❌ | ❌ | ✅ | ❌ | ✅ |
VisualBERT | ❌ | ❌ | ✅ | ❌ | ❌ |
ViT | ❌ | ❌ | ✅ | ✅ | ✅ |
ViT Hybrid | ❌ | ❌ | ✅ | ❌ | ❌ |
ViTMAE | ❌ | ❌ | ✅ | ✅ | ❌ |
ViTMSN | ❌ | ❌ | ✅ | ❌ | ❌ |
Wav2Vec2 | ✅ | ❌ | ✅ | ✅ | ✅ |
Wav2Vec2-Conformer | ❌ | ❌ | ✅ | ❌ | ❌ |
WavLM | ❌ | ❌ | ✅ | ❌ | ❌ |
Whisper | ✅ | ❌ | ✅ | ✅ | ❌ |
X-CLIP | ❌ | ❌ | ✅ | ❌ | ❌ |
XGLM | ✅ | ✅ | ✅ | ✅ | ✅ |
XLM | ✅ | ❌ | ✅ | ✅ | ❌ |
XLM-ProphetNet | ✅ | ❌ | ✅ | ❌ | ❌ |
XLM-RoBERTa | ✅ | ✅ | ✅ | ✅ | ✅ |
XLM-RoBERTa-XL | ❌ | ❌ | ✅ | ❌ | ❌ |
XLNet | ✅ | ✅ | ✅ | ✅ | ❌ |
YOLOS | ❌ | ❌ | ✅ | ❌ | ❌ |
YOSO | ❌ | ❌ | ✅ | ❌ | ❌ |