nanoGPT-Tutorial-CN/Lecture/l1.ipynb

37 lines
2.8 KiB
Plaintext
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# 前言\n",
"\n",
"GPT模型的发展标志着自然语言处理领域的一次重大突破。该模型最初由OpenAI提出采用了Transformer结构并以自回归语言模型的形式呈现。GPT-1作为该系列的首个版本虽然在当时的技术水平下引起了广泛关注但其规模相对较小限制了其在处理复杂任务时的表现。然而这一版本的发布为后续的改进和发展奠定了基础。随后GPT-2的推出标志着这一系列的进一步演进。GPT-2相较于前作在模型规模和语料库规模上都有了显著的扩展。这使得模型在语言理解和生成任务上取得了更为优异的表现同时也吸引了更多研究者和工程师的关注和参与。然而真正引起轰动的是GPT-3的推出。GPT-3不仅进一步扩大了模型规模将参数量提升至数十亿级别还采用了更加庞大和丰富的语料库进行训练。这使得模型在语言理解、文本生成等任务上展现出了前所未有的能力甚至可以完成一些令人惊讶的语言交互任务人们开始惊呼这是智能的涌现....\n",
"\n",
"关于后续OpenAi在GPT方面以及Sora的疯狂发展大家有目共睹但是我们同时沮丧地发现OpenAI变成了CloseAI,从GPT-3开始的《Language Models are Few-Shot Learners》OpenAi已经出现了更少阐述模型更多阐述试验(工程实现)细节的情况后续的GPT-4和Sora只开放了技术报告更是证明了这一点。\n",
"\n",
"此外我开发此教程还有另一个原因我在学习nanoGPT时候年前还能在Bilibili上找到了相关的使用nanoGPT进行中文古诗生成的视频然后年后去发现相关的视频减少了很多了截至2024年4月26号bilibili上能发现的教程只有Andrej Karpathy本人发布的中文翻译视频以及一个对着代码讲解的十分生硬的视频。作为一个普通的学生/相关爱好者我们国内的Ai环境发现有愈来愈封闭的趋势我们可以学习的途径正在令人恐慌地减少。\n",
"\n",
"![image.png](../assets/lecture-pic/GPT-3各版本模型大小.png)\n",
"\n",
"从这个图片中可以看出即使是最小的GPT3 Small 模型其参数量也是达到了1.25亿,对于没有专业级应用显卡的用户来说,是根本无法去尝试其具体效果的。\n",
"\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"综上多种原因由Karpathy大神发布的nanoGPT项目成了NLP入门者必学的项目我将按照其视频思路致力于更详细地讲解如何去从零构建一个GPT"
]
}
],
"metadata": {
"language_info": {
"name": "python"
}
},
"nbformat": 4,
"nbformat_minor": 2
}