Upload evaluation data to huggingface (#18)

* update url

* update skywork tech report arxiv url

* update evaluation data to hugginface and fix some typos

---------

Co-authored-by: liang.zhao <liang.zhao@singularity-ai.com>
This commit is contained in:
Liang Zhao 2023-11-02 11:37:26 +08:00 committed by GitHub
parent e537dc11fb
commit d6ee9cf321
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
8 changed files with 16 additions and 2255 deletions

View File

@ -62,6 +62,8 @@
如果您希望了解更多的信息,如训练方案,评估方法,请参考我们的[技术报告](http://arxiv.org/abs/2310.19341)[Skymath](https://arxiv.org/abs/2310.16713)论文,[SkyworkMM](https://github.com/will-singularity/Skywork-MM/blob/main/skywork_mm.pdf)论文。 如果您希望了解更多的信息,如训练方案,评估方法,请参考我们的[技术报告](http://arxiv.org/abs/2310.19341)[Skymath](https://arxiv.org/abs/2310.16713)论文,[SkyworkMM](https://github.com/will-singularity/Skywork-MM/blob/main/skywork_mm.pdf)论文。
# 🔥 更新信息 # 🔥 更新信息
* 2023.11.2 我们将我们构建的评估数据[MOCK_GSM8K_TEST](https://huggingface.co/datasets/Skywork/mock_gsm8k_test)以及中文领域评估数据[ChineseDomainModelingEval](https://huggingface.co/datasets/Skywork/ChineseDomainModelingEval)上传到了huggingface您如果有评估模型的需求请下载我们的评估数据集。
* 2023.10.31 我们的技术报告 [Skywork: A More Open Bilingual Foundation Model](http://arxiv.org/abs/2310.19341) 在arxiv可见里面有更详细的评估方法评测对比和技术细节。 * 2023.10.31 我们的技术报告 [Skywork: A More Open Bilingual Foundation Model](http://arxiv.org/abs/2310.19341) 在arxiv可见里面有更详细的评估方法评测对比和技术细节。
* 2023.10.30 我们开源了**Skywork-13B-Base** 和 **Skywork-13B-Math** 以及对应模型的量化模型。我们开源了**Skywork/Skypile-150B**数据集,该数据集包含根据中文网页清洗的超过**150亿**高质量中文token硬盘大小大约600GB是已知目前最大的开源中文数据集。 * 2023.10.30 我们开源了**Skywork-13B-Base** 和 **Skywork-13B-Math** 以及对应模型的量化模型。我们开源了**Skywork/Skypile-150B**数据集,该数据集包含根据中文网页清洗的超过**150亿**高质量中文token硬盘大小大约600GB是已知目前最大的开源中文数据集。
@ -98,6 +100,14 @@
|:-------:|:-----------:| |:-------:|:-----------:|
| Skywork/Skypile-150B | 🤗[Hugging Face地址](https://huggingface.co/datasets/Skywork/SkyPile-150B) | | Skywork/Skypile-150B | 🤗[Hugging Face地址](https://huggingface.co/datasets/Skywork/SkyPile-150B) |
## 评估集下载
| 数据集名称 | 下载地址 |
|-------|:-----------:|
| Skywork/ChineseDomainModelingEval | 🤗[Hugging Face地址](https://huggingface.co/datasets/Skywork/ChineseDomainModelingEval) |
| Skywork/mock_gsm8k_test | 🤗[Hugging Face地址](https://huggingface.co/datasets/Skywork/mock_gsm8k_test) |
## 模型中间存档下载 ## 模型中间存档下载
我们还额外开源了Skywork-13B-Base模型在训练500B2TB3.1TB tokens的模型存档供社区使用这对研究大模型的能力是如何进化的非常有帮助。 我们还额外开源了Skywork-13B-Base模型在训练500B2TB3.1TB tokens的模型存档供社区使用这对研究大模型的能力是如何进化的非常有帮助。
@ -183,15 +193,15 @@ Skypile-150B 数据集为中文数据。页面中包含的经过处理和清理
# 模型评估 # 模型评估
## 领域数据困惑度评估 ## 领域数据困惑度评估
语言模型训练的本质上是让预测下一个词更准确。基于这个认知,我们认为评估基础大模型一个重要的方式是评估在各大领域上语言模型生成文章的概率。在模型训练中预测下一个词的概率一般使用Cross Entropy损失函数整体的损失函数为每个位置预测真实词损失的平均则有 语言模型训练的本质上是让预测下一个词更准确。基于这个认知,我们认为评估基础大模型一个重要的方式是评估在各大领域上语言模型生成文章的概率。在语言模型建模中一般使用Cross Entropy损失函数整体的损失函数为每个位置预测真实词损失的平均则有
```math ```math
loss = \sum^{n}_{i=1} log(p_i) / n = log( \prod_{i=1}^n p_i) / n loss = \sum^{n}_{i=1} log(p_i) / n = log( \prod_{i=1}^n p_i) / n
``` ```
其中$`n`$是文档的长度即token数$`p_i`$是位置i上真实词的概率我们知道文档中每一个位置上真实词的概率的联乘则为生成该文档的概率,如此我们就将loss和生成文章的概率联系在了一起。而不同模型因为使用的分词器不同具有不同的token数因此对损失函数乘以token数目$`n`$,这样就仅考虑生成文章的概率部分不同模型也可以进行比较。我们将标准化后loss取指数转换成perplexity使得模型的差异更加可读。为了阅读方便后续提到的loss和ppl为模型标准化后的loss和perplexity。 其中$`n`$是文档的长度即token数$`p_i`$是位置i上真实词的概率我们知道文档中每一个位置上真实词的概率的联乘为生成该文档的概率,这样我们就将loss和生成文章的概率联系在了一起。而不同模型因为使用的分词器不同具有不同的token数因此对损失函数乘以token数目$`n`$就仅考虑生成文章的概率部分不同模型也可以进行比较。我们将标准化后loss取指数转换成perplexity使得模型的差异更加可读。为了阅读方便后续提到的loss和ppl为模型标准化后的loss和perplexity。
基于上述分析,我们对多个领域筛选出**2023年9月份新发布**的几百到上千篇高质量文章并人工进行了核对。保证所有的测试数据不在天工模型以及其他所有模型的训练集中并且测试数据的来源也足够广泛质量也高。我们可以选取当前最新的文章评测不同模型的ppl模型很难作弊。并且我们会持续按照最新数据评测各个模型效果动态更新各个模型能力。 基于上述分析,我们对多个领域筛选出**2023年9月份新发布**的几百到上千篇高质量文章并人工进行了核对。保证所有的测试数据不在天工模型以及其他所有模型的训练集中并且测试数据的来源也足够广泛质量也高。我们可以选取当前最新的文章评测不同模型的ppl模型很难作弊。并且我们会持续按照最新数据评测各个模型效果动态更新各个模型能力。
下图列出了不同开源模型天工Skywork-13B-Base取得最优效果证明了我们的Base模型的基础能力处于国内开源模型中文最强水平。 下图列出了不同开源模型天工Skywork-13B-Base取得最优效果证明了我们的Base模型的基础能力处于国内开源模型中文最强水平。
| | 技术文章 | 电影评论 | 政务报告 | 游戏 | 金融 | 通用领域 | Average | | | 技术文章 | 电影评论 | 政务报告 | 游戏 | 金融 | 通用领域 | Average |
@ -210,7 +220,7 @@ loss = \sum^{n}_{i=1} log(p_i) / n = log( \prod_{i=1}^n p_i) / n
| Skywork-13B-Base (ours) | **11.58** | **21.84** | **4.76** | 17.28 | **4.92** | **6.82** | **9.42** | | Skywork-13B-Base (ours) | **11.58** | **21.84** | **4.76** | 17.28 | **4.92** | **6.82** | **9.42** |
### 评测数据和评测脚本 ### 评测数据和评测脚本
我们将评测数据和评测脚本也进行了开源,运行下面命令则可以复现我们的结果。 我们将评测数据和评测脚本也进行了开源,您需要在[hugginface](https://huggingface.co/Skywork)上下载我们的评估数据后将评估数据存放在data/eval_loss目录下运行下面命令则可以复现我们的结果。
``` ```
bash bash_scripts/skywork_eval_loss.sh bash bash_scripts/skywork_eval_loss.sh
``` ```
@ -231,9 +241,6 @@ bash bash_scripts/skywork_eval_loss.sh
| Baichuan-2-13B-Base | 58.1 | 62.0 | 59.2 | 52.3 | | Baichuan-2-13B-Base | 58.1 | 62.0 | 59.2 | 52.3 |
| Skywork-13B-Base (ours) | 60.6 | 61.8 | 62.1 | 55.8 | | Skywork-13B-Base (ours) | 60.6 | 61.8 | 62.1 | 55.8 |
### Benchmark评估脚本
Benchmark评估脚本在eval目录下。
## Benchmark评估详细结果 ## Benchmark评估详细结果
我们给出**Skywork-13B-Base**模型在C-EvalCMMLUMMLU上模型的详细结果。 我们给出**Skywork-13B-Base**模型在C-EvalCMMLUMMLU上模型的详细结果。

View File

@ -53,6 +53,8 @@ Our open-source Skywork series models can be used for commercial purposes, but y
If you are interested in more training and evaluation details, please refer to our [technical report](http://arxiv.org/abs/2310.19341), [Skymath]((https://arxiv.org/skywork-tech-report)) paper and [SkyworkMM](https://github.com/will-singularity/Skywork-MM/blob/main/skywork_mm.pdf) paper. If you are interested in more training and evaluation details, please refer to our [technical report](http://arxiv.org/abs/2310.19341), [Skymath]((https://arxiv.org/skywork-tech-report)) paper and [SkyworkMM](https://github.com/will-singularity/Skywork-MM/blob/main/skywork_mm.pdf) paper.
# News and Updates # News and Updates
* 2023.11.2 We have uploaded the evaluation data we built, [MOCK_GSM8K_TEST](https://huggingface.co/datasets/Skywork/mock_gsm8k_test), and the Chinese domain evaluation data [ChineseDomainModelingEval](https://huggingface.co/datasets/Skywork/ChineseDomainModelingEval) to huggingface. If you need to evaluate LLMs, please download our evaluation dataset.
* 2023.10.31 Our technical report [Skywork: A More Open Bilingual Foundation Model](http://arxiv.org/abs/2310.19341) is available on arXiv, which includes more detailed evaluation methods, result comparisons, and technical details. * 2023.10.31 Our technical report [Skywork: A More Open Bilingual Foundation Model](http://arxiv.org/abs/2310.19341) is available on arXiv, which includes more detailed evaluation methods, result comparisons, and technical details.
* 2023.10.30 We release the **Skywork-13B-Base** and **Skywork-13B-Math** models, as well as quantized versions of each model to support deployment and inference on consumer-grade GPUs. We open-source the Skywork/Skypile-150B dataset. This dataset contains over 150 billion high-quality tokens cleaned from Chinese web pages, making it the largest open-source Chinese dataset currently known. * 2023.10.30 We release the **Skywork-13B-Base** and **Skywork-13B-Math** models, as well as quantized versions of each model to support deployment and inference on consumer-grade GPUs. We open-source the Skywork/Skypile-150B dataset. This dataset contains over 150 billion high-quality tokens cleaned from Chinese web pages, making it the largest open-source Chinese dataset currently known.
@ -232,9 +234,6 @@ We evaluated Skywork-13B-Base on several popular benchmarks, including C-Eval, M
| Baichuan-2-13B-Base | 58.1 | 62.0 | 59.2 | 52.3 | | Baichuan-2-13B-Base | 58.1 | 62.0 | 59.2 | 52.3 |
| Skywork-13B-Base (ours) | 60.6 | 61.8 | 62.1 | 55.8 | | Skywork-13B-Base (ours) | 60.6 | 61.8 | 62.1 | 55.8 |
### benchmark evaluation scripts
The benchmark evaluation script is under the eval directory.
## Detailed Benchmark Results ## Detailed Benchmark Results
We provide detailed results of the Skywork-13B-Base model on C-EVAL, CMMLU, and MMLU. We provide detailed results of the Skywork-13B-Base model on C-EVAL, CMMLU, and MMLU.

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long