目录
目录README.md

背景介绍

开源项目的成功与否很大程度上有赖于贡献者的持续参与,其中长期贡献者尤为重要。开发者流失可能导致项目进展缓慢,缺乏新功能或改进,以及安全漏洞的长时间悬而未决。同时,开源项目的成功也吸引了很多公司的参与,比如Linux内核已经有超过1400家公司参与贡献。公司的撤资或减少投入可能会影响项目长期可持续性。因此,识别潜在的流失风险对开源项目的持续发展至关重要。本次赛题聚焦于预测开源软件项目中的贡献者流失(包括个体志愿者与公司两种类型),特别关注如Linux内核和Rust系统编程语言等基础开源软件项目以及国内兴起的开源项目。

数据集提供

数据集以.csv文件格式提供,包括以下两个开源项目的commit数据:

  • Linux内核:时间范围为2001年9月17日至2023年11月22日。
  • Rust:时间范围为2010年6月23日至2021年12月6日。

数据集涵盖以下字段(但不限于):

  • author_name
  • author_email
  • author_date
  • subject
  • message

此外,可以访问以下GitHub链接,获取两个项目的最新数据,自行构建和更新数据集:

关于

数据集以.csv文件格式提供Linux内核(2001/09/17 - 2023/11/22)和Rust (2010/06/23 - 2021/12/06)项目commit数据,涵盖author_name, author_email,author_date,subject, message等字段

568.0 KB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号