ADD file via upload
开源项目的成功与否很大程度上有赖于贡献者的持续参与,其中长期贡献者尤为重要。开发者流失可能导致项目进展缓慢,缺乏新功能或改进,以及安全漏洞的长时间悬而未决。同时,开源项目的成功也吸引了很多公司的参与,比如Linux内核已经有超过1400家公司参与贡献。公司的撤资或减少投入可能会影响项目长期可持续性。因此,识别潜在的流失风险对开源项目的持续发展至关重要。本次赛题聚焦于预测开源软件项目中的贡献者流失(包括个体志愿者与公司两种类型),特别关注如Linux内核和Rust系统编程语言等基础开源软件项目以及国内兴起的开源项目。
数据集以.csv文件格式提供,包括以下两个开源项目的commit数据:
数据集涵盖以下字段(但不限于):
author_name
author_email
author_date
subject
message
此外,可以访问以下GitHub链接,获取两个项目的最新数据,自行构建和更新数据集:
数据集以.csv文件格式提供Linux内核(2001/09/17 - 2023/11/22)和Rust (2010/06/23 - 2021/12/06)项目commit数据,涵盖author_name, author_email,author_date,subject, message等字段
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
背景介绍
开源项目的成功与否很大程度上有赖于贡献者的持续参与,其中长期贡献者尤为重要。开发者流失可能导致项目进展缓慢,缺乏新功能或改进,以及安全漏洞的长时间悬而未决。同时,开源项目的成功也吸引了很多公司的参与,比如Linux内核已经有超过1400家公司参与贡献。公司的撤资或减少投入可能会影响项目长期可持续性。因此,识别潜在的流失风险对开源项目的持续发展至关重要。本次赛题聚焦于预测开源软件项目中的贡献者流失(包括个体志愿者与公司两种类型),特别关注如Linux内核和Rust系统编程语言等基础开源软件项目以及国内兴起的开源项目。
数据集提供
数据集以.csv文件格式提供,包括以下两个开源项目的commit数据:
数据集涵盖以下字段(但不限于):
author_name
author_email
author_date
subject
message
此外,可以访问以下GitHub链接,获取两个项目的最新数据,自行构建和更新数据集: