目录
目录README.md

北师大OpenCT社区/OpenData项目

项目背景

北师大OpenCT社区/OpenData项目是OpenCT社区的一个重要子项目,旨在基于机器学习和人工智能技术,构建一个教育学习与测试过程性大数据分析模型库。项目依托北京师范大学的科研资源和技术优势,结合现代数据分析技术,为教育领域提供智能化的大数据分析解决方案,助力教育研究与实践。

项目内容

该项目主要包括以下几个方面:

教育大数据采集与预处理

  • 从多种教育资源和平台中采集大规模的学习与测试数据,包括学生行为数据、学习内容数据和考试成绩数据等。
  • 对采集的数据进行预处理,包括数据清洗、数据整合和数据转换,确保数据的质量和一致性。

机器学习模型开发

  • 开发和优化适用于教育数据的机器学习模型,包括分类、聚类、回归和关联分析等。
  • 利用深度学习技术,提升模型的准确性和预测能力。

教育过程数据分析

  • 基于开发的模型,对教育过程数据进行深入分析,发现潜在的模式和趋势,提供有价值的教育洞察。
  • 分析内容包括学习行为分析、知识点掌握情况、学习效果评估等。

模型库构建

  • 构建一个开放的教育大数据分析模型库,集成多种机器学习和人工智能模型,供研究人员和教育从业者使用。
  • 模型库支持动态更新和扩展,确保其先进性和实用性。

项目优势

  • 学术资源丰富:项目依托北京师范大学、清华大学、北京科技大学、河北师范大学等团队学术资源,拥有一流的研究团队和丰富的科研成果。
  • 开源社区支持:作为一个开源项目,参与者可以获取最新的技术文档和代码,参与项目的开发和维护。
  • 创新技术应用:利用机器学习和人工智能技术,提供智能化的教育大数据分析解决方案。

参与方式

我们欢迎来自全国的计算机专业大学生加入我们的项目,通过以下方式参与:

  1. 开源代码贡献:访问浏览项目代码和文档,提出问题或贡献代码。
  2. 技术交流与合作:加入我们的线上交流社区QQ群(389801885),与其他开发者和研究者进行技术交流和合作。
  3. 论文撰写参与:参与项目导师指导的学术论文的撰写和投稿,获得宝贵的科研经验和指导。

目标

  • 提供一个基于机器学习和人工智能的教育大数据分析模型库,能够对教育过程中的数据进行深入分析,提供有价值的教育洞察。
  • 促进教育研究和实践的发展,提高教育数据分析的智能化和自动化水平。

产出要求

  • 设计并实现一个教育大数据分析模型库,包括多个机器学习和人工智能模型。
  • 撰写详细的使用文档,说明如何使用和部署模型库。
  • 对模型库进行测试和优化,确保其性能和准确性。

能力要求

  • 熟悉Python编程语言。
  • 熟悉常见的机器学习和深度学习算法。
  • 熟悉大数据处理和分析技术。
  • 了解教育数据的特点和分析需求。
  • 熟悉Word或Markdown文档报告撰写。

难度

中等

导师

-罗海风(联系邮箱:luohaifeng@tsinghua.edu.cn

结语

北师大OpenCT社区/OpenData项目致力于通过开源和协作,推动教育大数据分析模型的智能化和自动化发展。我们期待更多的计算机专业学生参与进来,共同为教育赋能,为技术创新贡献力量。让我们一起,探索教育数据分析的未来!

【2023基本情况】

项目信息

  • 项目名称:OpenCT教育大数据分析及可视化模型;项目编号:2111508861623240518014

  • 方案描述:

    使用pandas进行学生作答结果数据和过程数据处理,提取结果数据作答信息关键字,并对统一做答信息进行题目分类和正确率分析,采用面向对象的编程思想将数据分析工具封装成python类方便迭代;提取过程数据关键字并根据作答数据结合具体题目信息对过程数据作答结果进行分析,分析学生作答关键答案节点和进行学生思维数据挖掘。最终,将分析工具通过Qt封装为可视化可执行程序。

  • 时间规划:

时间段 工作内容 完成情况
2021-07-01~2021-07-15 对“智能计算素养”结果数据表格进行分析,初步完成数据处理的python工具,分离主键为学生的作答数据为主键为题目编号的作答统计数据,并保存。 已完成
2021-07-15~2021-07-31 对“智能计算素养”和“人文素养”的综合结果数据进行分析,得出二者对比的统计结果(正确率、作答人数和作答时间等),并提供日报所需数据和可视化图表。 已完成
2021-08-01~2021-08-15 对“智能计算素养”结果数据表格进行进一步分析,细化每一道题的正确编码和错误编码,对每一道题的正确率进行分析,并保存为原始数据的22列 已完成
2021-08-15~2021-08-31 基于python Qt初步编写可视化软件,将目前分析代码移植为可视化可执行程序。 待完成
2021-09-01~2021-09-15 基于pytorch寻找适合处理过程数据的深度神经网络,寻找学生作答规律,给教育者使用提出抽象层建议 待完成
2021-09-15~2021-10-01 进行项目收尾工作,完善项目代码和文档,并上传报告和成果 待完成

项目进度

  • 已完成的工作:

    对“智能计算素养”结果数据表格进行分析,初步完成数据处理的python工具,分离主键为学生的作答数据为主键为题目编号的作答统计数据,并保存为excel。分析代码在根目录下的first_analysis文件夹下,采用jupyter notebook的方式进行代码展示,并将数据分析工具的python类封装到main.py

    ​ 分析结果举例:

    image-20210815102246527
    题目编码种类的分析(分全部、高中、初中三类进行分析)
    image-20210815102326366
    不同题目正确率的分析(分全部、高中、初中三类进行分析)

    对“智能计算素养”和“人文素养”的综合结果数据进行分析,得出二者对比的统计结果(正确率、作答人数和作答时间等),并提供日报所需数据和可视化图表。分析代码在20210725文件夹下,采用jupyter notebook的方式进行绘图,绘图完成之后保存至plot文件夹下。

    ​ 分析结果举例:

    image-20210815102433461
    做题用时时间分布(智能计算和问题解决两套卷子)
    image-20210815102539643
    做题用时分布(饼图)

    对“智能计算素养”结果数据表格进行进一步分析,细化每一道题的正确编码和错误编码,对每一道题的正确率进行分析,并保存为原始数据的22列。分析代码在20210809文件夹下,基于first_analysis中的分析代码进行改进,所有分析函数和判断正确率的函数均放在一个类中。增加了将22道题目的作答情况和正确状态添加到原始数据中的功能;统计性结果在20210803中给出

    分析结果举例:

    image-20210815102742459
    智能计算做题时间分布
    image-20210815102845073
    保存题目分析结果为excel文档(自动生成)
    image-20210815103544036
    分学校统计做题情况
    image-20210815103629680
    将作答情况和正确与否添加到原始数据中
  • 遇到的问题和解决方案:

发现数据中的噪声数据:

​ 初步通过判断语句过滤,下一步通过改进采用python中的try语句实现噪声数据的跳过。

发现“智能计算素养”中的前端数据反馈问题:

​ 《预测》一题中的反馈结果有问题,由于题目每次是随机变化的,所以并不存在固定的正确编码,但是反馈数据中并没有包含题目状态,导致正确率无法分析。

​ 《滚筒(2)》、《滚筒(3)》中前端反馈数据只有第一个滚筒的状态,导致了正确率无法分析。

​ 目前以就该问题和出题人进行协商,并提出了过渡方案。

通过pandas只能进行单线程分析,导致处理过于缓慢:

​ 下一步拟采取基于pyspark的方式对数据进行map-reduce方式的多线程分析。

  • 后续工作安排:

基于python Qt初步编写可视化软件,将目前分析代码移植为可视化可执行程序。基于pytorch寻找适合处理过程数据的深度神经网络,寻找学生作答规律,给教育者使用提出抽象层建议。进行项目收尾工作,完善项目代码和文档,并上传报告和成果

关于

基于机器学习、人工智能的教育学习与测试过程性大数据分析模型库。

830.6 MB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号