编 号:14 姓 名:席芳洁
年 级:2016 专 业:信息管理与信息系统
学 历:大学本科
一、初识数据清洗
刚开始听老师说有个科研项目,需要我们进行数据清洗的时候,我很是好奇,数据清洗?数据还需要清洗?需要怎么洗?通过查找资料了解到:“数据清洗”指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。它是机器无法识别,是需要人工进行的。怀着好奇与激动,加入了数据清洗大队的行列。
二、python软件的安装
可以说安装软件的过程相当艰辛,虽然安装的详细步骤都已经有了,但在实际进行安装的时候,还是状况百出。于是自己慢慢琢磨,安装好以后,发现装的有问题,重新卸载,又发现没有卸干净,没有办法重新安装。不知道那一串串英文,那一个个安装文件和包到底是干什么用的。这个跟手机上直接下载软件,点击安装就ok的简答的操作步骤差别简直不要太大。
好在最后,还是安装好了,以后安装之前,一定要好好研读一下安装步骤,注意事项等等。不然换来的就是一遍遍的出错,一遍遍的重复。
三、拷贝代码并抓取数据
第一次见python代码,第一感觉就是,好漂亮,它不同于c语言代码都是清一色的黑,python中的关键字有着丰富的色彩变化。而且结构特别清楚,据了解python的结构是其代码的一部分。代码的结构错误是会引起代码运行错误的,这又与C语言有很大的不同。于是对它产生了巨大的好奇。
我们主要做的,就是运行老师已经编号的代码,将抓取到的数据存储起来一起打包给学长学姐们整个过程基本是计算机在进行,我们只需在代码运行结果显示错误时,做一定的处理即可。即使这样,也觉得很神奇。
四、数据清洗(1)
正式的数据清洗工作要开始啦。每个人都会领取到不同数量的代码。当然做的快的同学就会领到更多的数据。
代码的话,我当然是看不懂啦,只是知道我们做的是在筛选病例,把符合条件的病例筛选出来,不符合的病例删除。据老师说,这是一件很伟大的工程,它的完成会惠及到很多很多的人,所以我也就乐在其中了啊。
五、数据清洗(2)
第一次给学长交自己清洗的数据的时候,我是满怀着喜悦的,举得自己做了什么了不起的事情,当我满怀自信的额把数据交给学长的时候,学长楞了一下,问我正确的数据在哪里,我说就是这个啊。学长说,我搞错了,我把正确的数据都删了,留下的全是错误的数据。我一下子就傻眼了,这可咋办,那么多的数据,要重新再清洗一次吗?不要哇。我的内心是崩溃的,还好学长想到一个办法,帮我把数据在回收站里面全部都找回来了,不然我这么多天的努力就全都白费了。都怪自己太自以为是了,连任务的目的都没搞清楚,就开始做了。
六、小结
任务结束以后,一直对大数据挖掘感到好奇,想要了解一下其中的奥秘。于是查阅了相关资料,了解了spss的简单功能,学习了一丢丢有关python的知识,这次意识到python有多么厉害,重点是,它的代码真的极其的简洁!!!希望自己能坚持学习python,能自己编写一些小程序。