编 号:18 姓 名:周家乐
年 级:2016 专 业:信息管理与信息系统
学 历:大学本科
一、工作开始
记录一:
听到何老师描述这个科研项目的意义之大时,我对自己参与这项数据清洗工作感到特别兴奋。直到来到大学,我才初次听到大数据这个概念,觉得它很遥远。这一次能够碰触到它,我很珍惜,还有点惶恐,总觉得自己是在这样重要的项目里一个不靠谱的因素,毕竟我现在一无所知!
记录二:
下午,我们数据清洗的几十个成员一起在至善给自己的电脑装Python,三个学长在一旁指导。此次的清洗是通过Python进行的,但是对Python我是真的一点都不了解。这个学期我才开始学C语言,也是马马虎虎。据说C是基础,Python与C虽不同,但也有想通之处。现如今Python的应用非常广泛,代码简单,功能强大。我很期待,暗暗给自己加股劲儿,要好好学。安装的过程我觉得还是蛮复杂的,糊涂地跟着学长的步骤往下进行,所幸地是一下午的时间没白费,总算是在最后运行成功了。接下来,我就要开始数据清洗地工作了!
二、正式清洗数据
记录三:
做下来才慢慢知道数据清洗就是筛选数据的过程。在拷贝下来的千条数据目录下,利用于琦老师编的Python代码,读取每条数据文档,利用“0”、“1”进行检查,运行结果正确的数据会自动集中到新文件下,而错误的数据文档需要我粘贴到另一文件下。这是大致的过程,所谓的数据清洗原来就是从海量的数据中“清洗”出所需要的数据。虽然我的工作只是接触到了冰山一角,但感觉大数据也没我想象中那么神秘了。(赞叹:于琦老师编的代码好厉害呀!Python功能好强大!我不知道它究竟是怎么识别数据并自动生成文件的,我工作轻松简单的基础都是建立在这串代码之上,觉得很不可思议。)
记录四:
做了几千条数据清洗后,自己也越发得心应手,感觉很简单嘛!但事实总是这样,在你觉得它很简单的时候,麻烦一下子来了。我在处理错误数据文档时竟然把那文件给搞丢了。事情来得出其不意,就在剪切复制的过程中突然发现没有原来的了。我整个人都不好了,一阵兵荒马乱,觉得没道理数据怎么会好好丢失。这可意味着我之前做的数据处理都是白白浪费了时间。我去问一个修电脑的哥哥,他听我的描述说可能是电脑中病毒导致的文件不正常丢失,我懵了。过了一会儿,冷静下来,所幸我自己又在垃圾箱里找到了,虚惊一场。我心里揣摩,估计是自己清洗期间意识不清乱删了闹得乌龙吧!
果然,再简单的工作也一点都不能马虎。我以此为戒,我这样子的人万不能工作时走神了!
三、工作尾声
记录五:
清洗数据的工作就这样慢慢接近尾声了!虽然这项任务只是整个项目的基础和开端,我依然很开心能够为此意义重大的事献出自己的一份力。期间,所体会和领悟到的不只是数据清洗学到的那么多,还包括这份难忘的经历所承载的。这是我第一次碰触到的科研项目,这也激发了我继续向前学习的心。
非常感谢能够有这么一次机会!