ACTIVITIES我们

创新创业平台

感悟与反思┃数据清洗心得——杜艳萍

 编 号:15     姓 名:杜艳萍

年 级:2016 专 业:信息管理与信息系统

学 历:大学本科

一、好奇

听到老师说要找一些自愿加入数据清洗的工作的学生的时候,我有点好奇,数据怎么清洗,数据清洗时干啥的,有什么作用?因为之前还没有真正的参加过这样的宇瞻也很相关的活动,所以自己虽然是个菜鸟,还是鼓起勇气报了个名参加进去,想了解一下这到底是干什么的,有什么作用。

二、安装软件

因为参加这次数据清洗的人比较多,所以大家都聚在一起由懂的老师和学长帮助我们在电脑上统一安装所有要安装的软件。在安装的过程中,因为各种小问题,花了不少时间在这上面,几乎都是出了一点问题就得找学长来看是那里卡住了,然后几个学长就到处的跑着帮我们一个一个的看是哪里出了问题,然后再帮我们弄一下。好不容易安装好了需要的软件Python,上网查了一下,其本意是蟒蛇,在计算机中指的是一种计算机程序设计语言,可应用的领域众多,包括但不限于科学计算和统计,软件开发和桌面界面开发等领域。我试着打开了这个软件,但打开之后发现是一堆自己不认识的代码,这些代码具体是用来干什么的,到底怎么用也还是不懂。上网继续查了一些相关的东西吧,还是不太懂到底该怎么操作,但是大概猜到可能是要利用这个软件上已经提前编号的代码来进行数据的清洗来进行数据的清洗工作了。查Python的数据清洗大概是分了十个步骤,分别为数据读取、遍历、去空、对字段进行处理、删除重复、只留部分、排序、isin、merge、保存为csv或者到mongo。说实话,我还是不太懂这些专业的术语是什么意思,但也有一点模糊的感觉了。

三、正式开始

会进行数据清洗的学长开始正式教我们怎么利用现在已有的软件和提前编好的代码,清洗数据了,我反应比较慢,学长给大家讲完大概该怎么进行操作的时候,我还是没有听懂。所以和其他人比起来,我操作的比较慢,而且时不时的得让身边一起的同学来帮我忙。好在过了一段时间,我总算是会了一点操作技巧,可以开始好好的完成我的数据任务了。过了一段时间做完后,拿着数据去交,但是发现从某个地方开始,因为我操作的失误,导致自己后来做的东西都不对,所以不得不仔细找到错误之处,然后又耐着性子认真做完。原以为学会了怎么操作数据就应该不会出什么大问题了,没想到自己还是出错了。还好去交的时候负责收集数据的学长及时发现了错误,不然因为我的个人错误可能会导致整个结果的准确度降低,使所有人的努力都白费。学长后来告诉我很多人也都操作出错的,我是其中一个,这样的团体合作难免会有出错的地方,让我不要有心理负担。看来做事情不能急躁,得仔细,得有错了再重做的耐心,不会做的地方要及时地向别人求教,专心地做眼前的事情。

四、结束总结

经过重新修改错误的地方后,我终于完成了我领到的数据。其他的一起做的同学大部分已经做完,我算是做的不多还比较慢的那一类了。不过能好好的完成也挺好的了,我这样安慰自己。虽然说完成了数据清洗,但是里面具体操作的机理是怎么样的,每一步是什么意思,每一条代码是什么意思,还是没有看懂。学长给我们简单地讲过一点,但当时还是没有懂也没有继续去追问,这可能是这次数据清洗比较有点遗憾的吧。在这次数据清洗中,我最大的收获的话,是对团队合作中,再出问题后会有很耐心的学长可以询问,我在做数据的时候,经常因为某些地方不懂或者操作出问题去问学长们,他们很耐心的解决,有嫌弃和不耐心。我之前觉得团队合作挺难的,因为每个人的能力都是不一样的,总是会有比较能力强和比较弱的,但是能力强的人不一定会有特别大的耐心去教能力弱的人。但是也有可能是我见识的比较少吧,团队合作是对每个人都是有一些要求的,所以也不见得能力强的人不会伸出援手。这次数据清洗也让我了解到未来我们也可能会从事这样的工作,也让我对我的专业未来就业有了一点信心。



关注微信

获取电子资讯

版权所有©山西医科大学 2022

| 忘记密码
注册说明

您好!感谢您关注清华x-lab创意创新创业教育平台。

在填写之前,请确认您项目的核心团队至少有一名成员是清华的在校生、校友及教师