感悟与反思┃数据清洗工作记录感言——朱岳纳-临床决策研究大数据山西省重点实验室

感悟与反思┃数据清洗工作记录感言——朱岳纳

编号：20 姓名：朱岳纳

年级：2016 专业：信息管理与信息系统

学历：大学本科

一转眼距离参加这个项目已经过去了两年。刚上大一的时候就有机会参加这种项目，现在想来，真是非常幸运的事了。当时是何老师说让我们参加这个项目，然后跟着做。第一次去培训的时候是装python，现场出了很多问题，费尽周折才把所有人的软件装好。接下来就是学习如何拷贝数据，根据运行结果判断出数据的对错，在这个过程中对python有了一个初步的了解。我后来自己查找了关于爬虫的相关信息，了解了这个数据处理工作的来龙去脉以及本质，这让我重新认识了大数据的魅力。网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。通俗的讲，也就是通过源码解析来获得想要的内容。

聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索;对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

这个工作锻炼了我的耐心，使我在面对各种问题的时候都能平心静气去处理。我认为这个很重要。第二点就是使得我爱上了信管这个专业，使得高考失利的郁闷一扫而空。我开始觉得这个专业也很有意义，以后的工作也会很有趣。这成为我的大学的转折点。

感谢相遇，感谢经历。

ACTIVITIES我们

感悟与反思┃数据清洗工作记录感言——朱岳纳

关注微信