6月5日,“大数据起源处置惩罚的盘算机基础——解决大数据剖析的生涯自理问题”钻研会在伟易博2号楼乐成举行。本次钻研会由伟易博商务统计与经济计量系和北京大学商务智能中心团结主理。钻研会以大数据的起源处置惩罚为驻足点,旨在通过简朴的数据库使用和python编程使数据剖析者能越发快速和利便的实现用户对数据的差别需求,从而解决数据剖析者在自力完成数据处置惩罚使命和盘算机处置惩罚上的相关难题。
本次钻研会的主讲人是中国人民大学统计学院的本科生陈昱。作为中国人民大学数据挖掘中心HADOOP集群认真人和北京大学商务智能研究中心基础数据认真人,陈昱善于网络数据抓取、python编程和集群运算,尤其是在数据处置惩罚方面履历富厚。在为期一天的钻研会上,他详细先容了有关SQL数据库处置惩罚,Linux操作和python编程语言的相关知识。
(图一:主讲人陈昱先容SQL数据库处置惩罚,Linux操作和python编程语言等相关知识)
上午的钻研会主要涉及“使用SQL盘问处置惩罚结构化数据”和“使用linux效劳器”两个专题。陈昱首先以一个产品销售链数据为情景,详细解说了SQL语句的用法。用法主要包括怎样使用SQL举行数据的盘问、过滤、提取,怎样对数据举行简朴盘算以及某些高级盘问语句。随后,陈昱还解说了怎样操作Linux效劳器。他首先先容的是shell剧本语言的基础用法,然后详细概述了怎样毗连远程效劳器以及在效劳器上举行大规模运算处置惩罚。上午的专题钻研会让与会者们越创造确怎样提取数据并举行预处置惩罚,同时凭证自己的需求熟练的使用效劳器举行高性能的运算。

(图二:主讲人在为与会者解说怎样现实操作提取数据并举行预处置惩罚)
下昼的钻研会的关注点在“怎样用python语言处置惩罚非结构化数据和重大数据”。专题中,陈昱首先以新浪微博数据为例子为各人系统解说了python的基本操作语言。然后他先容了重大数据名堂的构建,以及对中文文本数据的处置惩罚。最后,陈昱先容了在大规模数据下对文件举行批量处置惩罚,从而高效的实现种种各样的数据需求对数据剖析者的主要性。
天下规模内的信息革命已经成为本世纪最大的主题,大数据时代的到来将为社会带来刷新和生长。同时,重大的数据资源也为高效盘算带来了新的挑战。本次钻研会通过对SQL数据库,Linux效劳器和Python语言的先容,使与会者能越发快速、利便的实现种种数据需求,解决大数据剖析中的生涯自理问题并资助他们更好的集中于数据剖析建模事情,告竣了预期的目的。我们信托,在钻研会的启示和资助下,更多的数据剖析事情者将更关注应用盘算机手艺举行大数据的处置惩罚及剖析,从而更好的应对大数据时代的挑战!
行政办公室会务与运动部供稿