• 财政部就“财税改革和财政工作”答问 2019-06-21
  • 后伊布时代 北欧海盗能否再扮演“豪门杀手” 2019-06-10
  • 中国宗教研究学者:儒道佛三教关系为世界宗教发展提供新启迪 2019-06-10
  • “六一”特刊丨尤叔叔的安(xìng)全(fú)小课堂 2019-06-05
  • 微信“信用卡还款”3.0版本上线 支持招商银行账单查询 2019-05-30
  • 上海发布来沪人员就业报告 2019-05-30
  • 新华时评:美逆潮流而动,必将付出代价 2019-05-24
  • 杭州约谈58同城等3家网上房源发布平台负责人 2019-05-24
  • 《典出山西》考试季特辑:“武状元”那些事 2019-05-22
  • 首趟中欧班列整车进口专列抵达西安 2019-05-22
  • 航旅纵横疑似泄露隐私,企业应管好用户信息 2019-05-18
  • 美国防部宣布暂停8月美韩联合军演 2019-05-17
  • 党媒《红网湘乡手机报》是如何做到接地气、聚人气的? 2019-05-17
  • 刘嘉玲:长江后浪一直涌来 2019-05-16
  • 营养-热门标签-华商生活 2019-05-16
  • 北美冰球职业联赛 五棵松:

    北京 切换校区

    全国24小时免费热线

    400-009-1906

    数据分析领域常提到的数据预处理,说的到底是什么?

    时间:2019-03-01   来源:尚学堂   阅读:186

    数据预处理一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。一般来说数据预处理步骤有数据清洗、数据集成、数据变换、数据规约,每个大步骤又有一些小的细分点,当然了,这四个大步骤在做数据预处理时未必都要执行。

    数据分析领域常提到的数据预处理,说的到底是什么?

    在做数据分析时,我想许多数据分析师会像《R语言实战第二版》的作者卡巴科弗那样发出感叹:“数据分析师在数据预处理上花费了60%的时间……”。是的,我们所知道的建模,评估模型等数据分析工作所花费的时间远远没有数据预处理的多。这件事虽然麻烦多事但却“功在千秋”,如果在做数据分析时前期的数据预处理做的很好,那后面的步骤会说话的话,相信我,它们一定会感谢你的,这就跟减肥一样,过程艰难,但人家创造101的杨超越不也下定决心唱出一句:“燃烧我的卡路里,你是最棒的”嘛。

    数据预处理一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。一般来说数据预处理步骤有数据清洗、数据集成、数据变换、数据规约,每个大步骤又有一些小的细分点,当然了,这四个大步骤在做数据预处理时未必都要执行。

    数据清洗

    数据清洗,顾名思义,“黑”的变成“白”的,“脏”的数据变成“干净”的,脏数据表现在形式上和内容上的脏:形式上的脏如缺失值、带有特殊符号的;内容上的脏如异常值。

    缺失值

    缺失值包括缺失值的识别和缺失值的处理。

    在R里缺失值的识别使用函数is.na()判别,函数complete.cases()识别样本数据是否完整。

    缺失值处理常用的方法有删除、替换和插补。

    1、删除法 :删除法根据删除的不同角度又可以分为删除观测样本和变量,删除观测样本(行删除法),在R里na.omit()函数可以删除所含缺失值的行,这就相当于减少样本量来换取信息的完整度,但当变量有较大缺失并且对研究目标影响不大时,可考虑删除变量R里使用语句mydata[,-p]来完成,mydata表示所删数据集的名字,p是该删除变量的列数,-表示删除。

    2、替换法 :替换法顾名思义对缺失值进行替换,根据变量的不同又有不同的替换规则,缺失值的所在变量是数值型用该变量下其他数的均值来替换缺失值;变量为非数值变量时则用该变量下其他观测值的中位数或众数替换。

    3、插补法 :插补法分为回归插补和多重插补;回归插补指的是将插补的变量当作因变量y,其他变量看错自变量,利用回归模型进行拟合,在R里使用lm()回归函数对缺失值进行插补;多重插补是指从一个包含缺失值的数据集中生成一组完整的数据,多次进行,产生缺失值的一个随机样本,在R里mice()包可以进行多重插补。

    异常值

    异常值跟缺失值一样包括异常值的识别和异常值的处理。

    异常值的识别通常用单变量散点图或箱形图来处理,在R里dotchart()是绘制单变量散点图的函数,boxplot()函数绘制箱现图;在图形中,把远离正常范围的点当作异常值。

    异常值的的处理有删除含有异常值的观测(直接删除,当样本少时直接删除会造成样本量不足,改变变量的分布)、当作缺失值(利用现有的信息,对其当缺失值填补)、平均值修正(用前后两个观测值的均值修正该异常值)、不处理。在进行异常值处理时要先复习异常值出现的可能原因,再判断异常值是否应该舍弃。

    数据分析领域常提到的数据预处理,说的到底是什么?

    数据集成

    所谓数据集成就是将多个数据源合并放到一个数据存储中,当然如果所分析的数据原本就在一个数据存储里就不需要数据的集成了(多合一)。

    数据集成的实现是将两个数据框以关键字为依据,在R里用merge()函数实现,语句为merge(dataframe1, dataframe2,by=”关键字“”),默认按升序排列。

    在进行数据集成时可能会出现如下问题:1 同名异义,数据源A中某属性名字和数据源B中某属性名字相同,但所表示的实体不一样,不能作为关键字;2 异名同义,即两个数据源某个属性名字不一样但所代表的实体一样,可作为关键字;3 数据集成往往造成数据冗余,可能是同一属性多次出现,也可能是属性名字不一致导致的重复,对于重复属性一个先做相关分析检测,如果有再将其删除。

    数据变换

    数据变换就是转化成适当的形式,来满足软件或分析理论的需要。

    简单函数变换

    简单函数变换用来将不具有正态分布的数据变成有正态分布的数据,常用的有平方、开方、取对数、差分等;如在时间序列里常对数据对数或差分运算将非平稳序列转化成平稳序列。

    规范化

    规范化就是剔除掉变量量纲上的影响,比如直接比较身高和体重的差异,单位的不同和取值范围的不同让这件事不能直接比较。

    1 最小-最大规范化:也叫离差标准化,对数据进行线性变换,将其范围变成[0,1]

    2 零-均值规范化:也叫标准差标准化,处理后的数据均值等于0,标准差为1

    3 小数定标规范化:移动属性值的小数位数,将属性值映射到[-1,1]

    连续属性离散化

    将连续属性变量转化成分类属性,就是连续属性离散化,特别是某些分类算法要求数据是分类属性,如ID3算法。

    常用的离散化方法有如下几种。

    1 等宽法:将属性的值域分成具有相同宽度的区间,类似制作频率分布表

    2 等频法:将相同的记录放到每个区间

    3 一维聚类:两个步骤,首先将连续属性的值用聚类算法,然后将聚类得到的集合合并到一个连续性值并做同一标记

    数据分析领域常提到的数据预处理,说的到底是什么?

    数据规约

    数据规约能够降低无效错误的数据对建模的影响、缩减时间、降低存储数据的空间。

    属性规约

    属性规约是寻找最小的属性子集并确定子集概率分布接近原来数据的概率分布。

    1 合并属性:将一些旧的属性合并一个新的属性

    2 逐步向前选择,从一个空属性集开始,每次在原来属性集合选一个当前最优属性添加到当前子集中,一直到无法选择最优属性或满足一个约束值为止

    3 逐步先后选择,从一个空属性集开始,每次在原来属性集合选一个当前最差属性并剔除当前子集中,一直到无法选择最差属性或满足一个约束值为止

    4 决策树归纳:没有出现在这个决策树上的属性从初始集合中删除,获得一个较优的属性子集

    5?主成份分析:用较少的变量去解释原始数据中大部分变量(用相关性高的变量转化成彼此相互独立或不相关的变量)

    数值规约

    通过减少数据量,包括有参数和无参数方法,有参数如线性回归和多元回归,无参数法如直方图、抽样等。

    相关资讯

    • 北京校区
    • 山西校区
    • 郑州校区
    • 武汉校区
    • 四川校区
    • 长沙校区
    • 深圳校区
    • 上海校区
    • 广州校区
    • 保定招生办

    北京海淀区校区(总部):北京市海淀区西三旗街道建材城西路中腾建华商务大厦东侧二层尚学堂
    北京京南校区:北京亦庄经济开发区科创十四街6号院1号楼 赛蒂国际工业园
    咨询电话:400-009-1906 / 010-56233821
    面授课程:?JavaEE+微服务+大数据? ???大数据+机器学习+平台架构?????Python+数据分析+机器学习??人工智能+模式识别+强化学习???WEB前端+移动端+服务端渲染

     

    山西学区地址:山西省晋中市榆次区大学城大学生活广场万科商业A1座702

    郑州学区地址:河南电子商务产业园6号楼4层407
    咨询电话:0371-55177956

    武汉学区地址:武汉市东湖高新区光谷金融港B22栋11楼
    咨询电话:027-87989193

    四川学区地址:成都市高新区锦晖西一街99号布鲁明顿大厦2栋1003室
    咨询电话:028-65176856 / 13880900114

    网址://www.cssxt.com/
    咨询电话:0731-83072091

    深圳校区地址:深圳市宝安区航城街道航城大道航城创新创业园A4栋210(固戍地铁站C出口)
    咨询电话:0755-23061965 / 18898413781

    上海尚学堂松江校区地址:上海市松江区荣乐东路2369弄45号绿地伯顿大厦2层
    咨询电话:021-67690939

    广州校区地址:广州市天河区元岗横路31号慧通产业广场B区B1栋6楼尚学堂(地铁3号线或6号线到“天河客运站”D出口,右拐直走约800米)
    咨询电话:020-2989 6995

    保定招生办公室

    地址:河北省保定市竞秀区朝阳南大街777号鸿悦国际1101室

    电话:15132423123

    Copyright 2006-2019 北京尚学堂科技有限公司  京ICP备13018289号-19  京公网安备11010802015183  
    媒体联系:18610174079 闫老师  

    Java基础班,免费试学三周

  • 财政部就“财税改革和财政工作”答问 2019-06-21
  • 后伊布时代 北欧海盗能否再扮演“豪门杀手” 2019-06-10
  • 中国宗教研究学者:儒道佛三教关系为世界宗教发展提供新启迪 2019-06-10
  • “六一”特刊丨尤叔叔的安(xìng)全(fú)小课堂 2019-06-05
  • 微信“信用卡还款”3.0版本上线 支持招商银行账单查询 2019-05-30
  • 上海发布来沪人员就业报告 2019-05-30
  • 新华时评:美逆潮流而动,必将付出代价 2019-05-24
  • 杭州约谈58同城等3家网上房源发布平台负责人 2019-05-24
  • 《典出山西》考试季特辑:“武状元”那些事 2019-05-22
  • 首趟中欧班列整车进口专列抵达西安 2019-05-22
  • 航旅纵横疑似泄露隐私,企业应管好用户信息 2019-05-18
  • 美国防部宣布暂停8月美韩联合军演 2019-05-17
  • 党媒《红网湘乡手机报》是如何做到接地气、聚人气的? 2019-05-17
  • 刘嘉玲:长江后浪一直涌来 2019-05-16
  • 营养-热门标签-华商生活 2019-05-16
  • 荒野行动pc助手 爵士vs掘金直播 新时时彩限号规则 罗马锁子甲 重庆时时彩v2.3.0版本 ac米兰的传奇球员名单 法国国家足球队 无限法则是不是就一张地图 大丰收投注 天天炫斗为什么凉了 位势矩阵公式大全 重庆快乐十分骗局 12月21的射手座的幸运数字 一起来捉妖狐狸哪些好 北京快3彩票控 神奇的栈APP下载