数据预处理的方法有哪些及简单介绍(数据预处理的方法有哪些?)
数据处理的工作时间占据了整个数据分析项目的70%以上 。因此 ,数据的质量直接决定了分析模型的准确性 。那么 ,数据预处理的方法有哪些呢?比如数据清洗 、数据集成 、数据规约 、数据变换等 ,其中最常用到的是数据清洗与数据集成 ,下面小编将来详细介绍一下这2种方法 。
1 、数据清洗
数据清洗是通过填补缺失值 ,平滑或删除离群点 ,纠正数据的不一致来达到清洗的目的 。简单来说 ,就是把数据里面哪些缺胳膊腿的数据 、有问题的数据给处理掉 。总的来讲 ,数据清洗是一项繁重的任务 ,需要根据数据的准确性 、完整性 、一致性 、时效性 、可信性和解释性来考察数据,从而得到标准的、干净的 、连续的数据 。
(1)缺失值处理
实际获取信息和数据的过程中 ,会存在各类的原因导致数据丢失和空缺 。针对这些缺失值 ,会基于变量的分布特性和变量的重要性采用不同的方法 。若变量的缺失率较高(大于80%),覆盖率较低 ,且重要性较低 ,可以直接将变量删除,这种方法被称为删除变量;若缺失率较低(小于95%)且重要性较低 ,则根据数据分布的情况用基本统计量填充(最大值 、最小值、均值 、中位数 、众数)进行填充 ,这种方法被称为缺失值填充 。对于缺失的数据 ,一般根据缺失率来决定“删 ”还是“补 ”。
(2)离群点处理
离群点(异常值)是数据分布的常态 ,处于特定分布区域或范围之外的数据通常被定义为异常或噪声 。我们常用的方法是删除离群点 。
(3)不一致数据处理
实际数据生产过程中 ,由于一些人为因素或者其他原因 ,记录的数据可能存在不一致的情况 ,需要对这些不一致数据在分析前进行清理。例如 ,数据输入时的错误可通过和原始记录对比进行更正 ,知识工程工具也可以用来检测违反规则的数据 。
2、数据集成
随着大数据的出现,我们的数据源越来越多 ,数据分析任务多半涉及将多个数据源数据进行合并 。数据集成是指将多个数据源中的数据结合 、进行一致存放的数据存储 ,这些源可能包括多个数据库或数据文件。在数据集成的过程中,会遇到一些问题 ,比如表述不一致 ,数据冗余等,针对不同的问题 ,下面简单介绍一下该如何处理 。
(1)实体识别问题
在匹配来自多个不同信息源的现实世界实体时 ,如果两个不同数据库中的不同字段名指向同一实体 ,数据分析者或计算机需要把两个字段名改为一致 ,避免模式集成时产生的错误 。
(2)冗余问题
冗余是在数据集成中常见的一个问题 ,如果一个属性能由另一个或另一组属性“导出 ” ,则此属性可能是冗余的 。
(3)数据值的冲突和处理
不同数据源 ,在统一合并时 ,需要保持规范化 ,如果遇到有重复的,要去重 。
本文介绍了两种最常见的数据预处理方法 ,实际操作中 ,我们拿到的数据可能包含了大量的缺失值 、异常点等,非常不利于数据分析 。这时需要我们对脏数据进行预处理 ,得到标准的 、干净的 、连续的数据 ,提供给数据分析 、数据挖掘等使用 。希望大家通过本文能对数据预处理有一个简单的了解,在数据处理时 ,能根据具体遇到的问题采取相应的方法 。
猎聘大数据研究院发布了《2022未来人才就业趋势报告》
从排名来看 ,2022年1-4月各行业中高端人才平均年薪来看 ,人工智能行业中高端人才平均年薪最高 ,为31.04万元;金融行业中高端人才以27.69万元的平均年薪位居第二;通信 、大数据行业中高端人才平均年薪分别为27.51万元 、25.23万元 ,位列第三 、第四;IT/互联网行业中高端人才平均年薪23.02万元 ,位列第七 。
图表来源:《2022未来人才就业趋势报告》
如果你觉得很高 ,被平均了这样?那么打开Boss直聘 ,搜大数据工程师:
我们来做下数据分析:薪资那一列都有一个最低薪资和最高薪资 ,我们通过不同城市来对比分析一下,发现北京的工资水平最高 ,最低为22k ,最高为38k 。
工作年限也是一个制约工资水平的很大因素,从图中可以看出 ,即使是刚毕业 ,也能达到一个11-20k的薪资范围。
而学历要求来说,大部分为本科 ,其次为大专和硕士 ,其他比较少 ,以至于在图中并没有显示出来 。
企业对不同岗位的要求以3-5年的居多 ,企业当然是需要有一定工作经验的员工 ,但是在实际招聘中 ,如果你有项目经验 ,且理论知识没问题 ,企业也会放宽条件 。
分析不同行业 , 我们发现,大数据岗位需求分布在各行各业 ,主要还是在计算机软件和互联网最多 ,也有可能是这个招聘软件决定的,毕竟Boss直聘还是以互联网行业为主。
来看看哪些公司在招聘大数据相关岗位 ,从这个超过15的数量来看 ,华为,腾讯 ,阿里 ,字节 ,这些大厂对这个岗位的需求量还是很大的 。
那么这些岗位都需要什么技能呢?Spark ,Hadoop ,数据仓库 ,Python ,SQL ,Mapreduce ,Hbase等等
根据国内的发展形势,大数据未来的发展前景会非常好 。自 2018 年企业纷纷开始数字化转型 ,一二线城市对大数据领域的人才需求非常强烈 ,未来几年,三四线城市的人才需求也会大增。
在大数据领域 ,国内发展的比较晚 ,从 2016 年开始,仅有 200 多所大学开设了大数据相关的专业 ,也就是说 2020 年第一批毕业生才刚刚步入社会 ,我国市场环境处于急需大数据人才但人才不足的阶段 ,所以未来大数据领域会有很多的就业机遇 。
薪资高 、缺口大 ,自然成为职场人的“薪 ”选择!任何学习过程都需要一个科学合理的学习路线 ,才能够有条不紊的完成我们的学习目标 。Python+大数据所需学习的内容纷繁复杂 ,难度较大 ,为大家整理了一个全面的Python+大数据学习路线图 ,帮大家理清思路 ,攻破难关!
Python+大数据学习路线图详细介绍
第一阶段 大数据开发入门
学前导读:从传统关系型数据库入手,掌握数据迁移工具、BI数据可视化工具 、SQL ,对后续学习打下坚实基础 。
1.大数据数据开发基础MySQL8.0从入门到精通
MySQL是整个IT基础课程 ,SQL贯穿整个IT人生,俗话说 ,SQL写的好 ,工作随便找 。本课程从零到高阶全面讲解MySQL8.0,学习本课程之后可以具备基本开发所需的SQL水平 。
2022最新MySQL知识精讲+mysql实战案例_零基础mysql数据库入门到高级全套教程
第二阶段 大数据核心基础
学前导读:学习Linux 、Hadoop、Hive ,掌握大数据基础技术 。
2022版大数据Hadoop入门教程
Hadoop离线是大数据生态圈的核心与基石 ,是整个大数据开发的入门 ,是为后期的Spark 、Flink打下坚实基础的课程 。掌握课程三部分内容:Linux 、Hadoop、Hive ,就可以独立的基于数据仓库实现离线数据分析的可视化报表开发 。2022最新大数据Hadoop入门视频教程 ,最适合零基础自学的大数据Hadoop教程
第三阶段 千亿级数仓技术
学前导读:本阶段课程以真实项目为驱动 ,学习离线数仓技术 。
数据离线数据仓库 ,企业级在线教育项目实战(Hive数仓项目完整流程)
本课程会 、建立集团数据仓库 ,统一集团数据中心 ,把分散的业务数据集中存储和处理 ;目从需求调研 、设计 、版本控制 、研发 、测试到落地上线,涵盖了项目的完整工序 ;掘分析海量用户行为数据 ,定制多维数据集合 ,形成数据集市,供各个场景主题使用。大数据项目实战教程_大数据企业级离线数据仓库 ,在线教育项目实战(Hive数仓项目完整流程)
第四阶段 PB内存计算
学前导读:Spark官方已经在自己首页中将Python作为第一语言 ,在3.2版本的更新中,高亮提示内置捆绑Pandas;课程完全顺应技术社区和招聘岗位需求的趋势 ,全网首家加入Python on Spark的内容 。
1.python入门到精通(19天全)
python基础学习课程 ,从搭建环境 。判断语句 ,再到基础的数据类型 ,之后对函数进行学习掌握 ,熟悉文件操作 ,初步构建面向对象的编程思想 ,最后以一个案例带领同学进入python的编程殿堂。
全套Python教程_Python基础入门视频教程 ,零基础小白自学Python必备教程
2.python编程进阶从零到搭建网站
学完本课程会掌握Python高级语法 、多任务编程以及网络编程 。
Python高级语法进阶教程_python多任务及网络编程 ,从零搭建网站全套教程
3.spark3.2从基础到精通
Spark是大数据体系的明星产品,是一款高性能的分布式内存迭代计算框架 ,可以处理海量规模的数据 。本课程基于Python语言学习Spark3.2开发 ,课程的讲解注重理论联系实际,高效快捷 ,深入浅出 ,让初学者也能快速掌握。让有经验的工程师也能有所收获 。
Spark全套视频教程,大数据spark3.2从基础到精通 ,全网首套基于Python语言的spark教程
4.大数据Hive+Spark离线数仓工业项目实战
通过大数据技术架构 ,解决工业物联网制造行业的数据存储和分析 、可视化 、个性化推荐问题 。一站制造项目主要基于Hive数仓分层来存储各个业务指标数据 ,基于sparkSQL做数据分析 。核心业务涉及运营商 、呼叫中心、工单 、油站 、仓储物料 。
全网首次披露大数据Spark离线数仓工业项目实战 ,Hive+Spark构建企业级大数据平台
创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!