首页IT科技数据预处理的方法有哪些及简单介绍(数据预处理的方法有哪些?)

数据预处理的方法有哪些及简单介绍(数据预处理的方法有哪些?)

时间2025-09-19 04:43:08分类IT科技浏览11201
导读:数据处理的工作时间占据了整个数据分析项目的70%以上。因此,数据的质量直接决定了分析模型的准确性。那么,数据预处理的方法有哪些呢?比如数据清洗、数据集成、数据规约、数据变换等,其中最常用到的是数据清洗与数据集成,下面小编将来详细介绍一下这2种方法。...

数据处理的工作时间占据了整个数据分析项目的70%以上                   。因此                   ,数据的质量直接决定了分析模型的准确性                            。那么                            ,数据预处理的方法有哪些呢?比如数据清洗                   、数据集成                            、数据规约         、数据变换等         ,其中最常用到的是数据清洗与数据集成          ,下面小编将来详细介绍一下这2种方法         。

1          、数据清洗

数据清洗是通过填补缺失值                            ,平滑或删除离群点                   ,纠正数据的不一致来达到清洗的目的          。简单来说          ,就是把数据里面哪些缺胳膊腿的数据                            、有问题的数据给处理掉                            。总的来讲                            ,数据清洗是一项繁重的任务                   ,需要根据数据的准确性                   、完整性          、一致性                            、时效性                   、可信性和解释性来考察数据,从而得到标准的、干净的                            、连续的数据                   。

(1)缺失值处理

实际获取信息和数据的过程中                            ,会存在各类的原因导致数据丢失和空缺          。针对这些缺失值                            ,会基于变量的分布特性和变量的重要性采用不同的方法                            。若变量的缺失率较高(大于80%),覆盖率较低                   ,且重要性较低                            ,可以直接将变量删除         ,这种方法被称为删除变量;若缺失率较低(小于95%)且重要性较低                   ,则根据数据分布的情况用基本统计量填充(最大值                            、最小值、均值                   、中位数                            、众数)进行填充                            ,这种方法被称为缺失值填充                   。对于缺失的数据         ,一般根据缺失率来决定“删                   ”还是“补                            ”。

(2)离群点处理

离群点(异常值)是数据分布的常态          ,处于特定分布区域或范围之外的数据通常被定义为异常或噪声                            。我们常用的方法是删除离群点                            。

(3)不一致数据处理

实际数据生产过程中                            ,由于一些人为因素或者其他原因                   ,记录的数据可能存在不一致的情况          ,需要对这些不一致数据在分析前进行清理。例如                            ,数据输入时的错误可通过和原始记录对比进行更正                   ,知识工程工具也可以用来检测违反规则的数据                   。

2         、数据集成

随着大数据的出现,我们的数据源越来越多                            ,数据分析任务多半涉及将多个数据源数据进行合并                            。数据集成是指将多个数据源中的数据结合                   、进行一致存放的数据存储                            ,这些源可能包括多个数据库或数据文件         。在数据集成的过程中,会遇到一些问题                   ,比如表述不一致                            ,数据冗余等         ,针对不同的问题                   ,下面简单介绍一下该如何处理                   。

(1)实体识别问题

在匹配来自多个不同信息源的现实世界实体时                            ,如果两个不同数据库中的不同字段名指向同一实体         ,数据分析者或计算机需要把两个字段名改为一致          ,避免模式集成时产生的错误                            。

(2)冗余问题

冗余是在数据集成中常见的一个问题                            ,如果一个属性能由另一个或另一组属性“导出         ”                   ,则此属性可能是冗余的         。

(3)数据值的冲突和处理

不同数据源          ,在统一合并时                            ,需要保持规范化                   ,如果遇到有重复的,要去重          。

本文介绍了两种最常见的数据预处理方法                            ,实际操作中                            ,我们拿到的数据可能包含了大量的缺失值                            、异常点等,非常不利于数据分析                            。这时需要我们对脏数据进行预处理                   ,得到标准的         、干净的          、连续的数据                            ,提供给数据分析                            、数据挖掘等使用                   。希望大家通过本文能对数据预处理有一个简单的了解         ,在数据处理时                   ,能根据具体遇到的问题采取相应的方法          。

猎聘大数据研究院发布了《2022未来人才就业趋势报告》

从排名来看                            ,2022年1-4月各行业中高端人才平均年薪来看         ,人工智能行业中高端人才平均年薪最高          ,为31.04万元;金融行业中高端人才以27.69万元的平均年薪位居第二;通信                   、大数据行业中高端人才平均年薪分别为27.51万元          、25.23万元                            ,位列第三                            、第四;IT/互联网行业中高端人才平均年薪23.02万元                   ,位列第七                            。

图表来源:《2022未来人才就业趋势报告》

如果你觉得很高          ,被平均了这样?那么打开Boss直聘                            ,搜大数据工程师:

我们来做下数据分析:

薪资那一列都有一个最低薪资和最高薪资                   ,我们通过不同城市来对比分析一下,发现北京的工资水平最高                            ,最低为22k                            ,最高为38k                   。

工作年限也是一个制约工资水平的很大因素,从图中可以看出                   ,即使是刚毕业                            ,也能达到一个11-20k的薪资范围。

而学历要求来说         ,大部分为本科                   ,其次为大专和硕士                            ,其他比较少         ,以至于在图中并没有显示出来                            。

企业对不同岗位的要求以3-5年的居多          ,企业当然是需要有一定工作经验的员工                            ,但是在实际招聘中                   ,如果你有项目经验          ,且理论知识没问题                            ,企业也会放宽条件                            。

分析不同行业                   , 我们发现,大数据岗位需求分布在各行各业                            ,主要还是在计算机软件和互联网最多                            ,也有可能是这个招聘软件决定的,毕竟Boss直聘还是以互联网行业为主。

来看看哪些公司在招聘大数据相关岗位                   ,从这个超过15的数量来看                            ,华为         ,腾讯                   ,阿里                            ,字节         ,这些大厂对这个岗位的需求量还是很大的                   。

那么这些岗位都需要什么技能呢?Spark          ,Hadoop                            ,数据仓库                   ,Python          ,SQL                            ,Mapreduce                   ,Hbase等等

根据国内的发展形势,大数据未来的发展前景会非常好                            。自 2018 年企业纷纷开始数字化转型                            ,一二线城市对大数据领域的人才需求非常强烈                            ,未来几年,三四线城市的人才需求也会大增         。

在大数据领域                   ,国内发展的比较晚                            ,从 2016 年开始         ,仅有 200 多所大学开设了大数据相关的专业                   ,也就是说 2020 年第一批毕业生才刚刚步入社会                            ,我国市场环境处于急需大数据人才但人才不足的阶段         ,所以未来大数据领域会有很多的就业机遇                   。

薪资高                   、缺口大          ,自然成为职场人的“薪          ”选择!

任何学习过程都需要一个科学合理的学习路线                            ,才能够有条不紊的完成我们的学习目标                            。Python+大数据所需学习的内容纷繁复杂                   ,难度较大          ,为大家整理了一个全面的Python+大数据学习路线图                            ,帮大家理清思路                   ,攻破难关!

Python+大数据学习路线图详细介绍

第一阶段 大数据开发入门

学前导读:从传统关系型数据库入手,掌握数据迁移工具、BI数据可视化工具                            、SQL                            ,对后续学习打下坚实基础         。

1.大数据数据开发基础MySQL8.0从入门到精通

MySQL是整个IT基础课程                            ,SQL贯穿整个IT人生,俗话说                   ,SQL写的好                            ,工作随便找          。本课程从零到高阶全面讲解MySQL8.0         ,学习本课程之后可以具备基本开发所需的SQL水平                            。

2022最新MySQL知识精讲+mysql实战案例_零基础mysql数据库入门到高级全套教程

第二阶段 大数据核心基础

学前导读:学习Linux                            、Hadoop、Hive                   ,掌握大数据基础技术                   。

2022版大数据Hadoop入门教程

Hadoop离线是大数据生态圈的核心与基石                            ,是整个大数据开发的入门         ,是为后期的Spark                   、Flink打下坚实基础的课程          。掌握课程三部分内容:Linux                            、Hadoop         、Hive          ,就可以独立的基于数据仓库实现离线数据分析的可视化报表开发                            。

2022最新大数据Hadoop入门视频教程                            ,最适合零基础自学的大数据Hadoop教程

第三阶段 千亿级数仓技术

学前导读:本阶段课程以真实项目为驱动                   ,学习离线数仓技术                   。

数据离线数据仓库          ,企业级在线教育项目实战(Hive数仓项目完整流程)

本课程会                   、建立集团数据仓库                            ,统一集团数据中心                   ,把分散的业务数据集中存储和处理 ;目从需求调研                            、设计         、版本控制          、研发                            、测试到落地上线,涵盖了项目的完整工序 ;掘分析海量用户行为数据                            ,定制多维数据集合                            ,形成数据集市,供各个场景主题使用。

大数据项目实战教程_大数据企业级离线数据仓库                   ,在线教育项目实战(Hive数仓项目完整流程)

第四阶段 PB内存计算

学前导读:Spark官方已经在自己首页中将Python作为第一语言                            ,在3.2版本的更新中         ,高亮提示内置捆绑Pandas;课程完全顺应技术社区和招聘岗位需求的趋势                   ,全网首家加入Python on Spark的内容                            。

1.python入门到精通(19天全)

python基础学习课程                            ,从搭建环境                            。判断语句         ,再到基础的数据类型          ,之后对函数进行学习掌握                            ,熟悉文件操作                   ,初步构建面向对象的编程思想          ,最后以一个案例带领同学进入python的编程殿堂。

全套Python教程_Python基础入门视频教程                            ,零基础小白自学Python必备教程

2.python编程进阶从零到搭建网站

学完本课程会掌握Python高级语法                   、多任务编程以及网络编程                   。

Python高级语法进阶教程_python多任务及网络编程                   ,从零搭建网站全套教程

3.spark3.2从基础到精通

Spark是大数据体系的明星产品,是一款高性能的分布式内存迭代计算框架                            ,可以处理海量规模的数据                            。本课程基于Python语言学习Spark3.2开发                            ,课程的讲解注重理论联系实际,高效快捷                   ,深入浅出                            ,让初学者也能快速掌握         。让有经验的工程师也能有所收获                   。

Spark全套视频教程         ,大数据spark3.2从基础到精通                   ,全网首套基于Python语言的spark教程

4.大数据Hive+Spark离线数仓工业项目实战

通过大数据技术架构                            ,解决工业物联网制造行业的数据存储和分析          、可视化                            、个性化推荐问题                            。一站制造项目主要基于Hive数仓分层来存储各个业务指标数据         ,基于sparkSQL做数据分析         。核心业务涉及运营商                   、呼叫中心、工单                            、油站                            、仓储物料          。

全网首次披露大数据Spark离线数仓工业项目实战          ,Hive+Spark构建企业级大数据平台

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
如何开机自启动win10应用程序(如何开机自启动win10应用) tomcat运行war包后无法访问(Tomcat服务器安装配置PFX格式SSL证书教程)