首页IT科技使用pandas进行数据预处理实验报告(python数据预处理的三种情况)

使用pandas进行数据预处理实验报告(python数据预处理的三种情况)

时间2025-05-02 02:32:49分类IT科技浏览4087
导读:1、缺失数据的处理...

1            、缺失数据的处理

导入的数据存在缺失是经常发生的          ,最简单的处理方式是删除缺失的数据行            。使用 pandas 中的 .dropna() 删除含有缺失值的行或列                  ,也可以 对特定的列进行缺失值删除处理                 。

dfNew=dfData.dropna(axis=0))#删除含有缺失值的行

有时也会填充缺失值或替换缺失值      ,在此就不做介绍了      。

2                、重复数据的处理

对于重复数据       ,通常会删除重复行         。使用 pandas 中的 .duplicated() 可以查询重复数据的内容                 ,使用 .drop_duplicated() 可以删除重复数据         ,也可以对指定的数据列进行去重                。

dfNew=dfData.drop_duplicates(inplace=True)#删除重复的数据行

3      、异常值处理

数据中可能包括异常值     , 是指一个样本中的数值明显偏离样本集中其它样本的观测值                ,也称为离群点        。异常值可以通过箱线图         、正态分布图进行识别            ,也可以通过回归                、聚类建模进行识别      。

箱线图技术是利用数据的分位数识别其中的异常点                 。箱形图分析也超过本文的内容   ,不能详细介绍了          。只能笼统地说通过观察箱形图                ,可以查看整体的异常情况               ,进而发现异常值   。

dfData.boxplot()#绘制箱形图

以上就是python数据预处理的三种情况,希望对大家有所帮助                  。更多Python学习指路:Python基础教程

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
java消息队列和多线程(java嵌入式持久化消息队列SMQ,改造自FQueue) linux vim无法保存退出(Linux环境下VI/VIM编辑文件时无权限保存的解决方法(普通用户))