测试中的异常数据剔除用什么方法?

发布网友 发布时间:2022-04-23 22:42

我来回答

2个回答

热心网友 时间:2023-09-02 20:04

统计学中剔除异常数据的方法很多,但在检测和测试中经常用的方法有2种:

1- 拉依达准则(也称之为3σ准则):

很简单,就是首先求得n次检测结果的实验标准差s和残差,│残差│大于3s的测量值即为异常值删去,然后重新反复计算,将所有异常值剔除。

但这个方法有局限,数据样本必须大于10,一般要求大于50。所以,这个方法现在不常用了,国标里面已经剔除该方法!

2- 格拉布斯准则(Grubbs):

这个方法比较常用,尤其是我们检测领域。

方法也很简单,还是首先求得n次检测结果的实验标准差s和残差,│残差│/s的值大于  g(n)的测量值即为异常值,可删去;同样重新反复计算之,将所有异常值剔除。

g(n)指 临界系数,可直接查表获得. 95%的系数可参见下表:

热心网友 时间:2023-09-02 20:04

处理异常值

异常值的定义是与均值的偏差超过两倍标准,但是在脏数据中,异常值的情况不止这一种:

1)比如一列数据你打开看全部是数字,当你把它当数值型处理,它会报错;那就得仔细查找原因,遇到比较多的情况是一列数字中夹杂了几个奇怪的字符串或者符号等元素,如果几万条数据中只有一两个这种字符,即使认真从前到后仔细查看也很难发现还浪费大量时间,效率极低。


还有一种情况比较常见,就是看起来是数字,实际上都是字符串的形式,但是以表格查看的时候是看不到字符串的引号;这两种情况可以通过查看特征类型来提前发现,在python中用type()或者dtypes()函数,两者使用对象有差别,可自行了解;


2)几种常用异常值检测方法:


声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com