下次遇到"奇葩"数据,别再拍脑袋处理了!

关键词:数据异常值,异常值检测,异常值类型

 

你的工厂数据里有没有这样的"奇葩"?温度计显示1000度,压力表突然跳到了外太空,或者某个传感器连续三天数据一模一样像卡带了?这些"不靠谱"的数据,在工业圈里叫异常值。它们就像混入队伍的捣乱分子,如果不处理好,轻则让分析结果跑偏,重则导致设备误判、产品报废。今天这篇干货,用大白话聊聊怎么抓出这些"捣乱分子",以及抓到后该怎么处置。

工业异常值处理流程

一、异常值分两种:天生怪咖 vs 来错片场的

首先得明白,数据"奇葩"不一定就是错的。

第一种叫"天生怪咖":比如炼钢炉里偶尔出现的极端高温,虽然少见但确实是真实工艺现象。这种要留着,只是分析时要用特殊方法。

第二种叫"来错片场的":比如传感器断线了显示9999,或者操作工手滑多敲了一个0。这种属于错误数据,该删就删,该改就改。

区分这两者是关键。就像医生看病,得先判断这症状是病情的一部分,还是仪器故障导致的假信号。

二、捉拿异常值的三个实用招式

怎么判断哪个数据是"捣乱分子"?别被那些复杂的统计方法吓到,实际工作中就记住这三板斧:

第一招:画个箱子图(最直观)

把数据排排队,画个箱线图。想象数据是一条绳子,大部分人集中在中间(箱子),两头是绳子尾巴。

超出尾巴1.5倍长度的,是"轻度可疑"

超出3倍的,是"重度可疑"

这招的好处是不挑分布,不管数据正不正态都能用,而且对偶发的跳变不敏感。工厂里做快速筛查首选这招。

第二招:看距离中心有多远(最经典)

如果数据服从正态分布(像身高那样两头少中间多),可以用"3σ原则":

距离平均值超过3个标准差的,视为异常

更严格的标准是格拉布斯检验,适合样本量30-100的情况

简单说就是:如果某个数据离大部队太远,远到出现的概率不到1%,那它很可能有问题。

第三招:分段排查(适合小样本)

如果数据很少(比如只有20个批次),用狄克逊检验。不用算复杂的标准差,直接比较最大最小值的差距比例,超过临界值就是异常。

选型建议

小样本(<30):用狄克逊或箱线图

中等样本(30-100):用格拉布斯或箱线图

大样本(>100):用3σ原则或GESD批量检测

三、抓住后怎么处理?四大处置方案

发现异常值只是开始,怎么处理才见功力。根据国家标准,有四种标准动作:

方案A:直接删除(最干脆)

适用场景:确定是设备故障、操作失误导致的明显错误,比如传感器断线显示的9999。

注意:删除必须有记录!要记下删了哪个数据、为什么删(比如"热电偶接触不良")、以及当时样本量多少。这是质量追溯的硬性要求,不能偷偷摸摸删。

方案B:修正数据(最精准)

如果是记录错误(比如把12.5写成125),且有原始记录可以查证,那就直接改回来。

红线:修正必须基于原始凭证或重新测量,不能拍脑袋估算

方案C:保留但特殊处理(最稳妥)

当不确定是异常还是真实现象,或者这个数据很关键不能删时(比如关键工艺节点),要用稳健统计方法

不用平均值,改用中位数(受极端值影响小)

不用标准差,改用绝对中位差(MAD)

做回归分析时,用LTS回归(自动忽略异常值影响)

这招叫"惹不起躲得起"——不删你,但分析时绕开你。

方案D:替换数值(最温和)

也叫"缩尾处理"。对于轻微异常的数据,不删也不改,而是把它们"拉回到合理边界"。

比如超出上限的,就按上限值参与计算。这样既能保留数据量,又不让极端值干扰算法(比如DCS控制系统里的PID算法)。

四、举个例子

案例:SMT回流焊炉温异常

某电子厂监测回流焊温度,设定峰值245度,标准差3度。突然有个点位显示255度。

处理过程:

先确认温度数据确实符合正态分布

计算偏差:255距离均值245有10度,除以标准差3,得到约3.33

查表得知,在1%显著性水平下临界值约为3.17

3.33 > 3.17,判定为高度异常

现场检查发现是热电偶接触不良,剔除该数据并更换传感器

五、避坑指南:三个关键提醒

1. 先验分布,再选方法 很多统计方法(如格拉布斯检验)前提是数据正态分布。如果数据本身不服从正态分布(比如设备故障时间通常服从指数分布),硬套公式会误判。所以第一步永远是看数据长什么样

2. 设置双重门槛

 检出水平(5%):发现异常,拉响警报,但需要调查原因

剔除水平(1%):高度异常,可以直接行动(删除或修正)

别把"可疑"直接当成"有罪",避免误杀正常数据。

3. 异常值比例不能太高 如果一批数据里异常值超过一定比例(比如10%),别忙着删数据,先质疑样本代表性——可能是采样方法出了问题,或者这批产品本身质量就有问题。

工业数据治理就像体检,异常值就是体检报告上的异常指标。它可能是仪器误差(血压计没绑紧),也可能是真生病了(高血压)。干净的数据才能驱动真正的智能决策。请把这篇文章转给你们厂里的工艺工程师和质量部,下次遇到"奇葩"数据,别再拍脑袋处理了!

 

作者:谢鸣 (Frank),制造型企业质量及精益改善专家,六西格玛黑带。拥有20余年质量和精益领域工作经历,先后任职于西门子、施耐德等国际知名企业。

从质量到卓越的第一步

下一步