集团站切换校区

验证码已发送,请查收短信

复制成功
微信号:togogoi
添加微信好友, 详细了解课程
已复制成功,如果自动跳转微信失败,请前往微信添加好友
打开微信
图标

业界新闻

当前位置:首页 > >业界新闻 > >

大数据培训_数据挖掘中离群点检测方法

发布时间: 2019-07-02 14:40:26

  大数据培训_数据挖掘中离群点检测方法

  1.大数据培训课程中什么是离群点

  在数据挖掘中, 什么是离群点,那么我们如何确定离群点,又使用什么方法要验证离群点?

大数据培训

  假定使用一个给定的统计过程来产生数据对象集。离群点是一个数据对象,它显著不同于其他数据对象,好像她是被不同的机制产生的一样。离群点不同于噪声数据。噪声是被观测变量的随机误差或方差。一般而言,噪声在数据分析中不是很令人感兴趣的,但是离群点是有趣的。
  离群点不同于噪声数据。噪声是被观测变量的随机误差或方差。一般而言,噪声在数据分析(包括离群点分析)中不是令人感兴趣的。如在信用卡欺诈检测,顾客的购买行为可以用一个随机变量建模。一位顾客可能会产生某些看上去像“随机误差”或“方差”的噪声交易,如买一份较丰盛的午餐,或比通常多要了一杯咖啡。这种交易不应该视为离群点,否则信用卡公司将因验证太多的交易而付出沉重代价。因此,与许多其他数据分析和数据挖掘任务一样,应该在离群点检测前就删除噪声。
  离群点检测是有趣的,因为怀疑产生它们的机制不同于产生其他数据的机制。因此,在离群点检测时,重要的是搞清楚为什么检测到的离群点被某种其他机制产生。通常,在其余数据上做各种假设,并且证明检测到的离群点显著违反了这些假设。

  2.大数据培训中关于聚类的方法

  离群点概念与簇概念高度相关。基于聚类的方法通过考察对象与簇之间的关系检测离群点。直观的,离群点是一个对象,它属于小的偏远簇,或不属于任何簇。
  这导致三种基于聚类的离群点检测的一般方法。我们主要使用如下的方法进行离群点的检测:考虑一个对象。
  该对象属于某个簇吗?如果不,那么它就是离群点。
  该对象与最近的簇之间距离远吗?如果远,则他是离群点。
  该对象是小簇或稀疏簇的一部分吗?如果是,则该簇中的所有对象都是离群点。

  3.大数据培训中关于分类的方法

  如果训练数据具有类标号,则离群点检测可以看做分类问题。基于分类的离群点检测方法的一般思想是,训练一个可以区分正常数据和离群点的分类模型。

  考虑一个训练数据集,它包含一些标记为正常,而其他标记为离群点的样本,于是,可以在该训练集上构建一个分类器。可以使用任意分类算法。然而,这种方法对于离群点检测效果不好, 因为训练集是高度有偏的,也就是说,正常样本的数量是远远大于离群点样本的数量的。这种不平衡可能使得我们很难去构造一个准确的分类器。

  为了解决这一难题,基于分类的离群点检测,通常使用一类模型,也就是说,构架你一个金描述正常类的分类器,其余所有不属于正常类的样本都被视为离群点。

上一篇: CentOS7安装MySQL8.0

下一篇: 人工智能AI培训_TensorFlow 基础操作

在线咨询 ×

您好,请问有什么可以帮您?我们将竭诚提供最优质服务!