当前位置:收银系统 > 相关资料 > 正文

数据挖掘中易犯的几大错误

作者 Admin 来源 网络收集 发布时间 11/11/15 更新时间:2011年11月15日 浏览数 :

数据挖掘中易犯的几大错误
对于分类问题或预估问题来说,常常缺乏准确标注的案例……
  按照Elder博士的总结,这几大易犯错误包括:

  缺乏数据(Lack Data)

  太关注训练(Focus on Training)

  只依赖一项技术(Rely on One Technique)

  提错了问题(Ask the Wrong Question)

  只靠数据来说话(Listen (only) to the Data)

  使用了未来的信息(Accept Leaks from the Future)

  抛弃了不该忽略的案例(Discount Pesky Cases)

  轻信预测(Extrapolate)

  试图回答所有问题(Answer Every Inquiry)

  随便地进行抽样(Sample Casually)

  太相信最佳模型(Believe the Best Model)

  0. 缺乏数据(Lack Data)

  对于分类问题或预估问题来说,常常缺乏准确标注的案例。

  例如:

  -欺诈侦测(Fraud Detection):在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。

  -信用评分(Credit Scoring):需要对潜在的高风险客户进行长期跟踪(比如两年),从而积累足够的评分样本。

  1. 太关注训练(Focus on Training)

  IDMer:就象体育训练中越来越注重实战训练,因为单纯的封闭式训练常常会训练时状态神勇,比赛时一塌糊涂。

  实际上,只有样本外数据上的模型评分结果才真正有用!(否则的话,直接用参照表好了!)

  例如:

  -癌症检测(Cancer detection):MD Anderson的医生和研究人员(1993)使用神经网络来进行癌症检测,惊奇地发现,训练时间越长(从几天延长至数周),对训练集的性能改善非常轻微,但在测试集上的性能却明显下降。

  -机器学习或计算机科学研究者常常试图让模型在已知数据上表现最优,这样做的结果通常会导致过度拟合(overfit)。

  解决方法:

  解决这个问题的典型方法是重抽样(Re-Sampling)。重抽样技术包括:bootstrap、cross-validation、jackknife、leave-one-out...等等。

  2. 只依赖一项技术(Rely on One Technique)

  IDMer:这个错误和第10种错误有相通之处,请同时参照其解决方法。没有对比也就没有所谓的好坏,辩证法的思想在此体现无遗。

  “当小孩子手拿一把锤子时,整个世界看起来就是一枚钉子。”要想让工作尽善尽美,就需要一套完整的工具箱。

  不要简单地信赖你用单个方法分析的结果,至少要和传统方法(比如线性回归或线性判别分析)做个比较。

  研究结果:按照《神经网络》期刊的统计,在过去3年来,只有1/6的文章中做到了上述两点。也就是说,在独立于训练样本之外的测试集上进行了开集测试,并与其它广泛采用的方法进行了对比。

  解决方法:

  使用一系列好的工具和方法。(每种工具或方法可能最多带来5%~10%的改进)。

 

分享到:

本页面地址:http://www.syxt.net/faq/shujuwajuezhongyifandejidacuowu/

在线留言 查看所有留言


 

本文章仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

  • << “南粤金税”发票抽奖登记(查验)使用说明 | SQL Server与Access、Excel的数据转换 >>