数据挖掘之分类问题.pdf

 分类问题属于预测性的问题,但是它跟普通预测问题的区别在于其预测的结果是类别(如A、B、C三类)而不是一个具体的数值(如55、65、75……)。

u=3342319053,1706957601&fm=26&gp=0.jpg

  举个例子,你和朋友在路上走着,迎面走来一个人,你对朋友说:我猜这个人是个上海人,那么这个问题就属于分类问题;如果你对朋友说:我猜这个人的年龄在30岁左右,那么这个问题就属于后面要说到的预测问题。

  商业案例中,分类问题可谓是最多的:

  •给你一个客户的相关信息,预测一下他未来一段时间是否会离网?

  •信用度是好/一般/差?是否会使用你的某个产品?

  •将来会成为你的高/中/低价值的客户?

  •是否会响应你的某个促销活动?

  有一种很特殊的分类问题,那就是“二分”问题,显而易见,“二分”问题意味着预测的分类结果只有两个类:如是/否;好/坏;高/低……;

  这类问题也称为0/1问题。之所以说它很特殊,主要是因为解决这类问题时,我们只需关注预测属于其中一类的概率即可,因为两个类的概率可以互相推导。如预测X=1的概率为P(X=1),那么X=0的概率P(X=0)=1-P(X=1),这一点是非常重要的。

  可能很多人已经在关心数据挖掘方法是怎么预测 P(X=1)这个问题的了,其实并不难。解决这类问题的一个大前提就是通过历史数据的收集,已经明确知道了某些用户的分类结果。

  例如已经收集到了10000个用户的分类结果,其中7000个是属于“1”这类;3000个属于“0”这类。伴随着收集到分类结果的同时,还收集了这10000个用户的若干特征(指标、变量)。这样的数据集一般在数据挖掘中被称为训练集,顾名思义,分类预测的规则就是通过这个数据集训练出来的。

  训练的思路大概是这样的:对所有已经收集到的特征/变量分别进行分析,寻找与目标0/1变量相关的特征/变量,然后归纳出 P(X=1)与筛选出来的相关特征/变量之间的关系(不同方法归纳出来的关系的表达方式是各不相同的,如回归的方法是通过函数关系式,决策树方法是通过规则集)。

  如需了解细节,请查阅:决策树、Logistic回归、判别分析、神经网络、Chi-square、Gini、……等相关知识。

      • 温馨提示:
      • 在微信、微博等APP中下载时,会出现无法下载的情况
      • 这时请选择在浏览器中打开,然后再请下载浏览
361图书馆,资源府邸,学习的天地
361图书馆 » 数据挖掘之分类问题.pdf

Optimized by WPJAM Basic