数据挖掘之分类问题.pdf

　分类问题属于预测性的问题，但是它跟普通预测问题的区别在于其预测的结果是类别(如A、B、C三类)而不是一个具体的数值(如55、65、75……)。

u=3342319053,1706957601&fm=26&gp=0.jpg

　　举个例子，你和朋友在路上走着，迎面走来一个人，你对朋友说：我猜这个人是个上海人，那么这个问题就属于分类问题;如果你对朋友说：我猜这个人的年龄在30岁左右，那么这个问题就属于后面要说到的预测问题。

　　商业案例中，分类问题可谓是最多的：

　　•给你一个客户的相关信息，预测一下他未来一段时间是否会离网?

　　•信用度是好/一般/差?是否会使用你的某个产品?

　　•将来会成为你的高/中/低价值的客户?

　　•是否会响应你的某个促销活动?

　　有一种很特殊的分类问题，那就是“二分”问题，显而易见，“二分”问题意味着预测的分类结果只有两个类：如是/否;好/坏;高/低……;

　　这类问题也称为0/1问题。之所以说它很特殊，主要是因为解决这类问题时，我们只需关注预测属于其中一类的概率即可，因为两个类的概率可以互相推导。如预测X=1的概率为P(X=1)，那么X=0的概率P(X=0)=1-P(X=1)，这一点是非常重要的。

　　可能很多人已经在关心数据挖掘方法是怎么预测 P(X=1)这个问题的了，其实并不难。解决这类问题的一个大前提就是通过历史数据的收集，已经明确知道了某些用户的分类结果。

　　例如已经收集到了10000个用户的分类结果，其中7000个是属于“1”这类;3000个属于“0”这类。伴随着收集到分类结果的同时，还收集了这10000个用户的若干特征(指标、变量)。这样的数据集一般在数据挖掘中被称为训练集，顾名思义，分类预测的规则就是通过这个数据集训练出来的。

　　训练的思路大概是这样的：对所有已经收集到的特征/变量分别进行分析，寻找与目标0/1变量相关的特征/变量，然后归纳出 P(X=1)与筛选出来的相关特征/变量之间的关系(不同方法归纳出来的关系的表达方式是各不相同的，如回归的方法是通过函数关系式，决策树方法是通过规则集)。

　　如需了解细节，请查阅：决策树、Logistic回归、判别分析、神经网络、Chi-square、Gini、……等相关知识。

声明：本文章资源来源于网络整理，本站发布的内容若侵犯到您的权益，请联系站长删除，我们将及时处理，联系方式QQ：2879219949，Emil：2879219949@qq.com。

下载参考地址：