使用 Microsoft 聚集创建 OLAP 数据挖掘模型

数据挖掘模型是包含运行特定数据挖掘任务所需全部设置的模型。

为什么？
数据挖掘对查找和描述特定多维数据集中的隐藏模式非常有用。随着多维数据集中的数据迅速增长，手动查找信息变得非常困难。数据挖掘提供的算法允许自动模式查找及交互式分析。管理员现在可以在将要训练数据的 Analysis Services 中设置数据挖掘模型。然后用户可以使用 ISV 客户端工具对受训数据运行高级分析。

方案：

市场部想增加客户满意度和客户保有率。于是实行了两个创造性的方法以达到这些目标。对会员卡方案重新进行定义，以便更好地为客户提供服务并且使所提供的服务能够更加密切地满足客户的期望。创办《每周赠券》杂志，将杂志送给客户群，以鼓励他们访问 FoodMart 商店。

我们在上一章讲述了如何使用“Microsoft 决策树”算法重新定义会员卡方案。

为了定义《每周赠券》杂志，市场部想将客户群划分为三个类别。事实上，市场部已有创建三个版本的《每周赠券》杂志的财政预算。市场部想对销售数据运行一些数据挖掘进程，以便识别三个组中的客户。根据三个组的特征，市场部可以选择赠券的类型，以便插入各个版本的《每周赠券》杂志。市场部还将能够知道哪一类客户应该接收哪一个版本的杂志。

本节将创建第二个数据挖掘模型，此模型将使用“Microsoft 聚集”算法将客户群划分为三个类别。请将客户设置为要调查的维度（事例维度）。然后将 Store Sales（商店销售）度量值设置为数据挖掘算法划分 Customer（客户）维度所用信息。接下来，请选择想要在算法中表示各个客户类别特性的人口统计特征列表：婚姻状况、年收入、在家子女数、教育程度…… 然后训练此模型，最终使其能够浏览受训数据并从中分析三种客户类别。市场部将根据每个客户类别的人口统计属性，选择将要插入《每周赠券》杂志各个版本中的赠券列表。

如何创建将客户群划分为逻辑段的数据挖掘模型

在 Analysis Manager 树窗格中展开“多维数据集”文件夹，右击“Sales”多维数据集，然后单击“新建挖掘模型”命令。
在挖掘模型向导的“选择数据挖掘技术”步骤中，在“技术”框中单击“Microsoft 聚集”。单击“下一步”按钮。
在“选择事例”步骤中的“维度”框中，选择“Customer”。在“级别”框中，确保已经选择了“Lname”。单击“下一步”按钮。
在“选择训练数据”步聚中，在“Customer”维度中清除“Country”、“State Province”和“City”复选框，因为没有必要使用汇总级别划分客户群。然后，在“Measures”维度中只选择“Store Sales”。单击“下一步”按钮。
在最后一个步骤中，在“模型名称”框中输入“Customer segmentation”。选择“保存，但现在不处理”。单击“完成”按钮。
当前在 OLAP 挖掘模型编辑器中。可以使用此编辑器编辑模型属性或浏览其结果。
在编辑器的左窗格的属性窗格中，在“Cluster Count”框中，用“3”代替“10”。
保存所做更改。
单击“工具”菜单上的“处理挖掘模型”命令。
注意： 处理数据挖掘模型可能会花费一些时间。
出现“处理”窗口，显示正在处理模型。处理完成之后出现一则消息，说明“已成功完成处理”。单击“关闭”按钮。

如何读取包含在各个聚集（客户段）中的信息

现在已回到 OLAP 挖掘模型编辑器。分段树显示于右窗格中。右窗格由四个窗格组成：中间的“内容详情”窗格 (1) 显示焦点所在的分段树的部分。“内容选择区”窗格 (2) 显示树的完整视图。该窗格使您可以将焦点设置到树的其它部分。其它的两个窗格分别是“特性”窗格 (3)（特性信息可以用“合计”选项卡以数值方式查看或者用“直方图”选项卡以图形方式查看）和与焦点所在节点相关联的“节点路径”区域 (4)。
在“内容详情”窗格中，在分段树区域中，颜色代表事例的密度（在此事例中为客户的密度）。颜色越深则节点中包含的事例就越多。单击“全部”节点。该节点为黑色，因为它代表 100% 的事例（客户）。
单击“Cluster 1”。特性窗格显示一个下拉列表和一个网格。下拉列表可用于选择特定的客户人口统计特征。网格显示以人口统计特征的各个值为基础对聚集中客户的重新分区。
对于“Cluster 1”，请选择“节点特性集”框中的“Customer.Lname.Marital Status”，然后转到“特性”网格。网格显示“Cluster 1”包括 2878 个事例，对于“婚姻状况”特征，事例分布如下：21.12% 的客户已婚，其余 78.88% 单身。
让我们从另一个角度查看这些相同的 2878 个事例。在“节点特性集”框中，选择“Customer.Lname.Yearly Income”。网格中的分布显示 0% 的客户收入在 10000-30000 美元范围之内；41.62% 的客户收入在 30000-50000 美元范围之内；24.01% 的客户收入在 50000-70000 美元范围之内。结果显示该聚集的 65% 以上的客户在中等收入（年收入为 30000-70000 美元）范围之内。
现在可以知道“Cluster 1”主要由中等收入的客户构成而且主要由单身客户构成。在列表中选择“Customer.Lname.Num Children At Home”。结果显示该聚集中平均在家子女数为零。此项选择显示一个平均数而不是重新分区，因为源数据库的“Num of Children at Home”字段中包含连续的值。当算法发现源数据中包含不连续的值，它将显示包含这些值的重新分区。当算法发现源数据中包含连续的值（即非预定义数字），它将计算并显示平均值。
在“节点特性集”框中，选择“Measures.Stores Sales”。网格显示在“Cluster 1”中对每个客户的平均销售额为 72.42 美元。
市场部现在了解到“Cluster 1”主要由中等收入的客户构成，而且完全是由单身客户构成，这些客户家中没有子女，每年在 FoodMart 商店平均花费 72.42 美元。根据这种情况，市场部可以确定在周刊中插入哪种赠券了。您也可以在树中浏览以确定在“Cluster 2”和“Cluster 3”中所包含客户特征。
浏览完其它聚集后，请关闭 OLAP 挖掘模型编辑器。