→云计算下的海量数据挖掘研究.pptx

→云计算下的海量数据挖掘研究.pptx

《→云计算下的海量数据挖掘研究.pptx》由会员分享，可在线阅读，更多相关《→云计算下的海量数据挖掘研究.pptx（27页珍藏版）》请在冰豆网上搜索。

→云计算下的海量数据挖掘研究.pptx

云计算下的海量数据挖掘研究,SPKINT改进后的基本思想,

（2）如果集合T分成T1和T2两部分，分别对应m1和m2条记录，则此分割的Gini指数为寻找分裂属性及最佳分裂点：

SPRINT并行处理,在云计算下海量数据，多有并行数据发生。

处理好并行数据，减少数据容错性。

数据结构,SPRINT并行算法除了属性表和直方图外还需要引入哈希表数据结构来存储分割点两侧的数据记录，为并行节点提供分割依据。

哈希表第i条记录的值代表原数据中第i条记录被划分到的树节点号。

哈希表分为两项：

（NodeID，SubNodeID），NodeID代表树节点号SubNodeID表示当前树节点的儿子节点号默认SubNodeID为0时表示该记录位于树节点的左子节点为1时位于树节点的右子节点。

并行算法,希表。

各分站点根据哈希表分割其他属性列表，列表分割同时生成属性直方图。

SPRINT移植,经过以上对SPRINT算法改进后可以将算法移植到云计算的MapReduce框架下进行分布合成处理。

SPRINT与MapReduce水平划分结合算法描述,水平分割和垂直分割过程,用模型对数据进行分类,对银行训练数据进行分类以建立分类模型。

训练数据的属性分别为编号、年龄、收入、文化程度、拥有车数量、欠款额和欠款时间。

要根据这些属性对银行客户进行信用风险等级进行评估将客户分为两类。

信用高风险用户和信用低风险用户,

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：→云计算下的海量数据挖掘研究.pptx
链接地址：https://www.bdocx.com/doc/1395981.html