→云计算下的海量数据挖掘研究.pptx
- 文档编号:1395981
- 上传时间:2022-10-22
- 格式:PPTX
- 页数:27
- 大小:524.64KB
→云计算下的海量数据挖掘研究.pptx
《→云计算下的海量数据挖掘研究.pptx》由会员分享,可在线阅读,更多相关《→云计算下的海量数据挖掘研究.pptx(27页珍藏版)》请在冰豆网上搜索。
云计算下的海量数据挖掘研究,SPKINT改进后的基本思想,
(2)如果集合T分成T1和T2两部分,分别对应m1和m2条记录,则此分割的Gini指数为寻找分裂属性及最佳分裂点:
SPRINT并行处理,在云计算下海量数据,多有并行数据发生。
处理好并行数据,减少数据容错性。
数据结构,SPRINT并行算法除了属性表和直方图外还需要引入哈希表数据结构来存储分割点两侧的数据记录,为并行节点提供分割依据。
哈希表第i条记录的值代表原数据中第i条记录被划分到的树节点号。
哈希表分为两项:
(NodeID,SubNodeID),NodeID代表树节点号SubNodeID表示当前树节点的儿子节点号默认SubNodeID为0时表示该记录位于树节点的左子节点为1时位于树节点的右子节点。
并行算法,希表。
各分站点根据哈希表分割其他属性列表,列表分割同时生成属性直方图。
SPRINT移植,经过以上对SPRINT算法改进后可以将算法移植到云计算的MapReduce框架下进行分布合成处理。
SPRINT与MapReduce水平划分结合算法描述,水平分割和垂直分割过程,用模型对数据进行分类,对银行训练数据进行分类以建立分类模型。
训练数据的属性分别为编号、年龄、收入、文化程度、拥有车数量、欠款额和欠款时间。
要根据这些属性对银行客户进行信用风险等级进行评估将客户分为两类。
信用高风险用户和信用低风险用户,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算 海量 数据 挖掘 研究