基于数据模式识别整合框架的SOFMSVM模型及其应用.docx
- 文档编号:284632
- 上传时间:2022-10-08
- 格式:DOCX
- 页数:25
- 大小:102.29KB
基于数据模式识别整合框架的SOFMSVM模型及其应用.docx
《基于数据模式识别整合框架的SOFMSVM模型及其应用.docx》由会员分享,可在线阅读,更多相关《基于数据模式识别整合框架的SOFMSVM模型及其应用.docx(25页珍藏版)》请在冰豆网上搜索。
基于数据模式识别整合框架的SOFMSVM模型及其应用
基于数据模式识别整合框架的SOFM-SVM模型及其应用
基于数据模式识别整合框架的SOFM-SVM模型及其应用
中文摘要
在当前数据模式识别理论和方法研究的基础上,针对在无监督聚类和有监督
分类两种识别方法在独立用以进行样本分类,特别是给无类标志样本分类时存在
的不足之处,提出了一种先聚类后分类的结合应用思路(C2CMA),将聚类方法
和分类方法整合起来解决模式识别问题;并提出一个称为数据模式识别整合框架
(DPRIF)的功能、方法整合策略,用以在无先验类别信息的条件下实现数据模
式发现和解释,构造具备较高稳定性和分类精度、可用于判断和预测新数据的分
类器。
在DPRIF整合策略指导下构建了一个整合的SOFM-SVM模型,对该模型
从运作机制、数据接口、功能扩展几个方面进行分析和改进:
引入PCA方法进行
数据降维和特征提取,用以加强聚类解释;结合统计聚类中的聚类误差概念定义
一个聚类数有效性指标,利用SOFM算法中间结果进行指标求解,以筛选出有效
或最佳聚类数;提出一种新的噪声识别算法Anti-NO算法用于对样本中的异常数
据进行甄别和过滤;利用SVM模型的中间结果提取分类边界数据;进一步充实
了包括模式类、噪声集和边界在内的模式识别成果。
最后将该整合模型应用于上
市公司信用模式识别的实例,证明该整合策略和模型对于解决C2CMA数据挖掘
任务是可行有效的,同时为定量研究证券信用模式分类问题做出新的探索。
关键词:
模式识别聚类分类自组织特征映射支持向量机信用模式1基于数据模式识别整合框架的SOFM-SVM模型及其应用
Abstract
Basedonthetheoryandmethodsofdatapatternrecognition,thisthesisfocused
onthedisadvantagesoftheunaidedusewithunsupervisedclusteringandsupervised
classifyingmethodtoclassifytheunlabeleddatasamples,andfurtherlyproposeda
methodof"C2CMA"fromclusteringtoclassificationminingapplication,which
integratesclusteringwithclassifyingmethodtosolvetheproblemofpattern
recognition.Anintegratedstrategycalled"DPRIF"DataPatternRecognition
IntegratedFramewasalsoproposed,whichisusedtodiscoverandexplaindata
patternwhensamplesetislackoflabeledinformation.Itcanalsobeusedtocreatea
classifierwhichismorestableandmoreaccurate,andcanbeusedtodiscriminateand
forecastnewdata.UndertheguidanceofDPRIFintegratingstrategy,wesetupan
integretedSOFM-SVMmodel.Thenweanalyzedandoptimizedthemodelfromthe
aspectsofoperatingmechanism,datainterfaceandfunctionexpandedness.ThePCA
methodwasintroducedtoreducedimensionalityandextractfeatures,thento
strengthentheclusteringexplanation;definedaCMIindex,toascertainthemost
effectiveorthebestclusteringnumber;AnewAnti-NOalgorithmwasproposedto
recognizeandtofilterthesuspeciousdatainthesample;ThemediumresultofSVM
modelwasusedtoextracttheborderlinedatasbetweentwoclassifiedgroups.This
researchcompensatedfortheachievementsofdatarecognitionincludingpatterndata,
noisesdataandborderlinedata.Finallytheintegratedmodelwasusedinthe
recongnitionoflistedcompanies'creditpattern.TheresultsprovedthatthisDPRIFand
SOFM-SVMmodeliseffectiveinsolvingC2CMAproblem.Furthermore,weexplored
inquantitativeresearchontheissueofstock'screditpatternrecognition
Keyword:
PatternRecognition,Clustering,Classification,SOFM,SVMCreditPattern2基于数据模式识别整合框架的SOFM-SVM模型及其应用
中文摘要1
Abstract2
第一章综述1
1.1模式识别的概念及其内容..1
1.2国内外研究现状..1
1.3当前研究的重点和发展趋势4
1.4本文的主要工作..5
第二章数据模式识别整合框架.6
2.1分离的模式识别方法的不足和整合模式识别框架(DPRIF)的提出6
2.2DPRIF的整合优势12
2.3DPRIF需要解决的若干问题..13
2.4本章小结14
第三章基于DPRIF的SOFM-SVM模型基础15
3.1自组织特征映射神经网络(SOFM)及其算法.15
3.2SVM基本原理及其基本模型..18
3.3整合SOFM-SVM模型22
3.4本章小结26
第四章基于DPRIF的SOFM-SVM模型局部分析和改进.27
4.1特征提取和聚类解释问题?
?
降维PCA处理27
4.2聚类数目与聚类有效性分析?
?
CMI算法..28
4.3噪声的过滤问题?
?
Anti-NO算法..30
4.4分类边界问题?
?
提取分类边界..33
4.5多类分类器的处理?
?
多类SVM34
4.6本章小结35
第五章基于DPRIF的整合SOFM-SVM模型在上市公司信用模式识别中的应用36
5.1应用背景36
5.2实证分析过程.37
5.3小结评价45
第六章结论与展望..46
参考文献.47
附录一:
2002年200只沪深上市公司股票数据(未经标准化)?
?
训练集51
附录二:
2002年78只沪深上市公司股票数据(未经标准化)?
?
测试集..56
在学期间发表的论文及科研成果58
致谢593第一章综述
第一章综述
1.1模式识别的概念及其内容
模式识别技术是20世纪六十年代初发展起来的一门学科。
它体现了一种“物以类聚”的
思想,它所研究的理论和方法在很多学科和技术领域得以广泛应用,推动了人工智能系统的
发展,扩大了计算机技术的应用领域。
模式(Pattern)是对象的适当抽象和表达。
模式识别(PatternRecognition)是一门研究
对象描述和分类方法的学科,即依据一定特征属性或标准,通过一定的方法和手段,使原本
凌乱涣散的对象得以归类研究,既便于从宏观上认识和把握已知事物的抽象化特征和共性,
更利于对未知的、未来的新事物做出推断。
它的研究对象和对象的属性值有多种类型,如信
号系统、图象系统、符号系统和数值系统等,一般较为常见的是数值型对象,起对应的方法
也比较多,而且很多其他形式的对象及其属性值可相应转换成数值类型。
所以,本文所指的
模式对象主要是数值数据。
相应地,数据模式识别定义为:
从数值型属性对象中进行模式发
现、描述、分类的过程。
模式识别的方法有多种,但其目标是要在表示空间和解释空间中找到映射关系,为达此
目的,一般有两类方法:
1、无监督学习、数据驱动、归纳的方法:
事先没有关于样本类别的先验知识,通过一种有效的方法“发掘”样本的内在相似性而
进行分类,主要是各种聚类方法包括统计聚类、模糊聚类、神经网络聚类等;
2、有监督学习、概念驱动、演绎的方法:
在给定的模式下(有样本的类别信息)假定存在一个映射,用训练集与目标值对应以逼
近这个映射,主要是各种分类方法:
统计判决、神经网络分类、支持向量机分类等。
一个模式识别系统概图如下:
输入感知特征提取分类后处理结论或决策
1.2国内外研究现状
由于本文研究的思路主要集中在模式识别过程、方法的结构化整合和集成上,而整合的
框架和逻辑结构又是按从无监督聚类向有监督分类的方向推进的,所以对国内外研究现状的
综述主要集中在聚类和分类两方面技术发展,并一定程度上综述了这两方面的应用研究现状。
1.2.1国外研究现状
1.2.1.1统计模式识别方法的发展
国外的模式识别研究始于统计模式识别理论和方法的开创。
在早期研究阶段,Duda和
1第一章综述
[1][2][3]
Hart、Tou和Gonzalez、Fu等人把模式识别问题阐述为统计判决问题,即把模式识别问
题表示成多维空间中的密度函数的估计问题,并在多维空间中划分类别或区域,这些判决超
平面是通过合适的判决函数来表示的。
[16]
在聚类分析的研究方面,Hartigan(1975)较为系统地分析了聚类的典型目的,认为
聚类是为了“获得数据的有用概括和解释”,指出将数据从聚类性质方面解释取代了将其从单
独的属性方面解释的重要性。
根据一定模式的相似性测度(如各种距离测度、相似性测度、
匹配测度)和样本在聚类中的积聚规则,迄今在统计模式识别领域已发展了很多种聚类方法,
比较常用的有:
系统聚类法、动态聚类法(C-均值法及其改进)、ISODATA法(K-均值法及
[17~20]
其改进)。
随着模糊集合论的兴起,Bezdek和Dunn(1987)等人也开始把模糊处理方法
引进聚类分析(如C-均值模糊聚类法),此后人们提出了多种模糊聚类方法。
在聚类的有效
性分析方面,国外研究偏向于利用聚类价值指数来反映类内相异程度的,其中McIntyre和
[21]
Blashfield(1980)提出了一种称为“复制分析”(类似于交叉有效性分析)的有效性检验
[15]
方式;此外,Milligan(1996)还提出了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 模式识别 整合 框架 SOFMSVM 模型 及其 应用