书签分享收藏举报版权申诉 / 10

立即下载加入VIP,免费下载

当前位置：首页 > 工程科技 > 能源化工 > 数据挖掘在信息披露中的应用翻译剖析.docx

数据挖掘在信息披露中的应用翻译剖析.docx

文档编号：5229640
上传时间：2022-12-14
格式：DOCX
页数：10
大小：711.45KB

《数据挖掘在信息披露中的应用翻译剖析.docx》由会员分享，可在线阅读，更多相关《数据挖掘在信息披露中的应用翻译剖析.docx（10页珍藏版）》请在冰豆网上搜索。

数据挖掘在信息披露中的应用翻译剖析.docx

数据挖掘在信息披露中的应用翻译剖析

数据挖掘在信息披露中的应

用——基于台湾股票市场投

资者服务角度

一、引言............................................................................................................................................1

（一）研究背景........................................................................................................................1

（二）研究意义........................................................................................................................2

二、文献综述....................................................................................................................................2

（一）信息披露........................................................................................................................2

（二）股权结构与信息披露....................................................................................................3

（三）数据挖掘........................................................................................................................3

（四）由决策树提取分类规则................................................................................................4

（五）提高精度........................................................................................................................5

三、实证研究....................................................................................................................................5

（一）数据准备........................................................................................................................5

（二）论文结构........................................................................................................................6

（三）实证结果........................................................................................................................7

一、结论..........................................................................................................................................10

二、论文评析..................................................................................................................................11

数据挖掘在信息披露中的应用——基于台湾股票市场投资

者服务角度

Chi-LinLuTa-ChengChen

摘要：

金融理论与实践在过去几十年已经证明无论公司监管的重要性——无论是公司经营还是保护投资者。

信息披露作为公司监管的一个关键环节，信息披露现状良好有助于有效地减少公司内部和外部信息不对称和代理成本。

然而投资者在下一年度官方报告出来之前很难评估上市公司信息披露的现状。

该研究的主要目的是挖掘上市公司（台湾股票市场）信息披露现状中的隐含知识模型。

本文主要的运用决策树算法探索对台湾股票市场上市公司的信息透明度水平进行分类的分类规则。

与此同时，利用boosting（提升）构建多分类器模型。

数据结果表明，多分类器模型降低了一类错误和二类错误，提高了分类精度。

特别地，数据挖掘的方法可以发展成类似于专家咨询系统用于预测上市公司信息披露现状并对其进行分类的计算机模型。

关键词：

信息披露；数据挖掘；分类规则。

一、引言

（一）研究背景

最近几年类似于美国安然公司和世界通信公司会计丑闻事件的爆发，对实务界和学术界都敲响了警钟——需要更加关注公司监管。

此类问题的出现大多是由于公司内部与外部信息不对称。

国际经济合作与发展组织（OECD）已经提出以公司监管作为直接的监管系统，通过透明度和效率机制实现公司价值最大化。

OECD在2004年发布了公司监管的6个原则，在这6个原则中，信息披露原则是保证内部和外部治理机制是否发挥作用的关键的原则。

内部和外部治理机制是由世界银行在1999年定义的，其主要内容如下：

内部控制包括董事会的监管、管理层的工资薪酬激励计划（避免产生委托代理成本）等；外部控制包括外部审计、政府和投资者监管等。

这两大监管发挥作用的效果大小依赖于公司信息披露的质量。

某些上市公司倾向于发公司有利的消息布对消息而隐瞒对自己不利的消息，该行为违背了信息披露准则，且存在隐瞒不利消息的上市公司往往已经出现财务问题。

全世界的股票市场当局应该对上市公司披露的信息进行监管和评估，以维护投资者和公众的利益。

1

（二）研究意义

信息披露不仅仅是将其年度评估报告和年度财务报告公布或者上传至网上。

根据美国《2002年公众公司会计改革和投资者保护法案》规定公司披露的信息在保证其准确性以外必须涵盖以下方面：

资产负债表外的业务、模拟财务信息、大股东的股票交易信息、管理层对内部控制的评估报告、首席执行官的职业资格、财务专家的意见等。

显而易见地是，普通投资者甚至专业投资者有时很难理解公司披露的信息，因而，我们永远无法知道披露的信息是否准确地描述了真实的情况，只有权威机构才能鉴别信息是否真实。

为更好地理解上市公司的透明度，台湾证券与期货交易所对所有上市公司的信息透明度水平进行了调查，尽管调查报告是年度报告，但是其经常花费超过一年的时间完成该工作。

因此，即使投资者在知道该过期报告后也不能做什么改变。

（信息公布不及时，信息具有时效性）。

同时，信息披露和公司的经营业务有明显的关系。

Chen，Jaggi（2000）和Eng，Mak（2003）利用数据挖掘的方法证明了信息披露状况和公司所有权、董事会构成、企业特征等存在联系。

本文应用数据挖掘技术发展了透明度评估方法，有助于投资者理解公司经营管理情况，及时地做出正确的投资决策。

本文的创新之处在于，之前很少有人将数据挖掘技术应用到该领域——用决策树方法挖掘股权结构和公司特征的数字特征，本文构建的模型可以及时地对处于不同股权结构和公司特征下的具有不同透明度水平的上市公司的信息披露现状进行预测和分类和预测，而不需要等待下一年度的官方报告，（与传统专家对信息披露状况进行事后评估相比，应用本文构建的模型进行预测和分类更具有时效性）。

二、文献综述

（一）信息披露

现代公司理论表明公司监管的主要问题是公众和公司内部信息不对称问题。

投资者希望上市公司公布高质量的信息的需求激发了对上市公司信息透明度需求。

信息透明度高的上市公司在股票市场上股票价格更高。

Ball，Brown（1968）应用事件研究法得出公布会计盈余对股票价格具有正向影响。

Amir

2

，Lev（1996）和Eng，Mak（2003）的研究成果表明财务信息对公司股票价格和公司价值有显著的正向影响。

Verrecchia（1983）指出信息披露可以应用于公司监管和减少代理成本的问题，尽管需要付出一些代价，但是投资者对信息透明度更高的信息更有投资信心。

Bushee和Noe（2000）研究信息披露和急购投资者的关系，结果表明机构投资者更倾向于投资透明度高的公司，而不是透明度较低的公司。

Sandeep,Amra,和Liliane（2002）通过对四大新兴市场的研究发现信息披露也是公司监管的重要一环。

以上研究表明，信息披露在公司监管中占有重要地位。

（二）股权结构与信息披露

股权结构决定了监控程度，从而决定了信息披露的程度，研究表明股权结构与信息披露之间存在着强相关关系。

Cerf（1962）证明信息披露程度和公司特征如公司规模、管理层持股比例，杠杆作用等之间存在显著关系。

最近关于信息披露和股权结构的实证研究表明公司监管和股票持股披露情况有显著关系。

Chen和Jaggi（2000）检验了独立非执行董事和信息披露状况的关系。

Eng

和

Mak（2003）概况了股权结构和信息披露的意愿的联系。

以上研究表明，股权结构会影响信息披露现状，但是没有解释如何影响信息披露。

（三）数据挖掘

数据挖掘经常被定义是挖掘隐含的、未知的、潜在的、有价值的信息的一种方法，它可以被看成一个在某些特定领域的知识发现的形式。

基于数据挖掘技术，将会建立可以进行预测和对主要问题进行分类的响应模型，比如像专家系统这样的模型。

现实研究中，很多问题都是非线性关系，因此很难形成一个较为全面的模型（一个考虑所有变量相互独立的传统统计模型）。

众所周知，得益于数据获取和存储速度快、便宜等优点，存储在数据库里的数据以惊人的速度增长，与此同时也使得知识模型越来越难被发掘和为实践服务。

如果数据挖掘技术能被应用到诊断信息披露和公司经营情况的关系中，投资者在投资时将会获得更多指导性意见。

最近，非线性和复杂机器学习方法已经得到运用，如神经网络法、支持向量机（SVM）、蚁群算法、遗传算法与SVM或者神经网络结合的方法、模糊理论和粗糙集理论结合等方法。

虽然上述文献论述了神经网络和支持向量机的重要意义，但无法建立模型和运用模型进行分类仍是上述研

3

究的主要缺陷。

在训练后的神经网络和支持向量机根据网络的内部分布赋权，其存在的主要问题是无法解释为什么这么赋权是有效的。

如果一个显性规则能被引入到赋权过程中而不是多层前馈网络赋权，则该规则对于隐含知识的获取是相当有价值的。

基于数据挖掘技术，Wei&Dong（2006）列出6种模型如下所列：

分类、聚类、关联规则、序列模式、估计和预测。

因此，当决策树模型用于解决分类问题时，与此相关的If-Then规则也被引入该模型。

本文决策树分类模型区分信息披露状况良好的公司和信息披露状况较差的公司。

分类规则可被用于构建一个标准分类规则模型，解决复杂问题的标准化问题。

Roiger&Geatz（

2003）运用multiple-model

方法提高分类精度。

这些数据挖掘方法已经广泛

应用销售、银行、医学、制造业、客户关系管理领域，但是应用数据挖掘技术分析上市公司的信息披露问题较为少见。

（四）由决策树提取分类规则

决策树在分类和预测中较为常用。

Han&Kamber（2006）指出以决策树为基础的分类并不需要行业信息和参数设置，因此，决策树分类是较为合适的知识挖掘的一种方法。

决策树是一种类似于流程图的树结构，其中内部结点（非树叶结点）表示一个或者多个属性的测试，终端结点反映决策结果。

显而易见，决策树可以转化为显式分类规则。

各种决策树算法在各文献中被广泛应用。

决策树归纳发展历程为：

20世纪70年代后期到80年代初期，Quinlan（1986）开发迭代二分器（ID3）,随后开发C4.5（ID3的后继），成为新的监督学习算法的性能比较基准。

1984年多位统计学家（L.Breiman,J.Friedman,R.Olshen和C.Stone（Han&Kamber,2006））出版著作《classificationandregressiontree（CART）》一书介绍二叉决策树的产生，CATR只支持一代二叉决策树即每个母节点最多只有两个子节点。

相反的，C4.5算法母节点可以生成两个以上的子节点即一个母节点可以生成各种各样的分支。

C4.5和CATR都采用非回溯方法这种自顶向下递归的分治方式构造的方法，但是C4.5应用树剪枝对数据进行筛选剔除分支中的噪声和训练数据中的异常值。

C4.5比其他决策树算法应用更广。

规则是表示信息和少量知识的好方法，基于规则的分类器使用一组If-

4

Then规则进行分类。

一个If-Then规则是一个如下形式的表达式：

IfThen结论（分类）。

条件

对于一个给定元组，如果规则前件中的条件（即所有的属性测试）都成立，则而我们说规则前件被满足（或者简单地说规则被满足），并且覆盖了该元组。

如果这些If-Then规则可以被提取，这意味着可将潜在和有价值的知识转化为显性知识。

这种If-Then规则可以从决策树规则中提取，且If-Then规则更易于理解，特别是决策树特别庞大复杂。

由决策树的每一个从根点到叶子节点的分枝都可以得到一条用于判断数据元组类别的规则。

每一个节点的分类标准是由逻辑连接词and构成的规则前件，规则的结论包含类预测。

逻辑词or用于元组分类时可按任意次序使用规则，每个规则之间是析取（or）关系，但是该种规则更难理解且结果更难解释，还可能会造成不相关和过度属性测试。

因此，为使规则集简明扼要，修剪规则集是很有必要的。

对于给定的规则前件，不能提高规则的估计准确率的任何条件都可以剪掉（即删除）。

C4.5具有对不必要规则的进行修剪从而提高分类精度的优势。

（五）提高精度

除了决策树中引入剪枝技术可提高精度以外，组合分类器也是常用方法之一。

bagging（装袋）和boosting（提升）是常用的组合分类方法。

两种分类方法都可用于分类和预测。

两种组合分类方法都把k个学习得到的模型（或者基分类器）组合在一起，创建一个改进的复合分类模型。

给定一个待分类元组，每个基分类通过返回类预测投票，组合分类器基于分类器的投票返回类预测。

处理未知数据分类的问题时，

与bagging（装袋）相比，boosting（提升）往

往得到更高的准确率（（Roiger&Geatz,2003）。

三、实证研究

本文研究运用SPSS中的C5.0ofClementine版块处理信息分类，C5.0是C4.5决策树算法的最新版本。

本文希望可以为投资者为评估台湾上市公司信息披露程度提供隐形知识（即发掘已披露信息中所隐含的信息），从而帮助投资者投资于好的公司。

（一）数据准备

5

根据Chen等研究，本文选择了17个和信息透明度可能高度相关的特征变量和1个信息披露变量。

数据来源TEJ资料库和证券暨期货市场发展基金会。

每个公司信息披露的数据包括18个变量（见表1）。

18个变量中的第一个变量是反映各公司信息披露现状的变量（好或者坏），在调查的389家公司里面，信息披露现状较好的公司有114家（占比29.31%），信息披露现状较差的有275家公司（占比70.69%）。

表1涵盖的主要内容为：

信息披露情况（由SFI发布）；

公司股权结构：

管理层，董事会，国外投资者，战略投资者，家庭，金融机构，独立董事，政府，机构投资者等持股比例；

公司经营情况：

资产负债率，每股收益，公司规模，经营方式（当家族经营时虚拟变量等于1，专业经理人经营时，虚拟变量等于0），研发费用与总资产的比率，总资产收益率（ROA），公司所处行业（当为电子行业虚拟变量取1，其他

6

行业取变量0）。

（二）论文结构

第一部分：

定义问题。

用已公布的数据和数据挖掘技术及时评估上市公司信息透明度，向投资者提供上市公司信息披露现状的报告。

第二部分：

收集数据和对数据进行预处理。

数据来源为数据来源TEJ资料库和证券暨期货市场发展基金会。

第三部分：

选择数据挖掘的方法。

用C5.0决策树算法挖掘可以作为评估上市公司信息披露现状的变量。

让投资者投资获取更多的利益和资金更安全。

应用Boosting（提升）组合分类器的C5.0决策树算法能提高分类精度。

第四部分：

分析数据挖掘的结果。

挖掘隐性知识并将其转化为显性的If—Then规则，投资者在股票市场做出更精确的决策。

（三）实证结果

1、分类规则提取

为将具有良好信息披露的公司从数据集中选择出来，C5.0决策树算法应用了14个分类规则（见表2）。

像第一部分描述的一样，良好信息披露是良好的公司监管的重要一环。

对上市公司信息披露现状进行精确的评估不仅有利于投资者做出及时有效的投资决策，也有利于督促上市公司提高其公司监管机制。

从表2可看出，公司规模和金融机构持股比例出现在决策树算法中的14个规则前件中，同时机构投资者持股比例和所属行业出现在前13个规则前件中。

因此，公司规模、金融机构持股比例、机构投资者持股比例和所属行业是评估一个上市公司的信息披露现状是否良好的重要指标。

国外投资者持股比例和家族持股比例是也是很重要的评估指标，分别有7个、6个前行规则包含了这两个指标。

7

这14个规则前件可以形成用于对公司信息披露现状进行分类的决策树模型。

同时，这些分类可以将隐性知识转化为显性知识。

更多的C5.0决策树算法结果见表3。

如表3所示，经过修正（剪枝）分类平均精度为91.00%，其中23个公司信息披露状况良好的公司被错误划分为信息披露状况较差类别，12个信息披露状况较差的公司被错误划分为信息披露状况好的类别。

8

2、提高分类精度

多层分类模型可以提高分类精度，boosting（提升）组合分类器在提高决策树分类精度上优于bagging（装袋）算法。

本文应用boosting（提升）组合分类器建立多层分类模型。

选取不同数量的基分类器（k取不同的值），分类效果不同，基分类器必须是提前设定的。

表4是不同的基分类器对应的多层分类模型的精度比较。

k的取值变化是3到11.当k增加时，精度不一定增加。

具有三个基分类器学习模型（k取3）分类精度最高（96.14%）。

K取奇数可以避免投票时出现票数一样的情况。

用基于boosting（提升）组合分类器的三分类器模型进行分类，分类结果见表5。

表5表明，平均修正分类精度由90.35%提高到96.14%。

其中19个公司信息披露状况良好的公司被错误划分为信息披露状况较差类别，4个信息披露状况较差的公司被错误划分为信息披露状况好的类别。

其精度明显比前一个决策树模型高。

9

为综合评估前面各模型的分类效果，必须考虑错误分类带来的成本（（Johnson&Wichern,2002;West,2000）。

一类错误是指将信息披露状况良好的公司错误的归为为信息披露状况较差的类别（弃真），二类错误是指将信息披露状况较差的公司错误的归为信息披露状况较好的类别（存伪）。

显然地，犯二类错误带来的成本明显高于犯一类错误带来的成本。

因此，在评估分类效果时，应该更加关注二类错误。

表6是单决策树模型和三分类器模型一类、二类错误比较。

三分类器模型的犯一类错误和二类错误的概率明显小于单决策树模型，因此，boosting（提升）分类精度高，犯一类、二类错误的概率低。

犯二类错误会带来成本巨大，因此，犯二类错误的概率一定要最小化。

四、结论

信息披露是保证公司内外部监管机制是否运行良好的重要关键。

如果信息披露状况与公司经营状况的关系可以被准确、快速地预测出来，那么股票投资者则可以有根据的投资，获取更多的利润。

基于数据挖掘的决策树方法筛选重要的因素和阈值，以此形成决策规则。

与数据挖掘中的神经网络法相比，决策树法具有能给出明确的分类规则的优势。

本文应用基于boosting（提升）决策树的组合分类器模型提高分类精度，实证结果也表明多重分类模型分类精度高于单棵决策树模型，犯一类、二类错误的概率低于单棵决策树模型。

因此，多重分类模型是能够代表专家意见的规则，为有效地评估台湾股票市场的信息披露问题。

通过应用基于规则的决策树模型，投资者和公众能够及时、准确地评估公司经营现状，获得更多投资回报。

只有及时有效的信息才能帮助投资者做出正确的投资决策，本文研究成果对于投资者有深远意义。

感谢：

该研究由国家科学委员会（台湾）支持，项目编号NSC96-2221-E-150-

10

005.

五、论文评析

一方面，该文分析比较数据挖掘技术中的神经网络法、支持向量机（SVM）、蚁群算法、遗传算法与SVM或者神经网络结合的方法、模糊理论和粗糙集理论结合等方法应用领域和优缺点。

综合考虑规则提取和提高精度问题，该文选择数据挖掘技术中的boosting（提升）决策树的组合分类器模型提取分类规则，将隐含知识转化为显式分类规则，从而对上市公司信息披露现状行分类和预测，是数据挖掘在信息披露评估中的一大应用。

另一方面，本文通过应用数据挖掘技术中的多层分类模型应用到金融证券领域的信息披露中，将反映上市公司的信息披露现状年度报告等较难理解的专业术语转化为较为简单易懂且能及时反映上市公司经营现状的数字指标，有助于投资者和公众能够及时、准确地评估公司经营现状，获得更多投资回报；有助于推动跨领域研究和应用，将数据挖掘甚至其他领域地知识应用到金融行业的研究中。

11