美国数学建模模竞赛B题分析及优秀论文讲评.docx
- 文档编号:8012381
- 上传时间:2023-01-27
- 格式:DOCX
- 页数:18
- 大小:1.19MB
美国数学建模模竞赛B题分析及优秀论文讲评.docx
《美国数学建模模竞赛B题分析及优秀论文讲评.docx》由会员分享,可在线阅读,更多相关《美国数学建模模竞赛B题分析及优秀论文讲评.docx(18页珍藏版)》请在冰豆网上搜索。
美国数学建模模竞赛B题分析及优秀论文讲评
读书报告
2012年国际数模竞赛C题
陈润泽李思瑾颜颖
摘要
本题是要我们从八十二名成员中根据给出的业务信息(Message)找出犯罪团伙的同谋和领导人。
这是一道典型的图论题,其信息量之大、成员间关系之复杂着实让人感觉毫无头绪。
本着简化问题的原则,我们组在阅读论文之前进行了深入思考,并建立了自己的模型。
首先,我们运用了布尔代数(BooleanAlgebra),将每个话题被谈论的与否表示为1和0,即如果某个话题被某人谈论,则其相应位置的值为1,反之为0。
最后得到每个成员后都跟上一个15位只有0和1的数(其中的每一位都代表一个话题)。
然后设定一个15位的布尔数,其三个可疑话题的位置为1其余位置为0。
再同每个成员对应的布尔数做and(与)运算,可选出存在可疑话题的成员,即我们需要研究的对象。
在对选出对象按优先次序排列的过程中,我们主要进行了以下两个步骤。
1.我们给出三个可以话题中每个话题被同谋者谈论的概率(如:
若可疑话题一的概率为0.5,则谈论这个话题的人有50%的可能性为同谋者)。
然后对研究对象进行加权求和,根据所得进行排序。
2.我们对每个人与已知同谋者的相关性进行了分析。
以每个话题在每个人的业务信息出现的概率为维,对于每个研究对象建立一个15维的向量。
然后利用余弦定理,将每个研究对象的向量同已知同谋者的向量的夹角余弦值求出,再取平均数。
在既得排序的基础上,按降序对夹角进行排序,最后剔除已知非同谋者,即可按照排序结果确定犯罪团伙的领导人以及每个成员是同谋者的可能性。
一、问题重述与理解
1.1问题重述
题目的背景是ICM组织在进行对一项密谋犯罪的调查。
已知罪犯和嫌疑人都在一家大公司的一个综合办公室里工作,公司里有82名成员,其中有7名已知同谋和8名已知非同谋。
ICM最近掌握了82名员工的一部分信息,并且想通过对信息的分析找出同谋以及犯罪组织的领导。
所有信息中包含15个话题,其中有3个可疑话题。
而且,只要成员的交流信息中包含可疑话题的,其可疑性便增加一些。
最后要统计每个人的可疑性,然后根据自己设定的嫌疑人指标(即当可疑性大于某一值时即可确定是同谋)确定同谋以及犯罪组织的领导。
题目给出的要求有:
1.减少误判,提高准确度。
2.按照同谋的可能性大小建立模型和算法,把节点区分优先次序。
3.已知三个高级管理人员Jerome,Delores,Grechen.(就暗示我们这三个人之中肯定有一个是同谋者的高级领导。
)
4.还要求你的方法有普适性(不限于犯罪阴谋和消息数据),尤其是数据非常庞大的时候。
5.更深入的进行消息内容的网络,语义和文本分析对模型建立的帮助。
1.2问题分析
和2012A树叶那道题相比,反差巨大。
2012A思路不是固定的,而本题的思路基本就是固定的。
考察就是数据处理,和细节的处理。
我们组分析本题属于的范畴有:
图论,信息论,人工智能。
而更加偏向图论一点,同时涉及到对庞大信息的处理。
对于处理图论的问题,
我们首先想到的是:
1.怎样确定嫌犯?
2.根据每个人的信息的主题来确定嫌疑可能性;
3.每个人嫌疑可能性的统计与计算;
4.根据嫌疑可能性的高低确定嫌犯;
5.还有考察考生对信息的处理;
此外,题目中不断强调两个算法:
(语义网络分析和文本分析)必须使用这两个算法,我们查找了几篇文献和网上的资料,以对其有宏观的了解。
1.语义网络分析:
语义网络是一种知识的图解表示,是面向知识的语义结构,以网络的形式来实现。
许多情报问题都会有事实、数据以及推理关系,充分利用语义网络的自然性、联想性、高效性等优点,尝试在情报分析工作中应用语义网络是有一定实用价值的。
(顾永跟、朱玉楷,“一种语义网络情报分析模型的研究和应用”,学林出版社,1999)
2.文本分析:
指的是有一定的符号或符码组成的信息结构体,这种结构体可采用不同的表现形态,如语言的、文字的、影像的等等。
由文本内容分析,可以推断文本提供者的意图和目的。
文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。
将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。
(
两种有关信息的分析方法都强调把抽象的文本信息转换成具体可视的数学网络模型,本题即使用的这种建立节点主题信息网络的方法,优点是便于理解,便于计算机进行运算。
我们通过思考得知,可能有一些(大部分)指定的沟通员只是传话者,所以题目中给定的非同谋者一定是这一部分人。
(因为如果给定的已知非同谋者是和嫌疑主题不搭边的人,所有人都可以看得出来,则没有给出的必要了。
)中间的大部分罪犯确定比较容易,困难的是:
高级领导的确定和中间传话人的确定。
此外,题目中给定的例子有方法指引性作用,须在认真研究过之后在开始设想自己想建立的模型,因为模型大概框架基本已经给定。
我们组进行了深入的思考,查阅了相关资料与信息,设想如果要我们真实的来做,我们会采取如下的思路:
因为本题的数据量极为庞大,所以如果照搬题目给定的研究方法,则工作量之大可以想象,所以我们需要建立一个形式上简单,方法上比较容易操作的模型,于是我们就想到了信息论里面最重要的两个数学原理:
布尔代数和余弦定理。
我们跳出了建立庞大复杂网络图的桎梏,尝试采用以各节点为单位,并给个节点附加相关主题信息,最后再通过筛选来最终确定犯罪嫌疑人。
我们的步骤如下图所示:
先解释下我们所用的余弦定理:
假设两嫌疑人的特征主题向量分别为
则两人关于主题的相似度就可以用两向量的夹角余弦值来代表,即
则此余弦值越接近1,则表明两人关于主题的相似度越大,利用这个方法可以对犯罪嫌疑人的犯罪可能性进行量化排序。
θ
θ
Cosθ较大,故相似度较高
Cosθ较小,故相似度不高
二、优秀论文品读
2.1论文一(12218)
这篇论文摘要内容丰富,要点突出(其实个人觉得一般的写作模式都是,做了什么工作得到了什么结论。
过程要写的有条理,得出的结论一定要突出)。
该小组在解决问题的过程中主要运用了SNA(socialnetworkanalysis)和Relatedtechniques的方法。
主要的解题思路如下:
通过合作距离度量的方法得出prioritylist,找出排名靠前的成员,确立了十二名同谋者。
然后通过对每个人领导才能的分析得出领导才能的rankinglist。
最后,结合两份list,找出既是同谋者又在领导才能的rankinglist中排名第一的成员,该成员便是犯罪组织的领导者。
最后通过建立空间向量来检验模型的正确性。
通读全文,找出主要优点及值得我们借鉴的地方有:
1.在论文的开头列举了小组所完成的工作;
2.有Definition,建模之前进行了一系列的知识准备来支撑自身的模型,是自身的模型更好解释也更容易理解;
3.对模型准确性的验证很到位。
带入了实例得到了数据结果并对结果进行了分析很好的验证了模型的准确性。
得出了结果,可能的同谋者是:
同时也发现了一些不足:
假设没有相关的解释
总的来说,该小组在解决问题的过程中思路清晰,而且所用了方法专业性较强,体现了良好的图论和数学功底(说实话有些地方是没看懂)。
在论文写作方面,层次清晰、结构严谨、要点突出,值得我们学习借鉴。
2.2论文二(13215)
从摘要中了解到该小组为解决问题建立了四个模型,其中前三个是为了得出优先次序,最后利用第四个模型找出犯罪组织的可能的头目。
在第一个模型中,该小组将每个人的可疑信息和其与已知同谋者之间的业务信息综合考虑,从而确定一个能衡量某个人是同谋者的可能性的复合指标。
在第二个模型中,该小组基于全概率公式(
)指出每个人是同谋者的可能性是与其直接相连的成员可能性的加权求和。
然后他们还设计一个算法(
)来计算所有节点(即成员)的可能性。
在第三个模型中,该小组为了更好地衡量某个人与已知同谋者之间的关系,引入了图论中最短路径(
)的概念,从而通过算法2(
)确立一个指标来评估某个人是同谋者的可能性。
在第四个模型中,该小组在前三个模型的基础上,运用了Freeman向心性方法(
)建立了该模型,通过模型四找出了最有可能的三个犯罪团伙领导人,
其中Dolores是公司的高层领导。
最后,小组成员通过题中给出的EZ的例子验证了模型的准确性。
纵观全文,感觉小组成员分析问题很到位,解决问题的条理也很清晰。
整片论文要点齐全,结构完整。
而且论文中插入了大量图表信息,使研究结果一目了然,很有说服力。
在论文写作方面,要点很突出,特别是摘要部分,建模的原因以及通过建模解决什么问题都说的很清楚,值得我们小组深入学习。
2.3论文三(13855)
该小组主要运用了迭代的方法解决问题。
模型中有很多种迭代,但大致都分为两个过程:
1.Personphase:
基于每个成员相邻成员的嫌疑性和与相邻成员的交流的信息计算其嫌疑性。
2.Topicphase:
基于谈论该话题的成员的嫌疑性计算每个话题的可疑性。
同时还引入了指数衰减量来对模型进行修正。
该小组的创新之处在于考虑了每个话题的可疑性,即用每个谈论该话题成员的可疑性表征话题的可疑性,增加了模型的准确性。
看完这篇论文后,找出了一些值得我们借鉴的要点:
1 对每一步都有详细的说明,即实施这一步骤的目的以及所得到的结论;
迭代求出cDRS和cDRR的过程:
S函数的推导:
计算Si:
ExponentialDecay
从中也可以看出该小组在解决问题的过程中条理清晰,层层深入,换换相扣;
2 建模过程由表及里、由浅入深,让模型更容易理解;
以上便是在介绍指数衰减量之前考虑的一种较为简单的情形。
3 对模型的分析很到位,尤其注重了模型是否满足题中的要求;
4 进行了敏感性分析
总的来说这篇文章通过一种新颖的方法解决相关问题,其中所包含的算法思想和解题思维值得我们每个人去深入思考。
2.5论文五(15356)
首先提出题目中给定的方法不适用于非常庞大的信息量,就是要自己再提出一种更为高效的方法。
摘要写的很好,层次感十分强,并且全面地总结了模型的特点,并全面回答了题目所提出的问题,仅仅看到摘要都能感觉这篇论文距离得o奖不远了。
和大作数优秀论文一样,本篇论文开篇介绍部分就详细的列出了经过分析后题目要考察的关键点,并清清楚楚的列举出来,让人首先有个宏观的方向,并对理解论文起到非常好的效果。
本文的亮点之一就是在叙述假设条件、建立模型之前,先进行了数据观察与基础统计分析:
并得到两条结果:
1,尽管同谋者比非同谋者要活跃,但是他们不可避免的也要传递非嫌疑的主题,故可疑的主题仅仅占了信息网络的一小部分。
2、结果显示7名同谋者就已经涉及到百分之40的阴谋可疑信息,故总同谋者人数很有可能不超过20人。
3、很重要的一点就是要区分涉及可疑主题的人中的一般员工与真正嫌犯,作者得到结果不同人对可以信息的反应程度不一样,可以以此为据来辨别这两者。
首先建立了基本的可疑性排序模型(iRankModel)来根据是否为同谋者的可能性大小给嫌疑人排序,并判断公司主要领导人是否为同谋者头领。
首先进行初始化,即给定未知个体的初始嫌疑等级:
接着建立了排序函数和节点的相似性度量函数:
但个人感觉这里的函数进行的过于繁琐,相比之下,我们开始想的余弦定理和布尔代数的方法的简洁性和可行性要更加高一些。
第二步,根据已知同谋者和非同谋者,假设某节点的嫌疑性由相邻节点据顶,修改未知节点的嫌疑度。
最终确定了各个节点的嫌疑程度,并通过分析样例中的数据,进行了参数评估,并用计算机求解,得到最终结果。
最重要的是leader的确定,首先进分析,提出了组织领导者行为的假设:
领导者一定是连接不同子群的中间纽带;领导者多与子群的头领交流而不是与一般同谋进行交流;子群的头领同时又担任着领导者与一般同谋者之间的纽带。
经过分析得到最有可能的领导者16号Jerome和10号Dolores。
并得出可视化结果和优缺点分析。
虽然题目没有给出原始文本信息,但该小组仍然利用样例为例,对文本信息进行了语义网络分析和文本分析,提出部分较含糊或者奇怪的语言信息可能是作为同谋者之间的秘密口令,还有要对表示情感的词语足够敏感。
旨在给每个嫌疑主题信息进行加权处理,得到更加精确地关系网络图,使得结果更加可靠。
最后对先前的模型进行修改,建立了最终的数学模型。
这篇论文的亮点有:
1.摘要写的很典型,层次感十分强,并且全面地总结了模型的特点,并全面回答了题目所提出的问题,单凭摘要就已经显示了得大奖风范。
2.在提出假设之前,先对样例问题进行相关的分析,然后得出假设,这样的假设才会让人觉得有理有据,不会有强迫接受的感觉。
3.由浅到深,将复杂的问题先简单化,基本建立模型的大体框架,然后利用语义网络分析和文本分析在进行细化处理,最后得到最终的数学模型。
2.6论文六(16075)
本文总的线索是根据题目给定的四个requirements来建立模型并进行相关修改于调整。
条理感和线索感极强。
基于合理的分析与假设,首先建立了基本的犯罪网络分析模型,把问题简单化和抽象化,分为两个主要问题:
在节点层面上,提出衡量每个人犯罪嫌疑程度的参数:
Degree:
即衡量每个人在信息网络中的活跃程度。
●Betweenness:
即刻一个人的信息交通量的大小,衡量本节点在整个信息交流网络中的枢纽关系。
●Closeness:
刻画整个犯罪子网络的联系紧密程度。
●最后将三者综合考虑,提出了Centrality:
接着在线的层面上,主要目标是找到罪犯头目,并建立最终的量化的数学模型为:
根据上述模型,用每个节点的两大特征centrality和CIC将所有的节点分为四种类型、并提出了作为领导者的关键特点:
交际性光但很少涉及嫌疑主题,以防引起别人的怀疑,但是这也会加大冤枉无辜者的概率。
得出结论,并用样例来检验模型的正确性。
以Dave为基准,得出节点嫌疑的可能性排名。
引用了Fisher的线性分类判别法和语义网络模型来修改相关条件和相关系数,提高了模型的精确性与正确性。
并进行了详细的模拟分析,罪犯的基本特征分析,领导者分析和三个可疑话题分析。
对上述所得的同谋者建立犯罪关系网络,并进行相关离散的分析,使结果更加严谨。
并对进罪犯高层领导人行了深层的分析。
最后进行了模型的拓展,以说明模型的普适性。
本篇论文的亮点有以下几点:
1.题目新颖,并且极具吸引力,这也是大部分优秀了论文一下子就能得到评委的关注的主要原因之一。
2.摘要以requirement为线索进行撰写,效果较好,达到阐述结果的目的,全面,层次感强,重点突出。
3.行文还体现出幽默感,大胆的提出题目的数据中可能有问题,令人耳目一新。
4.问题重述做的很到位,全面分析了问题,并概括性的提出来了题目考查的要点和自己要研究的方向。
5.文献综述中,能对文献做出客观的评价,提出现有文献的缺点不足,自然而然想到自己建立模型的方向,优秀论文常采用此思路进行撰写。
6.本文的条理性极强,每个部分的开头都会进行总述,是本文最大的亮点之一。
7.此外,本文能高效利用计算机软件,作图比较漂亮,增加论文的美感。
8.总的来说,论文的结构十分严谨,完全符合论文的各项标准,各个部分都做的详细具体,有理有据,有推导有结果。
把所有能做的工作都做到了极致,令人震撼。
另外本文有个小小的不足就是陈述假设的时候缺乏论证与理论依据,显得较为苍白。
2.7论文七(17160)
为了解决题目中提出的问题,全文共建立两个模型。
第一个为辅助模型,第二个是正式模型。
首先建立了类聚模型,该模型是基于含有83个节点的空间向量图上将整张图进行k划分,使得每个子图里面的节点间距为最小。
划分步骤为:
得出结果,解决了上面数据分析中提出的名字重复的问题。
第二个模型,电网模型的提出,体现了丰富的想象力。
将人际关系网络中的嫌疑信息传递抽象为电路中电流在节点中的流动,将嫌疑信息等效为1V电压,而非嫌疑信息等效为0V电压,再用通过节点的电流代数和来作为衡量该节点可疑性的标准。
建立二分电路图:
其中包含员工节点网络,信息主题,每条边连接员工和主题,权重为该支路的电导(电阻的倒数),并分别讨论了节点到信息的传导,节点到节点的传导,信息到信息的传导。
进行模型实现并得到运算结果:
为了检验结果的鲁棒性,该小组又进行了模型敏感性分析,测试方法为控制变量法。
具体为分别剔除已知的罪犯和可疑主题,再运行模型,观察结果的稳定性,得到结论不能仅仅根据与一个人关联的已知罪犯或者可疑主题就确定此人是否为罪犯,这样太过于唐突与武断。
所以更加周密的方法是:
假设与此节点关联的确定节点或主题为未知后,再进行判断,这样才会更加合理。
本文的优点:
1.把假设条件从死板的条条框框改为详细的数据分析,在一步一步的分析中逐步提出假设,显得思路清晰,并显示了强大的数据处理和分析的能力。
这种方法值得推广与学习。
2.论文中首先建立起的类聚模型,有特点的是,在此使用它不只是简单地将节点直接分类为是否为同谋者,而是解决上面数据分析中提出的问题:
某些数据传递给同样的名字,这些名字是否指的是同一个人,还有如何在之后的模型中更加高效的使用信息数据。
体现了提出问题并处理问题的能力。
将问题一步步分析,并不急着解答,而是先建模解决初步问题,最后在一步步地解决最终的问题。
3.测试数据的鲁棒性,并进行了模型敏感性分析,使简单易懂的控制变量法进行模型的测试。
并能达到预期效果。
三、思考与提高
通过优秀论文的研读,我们对问题有了更加全面的理解,并得到我们开始建立的模型的缺点如下:
1.没有考虑到语义网络分析和文本分析对模型修改和简化的作用。
2.我们仅仅考虑到了节点层面,没有进行进一步深化问题,即整个犯罪网络层面。
3.我们没有对犯罪高层领导人的特殊性和隐蔽性进行考虑。
通过对题目深入的思考和对优秀论文的阅读,我们将一个好的数学模型总结为:
1.形式上是简单的;
2.开始可能不如一个精雕细琢过的错误模型来的准确,但是如果认定大的方向是对的,就应该坚持下去;
3.大量准确的数据对模型的实际性检验非常重要;
4.正确的模型也可能会受到噪音干扰,而显得不准确,这时不能应用一种凑合的修正方法来弥补它,而是应该找到噪声的根源,这也许可以通往重大发现。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 美国 数学 建模 竞赛 分析 优秀论文 讲评