数学建模竞赛B题论文.docx
- 文档编号:30167392
- 上传时间:2023-08-05
- 格式:DOCX
- 页数:19
- 大小:154.51KB
数学建模竞赛B题论文.docx
《数学建模竞赛B题论文.docx》由会员分享,可在线阅读,更多相关《数学建模竞赛B题论文.docx(19页珍藏版)》请在冰豆网上搜索。
数学建模竞赛B题论文
算法与纸片拼接复原模型的建立
摘要
传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
要完成破碎纸片的复原工作,需要对附件1中所给出的信息中找出所有纸片之间的关联。
首先,我们要对这些纸片输入MATLAB软件利用imread函数进行初步处理读取19张纸片的数据矩阵。
其次,利用纸张页边距这一特点对灰度值进行聚类分析可以选出一张纸片作为第一张基础拼接纸片。
最后,通过对前一张纸片矩阵的最右侧的一列数据和其余纸片矩阵最左侧的一列数据求吻合程度
的值,通过比较
的大小选出方差最小的一张纸片,并将其左侧与前一张纸片右侧拼接完成。
以此类推直到最后一张纸片也完成拼接复原工作。
最后由人工检验复原的结果,包括文字有无缺失、语句是否通顺等看拼接结果是否正确。
需要找出附件3中所给出的碎纸片之间的关联。
首先,将附件3中的纸片图片录入MATLAB软件,利用imread函数进行初步处理读取209张纸片的数据矩阵。
其次,利用纸张具有页边距的特点对灰度值进行聚类类分析,找出左侧留白的碎纸片,利用问题一中的方法将所有最左边碎纸片按顺序拼接复原好。
接下来,将这一列作为基础拼接列,用基础拼接列的第一张纸片的数据矩阵的最右侧的一列数据和其余纸片矩阵最左侧的一列数据求吻合程度
的值,通过比较
的大小选出方差最小的一张纸片,并将其左侧与前一张纸片右侧拼接完成。
以此类推直到最后一张纸片也完成拼接复原工作。
最后,由人工检验复原的结果,包括文字有无缺失、语句是否通顺等看拼接结果是否正确。
随着问题难度的加深,在前两问的基础上问题三不仅有纵向和横向的切割方法还涉及到英文文件的正反两面打印(一种情况是两面文字方向相同,另一种情况是两面的文字方向相反)的情况。
一方面,给拼接工作带来了很大的难度,另一方面正反面的粉碎情况可以对最后的拼接结果进一步检验。
通过对英语26个字母的书写格式进行分析,将附件5中的418张纸片录入MATLAB软件
关键词:
聚类分析,欧氏距离,旅行商
一、
问题重述
随着计算机技术的不断发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
我们需要对以下问题进行讨论:
1.对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
复原结果以图片形式及表格形式表达。
2.对于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
复原结果表达要求同上。
3.上述所给碎片数据均为单面打印文件,从现实情形出发,还可能有双面打印文件的碎纸片拼接复原问题需要解决。
附件5给出的是一页英文印刷文字双面打印文件的碎片数据。
请尝试设计相应的碎纸片拼接复原模型与算法,并就附件5的碎片数据给出拼接复原结果,结果表达要求同上。
二、问题分析
(一)问题一
本题我们以附件1为例。
要完成破碎纸片的复原工作,我们需要对附件1中所给出的一些看似毫无头绪的信息中找出所有纸片之间的关联。
由于需要按顺序从已经确定的第一张碎纸片开始依次匹配相邻的碎纸片,不仅需要建立一个循环的算法,考虑到如果是一个汉字被裁开的话,左右笔画的连续性会使得两边像素点的数值基本相似,做可能相邻边缘矩阵的数值差的平方和后会得到一系列数值,理论上最小的数值即为复原过程中相邻的碎纸片,如果循环结果不符合要求,则有可能是出现了左右边缘都为空白的矩阵,还要在此处人工根据文字的特点排出正确的顺序。
首先,我们要对这些纸片输入MATLAB软件利用imread函数进行初步处理读取19张纸片的数据矩阵。
其次,利用纸张具有页边距的特点,可以对每个纸片的灰度值进行聚类分析选出一张纸片作为第一张基础拼接纸片。
最后,通过对前一张纸片右侧矩阵的一列数据和其余纸片左侧矩阵的一列数据求纸片的吻合程度
,通过比较吻合程度
值的大小选出
值最小的一张纸片,并将其左侧与前一张纸片右侧拼接完成。
以此类推直到最后一张纸片也完成拼接复原工作。
在复原工作中我们需要做一些人工干预工作。
在读取好纸片矩阵后求算方差之间,我们需要人工选出编号为008的纸片作为基础拼接图片。
最后的拼接复原结果还需人工通过对拼接好的内容进行核对,包括文字有无缺失、语句是否通顺等来检验复原结果是否正确。
(二)问题二
类似问题一的求解过程。
本题我们以附件3为例。
要完成破碎纸片的复原工作,我们需要对附件3中所给出的一些看似无关的信息中找出所有纸片之间的关联。
由于需要按顺序从已经确定的纸片拼接基础列,再开始依次匹配相邻的碎纸片,不仅需要建立一个循环的算法,考虑到如果是一个汉字被裁开的话,上下、左右笔画的连续性会使得四个边像素点的数值基本相似,做可能相邻边缘矩阵的数值差的平方和后会得到一系列数值,理论上最小的数值即为复原过程中相邻的碎纸片,如果循环结果不符合要求,则有可能是出现了左右边缘都为空白的矩阵,还要在此处人工根据文字的特点排出正确的顺序。
首先,我们要对这些纸片输入MATLAB软件利用imread函数进行初步处理读取209张纸片的数据矩阵。
其次,使用MATLAB软件对纸片灰度值进行聚类分析选出这些纸片中所有最左侧有留白的纸片作为基础拼接片段,并按照问题一中的方法将这些基础拼接片段拼接复原成基础拼接列。
接着,通过对第一张基础拼接片段的数据矩阵的最右侧的一列数据和其余纸片的数据矩阵的最左侧一列数据求纸片的吻合程度
,通过比较吻合程度
值的大小选出
值最小的一张纸片,并将其左侧与前一张纸片右侧拼接完成。
以此类推直到最后一张纸片也完成拼接复原工作。
在复原工作中我们需要做一些人工干预工作。
在读取好纸片矩阵后求算方差之间,我们需要人工选出编号为的纸片作为基础拼接列。
最后的拼接复原结果还需人工通过对拼接好的内容进行核对,包括文字有无缺失、语句是否通顺等来检验复原结果是否正确。
(三)问题三
三、模型假设与符号说明
(一)模型假设
假设一:
纸张粉碎机的工作性能及各项指标稳定。
假设二:
每张纸片都是被均匀粉碎的。
假设三:
每张纸片经过粉碎时没有损耗。
(二)符号说明
纸片之间的吻合程度
四、模型建立与求解
(一)问题一
对于问题一给定的来自同一页印刷文字文件的碎纸机破碎纸片中纸片的复原工作所涉及到的问题有:
纸张之间的吻合程度对拼接效果的影响,人工干预对拼接效果的影响,需要按顺序从已经确定的第一张碎纸片开始依次匹配相邻的碎纸片,不仅需要建立一个循环的算法,考虑到如果是一个汉字被裁开的话,左右笔画的连续性会使得两边像素点的数值基本相似,例如根据编号为007和208的两张纸片的两侧像素点的一些特征可以判断这两张纸片是可以完成吻合拼接的。
做可能相邻边缘矩阵的数值差的平方和后会得到一系列数值,理论上最小的数值即为复原过程中相邻的碎纸片,如果循环结果不符合要求,还要进行人工干预。
针对以上问题我们模型的建立需要分以下步骤进行。
图1.编号为007与208的纸片拼接图
以图1.中的“民”字的拼接为例,007右侧“民”字的灰度值和208左侧“民”字的灰度值为
21
0
0
155
255
255
255
255
219
0
0
0
219
255
255
255
255
145
0
37
255
255
22
0
0
155
255
255
255
255
219
0
0
0
219
255
255
255
255
145
0
37
255
255
第一步:
数据的录入。
我们要对附录1中纸片编号为000、001、002、003、004、005、006、007、007、008、009、010、011、012、013、014、015、016、017、018的图片导入MATLAB软件中,利用MATLAB软件中的imread语句读成表示各个位置点的数值化矩阵,将19个纸矩阵按原顺序排列,组成总的数值化矩阵。
第二步:
选择基础纸片。
利用纸张具有页边距的这一特点,使用MATLAB软件对每张纸片的灰度值进行聚类分析,最后我们选出了编号为008的纸片作为第一张基础拼接纸片。
第三步:
计算两张纸片的吻合程度
的值。
通过对前一张纸片右侧矩阵的一列数据和其余纸片左侧矩阵的一列数据对应相减求出对应的差平方,最后将这一列差平方累加得出
的具体值。
第四步:
比较吻合程度
值的大小。
选出
最小的一张纸片,并将其左侧与前一张纸片右侧拼接完成。
以此类推直到最后一张纸片也完成拼接复原工作。
制作程序见附录1。
第四步:
人工检验。
对拼接好的内容进行核对,包括文字有无缺失、页面左右两侧是否有文字的残余、两侧留白是否合理、语句是否通顺等后得出正确的拼接图片见附录2。
附件2中英文文件纸片的拼接复原方法同理,得出拼接图片见附录2,附件1的拼接顺序见表1,附件2的拼接顺序见表2.。
表1.附件1的拼接表
008
015
013
016
004
011
003
017
002
005
006
010
014
019
012
008
018
001
007
表2.附件2的拼接表
004
007
003
008
016
019
012
001
006
002
010
014
011
009
013
015
018
017
005
根据表1.和表2.的信息可以很清晰的看出附件1和附件2中纸片的拼接顺序。
按照此顺序人工可以轻松地将附件1和附件2中的纸片拼接复原。
手工拼接复原同时也对此模型的结果做了进一步的验证。
运用此方法可以高效率的处理这一类粉碎机单向粉碎纸张的拼接复原工作。
(二)问题二
对于问题二,被碎纸机纵向和横向粉碎的一页印刷文字文件碎纸片中纸片的复原工作所涉及到的问题有:
纸张之间的吻合程度对拼接效果的影响,人工干预对拼接效果的影响,需要按顺序从已经确定的第一张碎纸片开始依次向下匹配相邻的碎纸片形成一列基础拼接列,不仅需要建立一个循环的算法,考虑到如果是一个汉字被裁开的话,上、下、左、右笔画的连续性会使得四边像素点的数值基本相似,做可能相邻边缘矩阵的数值差的平方和后会得到一系列数值,理论上最小的数值即为复原过程中相邻的碎纸片,如果循环结果不符合要求,还要进行人工干预。
针对以上问题我们模型的建立分以下几步:
第一步:
数据的录入。
我们要对附录3中纸片编号从000到208的图片导入MATLAB软件中,利用MATLAB软件中的imread语句读成表示各个位置点的数值化矩阵,将209个纸矩阵按原顺序排列,组成总的数值化矩阵。
第二步:
每一行的拼接。
1.确定纸张四周的图片
利用纸张具有页边距的这一特点,使用MATLAB软件对每张纸片的灰度值矩阵进行分析,通过排列每张图片的四周灰度值整列全为255的行数,确定其四周的页边距。
然后对不同位置的页边距进行排序,可以找出所有图片中最左侧的十一张图片,以及最右侧的十一张图片。
同样,可以用此办法找出最上边和最下边的各十九张图片。
然后通过相邻两边的共有图片确定四个拐角处的图片。
2.对所有纸条进行大致分组
通过对最左侧图片的灰度值矩阵进行分析,可以大致找出行首图片中行间距的大致位置,然后通过对每一张图片检索,找出对应位置灰度值全为255的所有图片,归结为一类。
同样用此办法,可以确定,每一行的大概分类。
3.对每一行的排序
对第一列的所有图片进行分析,通过matlab确定第一列图片的灰度值的最后一列。
比较这一行所有图片灰度值的第一列,通过欧氏距离确定相似度,然后对相似度进行排序,取数值最小者为该行的第二个图片。
然后通过第二张图片的最后一列确定第三张图片直至某张图片灰度值最后一列全为255。
同时通过最后一列的图片的灰度值确定前一张图片直至某张图片灰度值第一列全为255。
这样就确定了该图片每一行的结果。
第三步:
组行成页。
由上一步可以得知每一行的排列结果,可以分为两种情况:
1.该行图片灰度值的最后一列不全为255,即这行图片与下一行图片有文字上的交集。
这样可以通过欧氏距离计算该行图片灰度值的最后一列与每一行的第一列之间的相似度,就可以知道每行图片为该行的下一行。
2.该行图片灰度值的最后一列全为255,即这行图片与下一行图片没有文字上的交集。
这样可以使用matlab确定这行图片底部灰度值全为255的行数。
由于两行文字中的行间距约为27,可以计算出下一行图片文字与顶部的大概距离。
从而可以确定下行图片。
第四步:
人工干预工作。
1.找出图片四个拐角的具体编号。
2.在大致确定每一行的排列顺序时需要通过人工干预准确的对各个片段进行配对,并对拼接好的内容进行核对,包括文字有无缺失和错误、页面左右两侧是否有文字的残余、两侧留白是否合理、语句是否通顺等后得出正确的拼接图片,附件3中的中文文件拼接结果见表3.附件4中的英文文件拼接顺序见表4。
最终的拼接程序见附录3。
表3.附件3中中文文件纸片拼接顺序
049
054
065
143
186
002
057
192
178
118
190
095
011
022
129
028
091
188
141
061
019
078
067
069
099
162
096
131
079
063
116
163
172
006
177
020
152
036
168
100
076
062
142
030
041
023
147
191
050
179
120
086
195
026
001
087
018
038
148
046
161
024
035
081
189
122
103
130
193
088
167
025
008
009
105
074
071
156
083
132
200
017
080
033
202
198
015
133
170
205
085
152
165
027
060
089
146
102
154
114
040
151
207
155
140
185
108
117
004
101
113
194
119
123
014
128
003
105
082
199
135
012
073
160
203
169
134
039
031
051
107
115
176
094
034
084
183
090
047
121
042
124
144
077
112
149
097
136
164
127
058
043
125
013
182
109
197
016
184
110
187
066
106
150
021
173
157
181
204
139
145
029
064
111
201
005
092
180
048
037
075
055
044
206
010
104
098
172
171
059
007
208
138
158
126
068
175
045
174
000
137
053
056
093
153
070
166
032
196
表4.附件4中英文文件纸片拼接顺序
011
154
190
184
002
104
180
064
106
004
149
032
204
065
039
067
147
170
196
198
094
113
164
028
103
091
080
101
026
100
006
017
028
146
107
029
040
158
186
098
024
117
150
005
059
058
092
030
037
046
127
093
141
088
121
126
105
155
114
176
182
151
022
057
202
071
165
082
001
129
063
138
153
053
038
123
120
175
085
050
160
187
097
203
031
108
116
136
073
036
207
135
015
076
043
199
045
173
079
161
179
143
007
049
061
119
033
142
168
062
169
054
192
133
118
189
162
197
112
060
014
068
174
137
195
008
047
172
156
096
023
099
122
090
185
109
095
069
167
163
166
188
111
144
206
003
130
034
013
110
025
027
178
066
205
010
157
074
145
083
134
055
018
056
035
016
009
183
152
044
128
200
131
052
125
140
193
087
089
048
072
012
177
124
000
102
115
(三)问题三
表5.附件5文件正面拼接顺序
136a
47b
20b
164a
81a
189a
29b
18a
108b
66b
110b
174a
183a
150b
155b
140b
125b
111a
78a
5b
152b
147b
60a
59b
14b
79b
144b
120a
22b
124a
192b
25a
44b
178b
76a
36b
10a
89b
143a
200a
86a
187a
131a
56a
138b
45b
137a
61a
94a
98b
121b
38b
30b
42a
84a
153b
186a
83b
39a
97b
175b
72a
93b
132a
87b
198a
181a
34b
156b
206a
173a
194a
169a
161b
11a
199a
90b
203a
162a
2b
139a
70a
41b
170a
151a
1a
166a
115a
65a
191b
37a
180b
149a
107b
88a
13b
24b
57b
142b
208b
64a
102a
17a
12b
28a
154a
197b
158b
58b
207b
116a
179a
184a
114b
35b
159b
73a
193a
163b
130b
21a
202b
53a
177a
16a
19a
92a
190a
50b
201b
31b
171a
146b
172b
122b
182a
40b
127b
188b
68a
8a
117a
167b
75a
63a
67b
46b
168b
157b
128b
195b
165a
105b
204a
141b
135a
27b
80a
0a
185b
176b
126a
74a
32b
69b
4b
77b
148a
85a
7a
3a
0
0
0
9a
0
145b
0
0
82a
0
205b
0
0
15a
0
101b
0
118a
0
129a
0
0
62b
0
0
52b
0
0
71a
0
0
33a
0
119b
160a
95b
51a
48b
133b
23a
54a
196a
112b
103b
55a
100a
106a
91b
49a
26a
113b
134b
104b
6b
123b
109b
96a
43b
99b
表6.附件5文件反面拼接顺序
078b
111b
125a
140a
155a
150a
183b
174b
110a
066a
108a
018b
029a
189b
081b
164b
020a
047a
136b
089a
010b
036a
076b
178a
044a
025b
192a
124b
022a
120b
144a
079a
014a
059a
060b
147a
152a
005a
186b
153a
084b
042b
030a
038a
121a
098a
094b
061b
137b
045a
138a
056b
131b
187b
086b
200b
143b
199b
011b
161a
169b
194b
173b
206b
156a
034a
181b
198b
087a
132b
093a
072b
175a
097a
039b
083a
088b
107a
149b
180a
037b
191a
065b
115b
166b
001b
151b
170b
041a
070b
139b
002a
162b
203b
090a
114a
184b
179b
116b
207a
058a
158a
197a
154b
028b
012a
017b
102b
064b
208a
142a
057a
024a
013a
146a
171b
031a
201a
050a
190b
092b
019b
016b
177b
053b
202a
021b
130a
163a
193b
073b
159a
035a
165b
195a
128a
157a
168a
046a
067a
063b
075b
167a
117b
008b
068b
188a
127a
040a
182b
122a
172a
003b
007b
085
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 竞赛 论文