第5章信息资源管理的技术Word格式.docx
- 文档编号:20238554
- 上传时间:2023-01-21
- 格式:DOCX
- 页数:43
- 大小:221.59KB
第5章信息资源管理的技术Word格式.docx
《第5章信息资源管理的技术Word格式.docx》由会员分享,可在线阅读,更多相关《第5章信息资源管理的技术Word格式.docx(43页珍藏版)》请在冰豆网上搜索。
1、键盘录入
人工键盘输入是指用手工击键方式按照一定的规则把汉字输入到计算机,目前已有数百种键入方案。
2、语音识别
计算机语音识别过程与人对语音识别处理过程基本上是一致的。
目前主流的语音识别技术是基于统计模式识别的基本理论。
一个完整的语音识别系统可大致分为三部分:
(1)语音特征提取:
其目的是从语音波形中提取出随时间变化的语音特征序列。
(2)声学模型与模式匹配(识别算法):
声学模型通常将获取的语音特征通过学习算法产生。
在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。
(3)语言模型与语言处理:
语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。
语音识别系统可以根据对输入语音的限制加以分类。
从说话者与识别系统的相关性考虑,可以将识别系统分为三类:
(1)特定人语音识别系统:
仅考虑对于专人的话音进行识别,与讲话的语种没有关系,什么语言都可以识别;
(2)非特定人语音系统:
识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习,识别的语言取决于采用训练语音库;
(3)多人的识别系统:
通常能识别一组人的语音,该系统通常要求对该组人的语音进行学习,通常可以识别3~5个人的语音。
从说话的方式考虑,也可以将识别系统分为三类:
(1)孤立词语音识别系统:
其输入系统要求输入每个词后要停顿;
(2)连接词语音识别系统:
其输入系统要求对每个词都清楚发音,开始出现一些连音现象;
(3)连续语音识别系统:
连续语音输入是自然流利的连续语音输入,会出现大量的连音和变音。
从识别系统的词汇量大小考虑,还可以将识别系统分为三类:
(1)小词汇量语音识别系统,通常包括几十个词。
(2)中等词汇量的语音识别系统。
通常包括几百个词到上千个词。
(3)大词汇量语音识别系统。
通常包括几千到几万个词。
这些不同的限制也决定着语音识别系统难易程度。
语音识别过程实际上是一种认识过程。
就像人们听语音时,并不把语音和语言的语法结构、语义结构分开,因为当语音发音模糊时,人们可以用这些知识来指导对语言的理解过程。
对机器来说,识别系统也要利用这些方面的知识,只是有效地描述这些语法和语义知识还有困难。
3、手写输入
手写输入方法,是完全以平常的习惯,把要输入的汉字写在一块叫书写板的设备上(实际上是一种数字化仪,现在有的与屏幕结合起来,可以显示笔迹)。
这种设备将笔尖走过的轨迹按时间采样后发送到计算机中,由计算机软件自动完成识别,并用机器内部的方式保存、显示。
汉字识别的方法基本上分为统计识别、结构识别以及神经网络方法等几大类。
大量的联机手写识别系统采用的都是结构识别方法。
所谓结构识别方法,其出发点是汉字的组成结构,从汉字的构成上讲,汉字是由笔划(点、横、竖、撇、捺等)、偏旁、部首构成,通过把复杂的汉字模式分解为简单的子模式直至基本模式元素,对子模式的判定,以及基于符号运算的匹配算法,达到对复杂模式的识别。
结构识别法的优点是区分相似字的能力强,缺点是抗干扰能力差。
联机手写字符识别的发展历史可以追溯到本世纪50年代,伴随着手写板硬件(一种捕捉笔尖轨迹的数字化仪)的出现,人们开始研究联机手写字符识别技术。
随着半导体和计算机技术的发展以及模式识别领域理论和方法研究的不断深入和完善,到80年代后期,联机手写字符识别技术的研究已经朝着实用的方向努力,特别是英文,已经开始研究完全无限制的整句识别技术。
联机手写汉字识别技术相对起步较晚。
1981年,IBM公司推出了第一套较为成熟的联机手写汉字识别系统。
该系统是基于对汉字进行笔划、字根编码的思想进行识别的。
系统中每个汉字用72种字根拼成,而每个字根又可分解为42种笔划的组合,通过对笔划和字根的判定识别所输入的汉字。
而对字根进行的编码树表示又使得系统对通常的笔顺变化具有一定容错能力。
4、OCR识别
OCR是OpticalCharacterRecognition的简称,指光学字符识别技术,是自动识别技术研究和应用中的一个重要领域。
OCR技术在个人信息管理、办公自动化、电子出版物、网络资源、各种大型文献资料管理数据库、数字化图书馆等领域的应用广泛。
计算机通过光电扫描仪、CCD器件或电子传真机等获得汉字的二维图像信号,原始图像信号可以是灰度(Grayscale)或二值(Binary)图像。
汉字识别技术主要包括:
(1)扫描输入图像。
(2)图像的预处理,包括倾斜校正和滤除干扰噪声等。
(3)图像版面的分析和理解。
。
如果是印刷体汉字,需要对版面进行分析,版面分析完成对于文本图像的总体分析,区分出文本段落及排版顺序,图像、表格的区域;
对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。
(4)图像的行切分和字切分。
行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。
(5)基于单字图像的特征选择和提取。
包括为此而做的细化(Thinning)、归一化(Normalization)等步骤。
提取的特征的稳定性及有效性,直接决定了识别的性能。
特征提取是整个环节中最重要的一环,它是从单个字符图像上提取统计特征或结构特征的过程,文字识别即从学习得到的特征库中找到与待识字符相似度最高的字符类的过程。
(6)基于单字图像特征的模式分类。
(7)将被分类的模式赋予识别结果。
(8)识别结果的编辑修改后处理。
后处理是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。
其中(4)、(5)和(6)是印刷汉字识别中最为核心的技术。
近几年来,印刷汉字识别系统的单字识别正确率已经超过95%,为了进一步提高系统的总体识别率,扫描图像、图像的预处理以及识别后处理等方面的技术,也都得到了深入的研究,并取得了长足的进展,有效地提高了汉字识别系统的总体性能。
5.1.2图像扫描
计算机中的图像是由特殊的数字化设备,将光信号量化为数值,并按一定的格式组织而得到的。
这些数字化设备常用的有扫描仪、图像采集卡、数码相机等。
扫描仪对已有的照片、图片等进行扫描,将图像数字化为一组数据存储。
图像采集卡可以对录像带、电视上的信号进行“抓图(Capture)”,对其中选定的帧进行捕获并数字化。
数码相机是一种与计算机配套使用的、新型的数码影像设备,它采用CCD(ChargeCoupledDevice,电荷耦合器件)或CMOS(ComplementaryMetal-OxideSemiconductor,互补金属氧化物半导体)作为光电转换器件,将被摄景物以数字信号方式直接记录在存储介质(存储器、存储卡或软盘)中,可以很方便地在计算机中进行处理。
扫描仪是一种被广泛应用于计算机的输入设备。
作为光电、机械一体化的高科技产品,自问世以来以其独特的数字化“图像”采集能力,低廉的价格以及优良的性能,得到了迅速的发展和广泛的普及。
1、扫描仪的组成结构
虽然从外型上看,扫描仪的整体感觉十分简洁、紧凑,但其内部结构却相当复杂:
不仅有复杂的电子线路控制,而且还包含精密的光学成像器件,以及设计精巧的机械传动装置。
它们的巧妙结合构成了扫描仪独特的工作方式。
图5-1、图5-2所示为典型的平板式扫描仪的内部与外部结构。
图5-1平板扫描仪的外部结构图5-2平板扫描仪的内部结构
从图中可以看出,扫描仪主要由上盖、原稿台、光学成像部分、光电转换部分、机械传动部分组成。
上盖主要是将要扫描的原稿压紧,以防止扫描灯光线泄露。
原稿台主要是用来放置扫描原稿的地方,其四周设有标尺线以方便原稿放置,并能及时确定原稿扫描尺寸。
光学成像部分俗称扫描头,即图像信息读取部分,它是扫描仪的核心部件,其精度直接影响扫描图像的还原逼真程度。
它包括以下主要部件:
灯管、反光镜、镜头以及电荷耦合器件(CCD)。
扫描头还包括几个反光镜,其作用是将原稿的信息反射到镜头上,由镜头将扫描信息传送到CCD感光器件,最后由CCD将照射到的光信号转换为电信号。
镜头是把扫描信息传送到CCD处理的最后一关,它的好坏决定着扫描仪的精度。
扫描精度即是指扫描仪的光学分辨率,主要是由镜头的质量和CCD的数量决定。
由于受制造工艺的限制,目前普通扫描头的最高分辨率为20000像素,应用在A4幅面的扫描仪上,可实现2400dpi的扫描精度,这样的精度能够满足多数领域的需求。
光电转换部分是指扫描仪内部的主板。
它是一块安置有各种电子元件的印刷电路板。
它是扫描仪的控制系统,在扫描仪扫描过程中,它主要完成CCD信号的输入处理,以及对步进电机的控制,将读取的图像以任意的解析度进行处理或变换所需的解析度。
一般来讲,扫描仪扫描图像的方式大至有三种,即:
以光电耦合器(CCD)为光电转换元件的扫描、以接触式图像传感器CIS(或LIDE)为光电转换元件的的扫描和以光电倍增管(PMT)为光电转换元件的扫描。
2、
CCD扫描仪
与数字相机类似,在图像扫描仪中,也使用CCD作图像传感器。
但不同的是,数字相机使用的是二维平面传感器,成像时将光图像转换成电信号,而图像扫描仪的CCD是一种线性CCD,即一维图像传感器。
扫描仪对图像画面进行扫描时,线性CCD将扫描图像分割成线状,每条线的宽度大约为10μm。
光源将光线照射到待扫描的图像原稿上,产生反射光(反射稿所产生的)或透射光(透射稿所产生的),然后经反光镜组反射到线性CCD中。
CCD图像传感器根据反射光线强弱的不同转换成不同大小的电流,经A/D转换处理,将电信号转换成数字信号,即产生一行图像数据。
同时,机械传动机构在控制电路的控制下,步进电机旋转带动驱动
图5-3线性CCD的扫描过程
皮带,从而驱动光学系统和CCD扫描装置在传动导轨上与待扫原稿做相对平行移动,将待扫图像原稿一条线一条线的扫入,最终完成全部原稿图像的扫描,如图5-3所示。
通常,用线性CCD对原稿进行的“一条线”扫描被称为“主扫描”,而将线性CCD平行移动的扫描输入称为“副扫描”。
3、接触式图像传感器CIS扫描仪
接触式图像传感器CIS与CCD技术几乎是同时诞生的。
绝大多数手持式扫描仪采用CIS技术。
CIS感光器件一般使用制造光敏电阻的硫化镉作感光材料,硫化镉光敏电阻本身漏电大,各感光单元之间干扰大,严重影响清晰度,这是该类产品扫描精度不高的主要原因。
它不能使用冷阴极灯管而只能使用LED发光二极管阵列作为光源,这种光源无论在光色还是在光线的均匀度上都比较差,导致扫描仪的色彩还原能力较低。
LED阵列由数百个发光二极管组成,一旦有一个损坏就意味着整个阵列报废,因此这种类型产品的寿命比较短。
无法使用镜头成像,只能依靠贴近目标来识别,没有景深,不能扫描实物,只适用于扫描文稿。
CIS对周围环境温度的变化比较敏感,环境温度的变化对扫描结果有明显的影响,因此对工作环境的温度有一定的要求。
4、CCD与CIS的比较
简单说这两种扫描仪的区别就在于感光器件上,CCD型扫描仪使用的是电子耦合器件,而CIS型扫描仪使用的是接触式影像感光器件。
这两种感光器件的工作原理大相径庭:
CCD元件本身是整个扫描仪成像的核心,但光源发出的光必须经过镜片的反射和透镜的聚焦,这些光学器件的加入使整个扫描仪成本提高;
而CIS扫描仪是利用微小光源发出的光经扫描原稿反射后由感光器件直接接收而成像。
除了感光部分的差别外,两种扫描仪其它部分的工作原理基本一致,都是将光信号转变成数字信息。
CCD与CIS的比较如表5-1所示。
表5-1CCD与CIS的比较
CCD(光电耦合器)
CIS(接触式图像传感器)
光学系统
部件复杂,成本较高。
冷阴极管做光源,需要预热1分钟左右才能稳定发光。
部件模块化,结构、原理和光路都极为简单;
LED发光二极管做光源,光色及均匀度上较差,色域较窄,光源的寿命较短。
颜色还原
通过一系列透镜、反射镜成像,会产生色彩偏差和光学像差,需要软件进行色彩校正。
直接获取图像,能获得最接近原稿的图像效果。
成像质量
镜头成像,扫描效果清晰。
景深长,可以扫描实物。
扫描精度较低,成像易模糊和散焦。
5、扫描仪的工作过程
扫描仪的工作原理并不复杂,其扫描的一般工作过程是:
(1)开始扫描时,机内光源发出均匀光线照亮玻璃面板上的原稿,产生表示图像特征的反射光(反射稿)或透射光(透射稿)。
反射光经过玻璃板和一组镜头,分成红绿蓝3种颜色汇聚在CCD感光元件上,被CCD接受。
其中空白的地方比有色彩的地方能反射更多的光。
(2)步进电机驱动扫描头在原稿下面移动,读取原稿信息。
扫描仪的光源为长条形,照射到原稿上的光线经反射后穿过一个很窄的缝隙,形成沿x方向的光带,经过一组反光镜,由光学透镜聚焦并进入分光镜。
经过棱镜和红绿蓝三色滤色镜得到的RGB三条彩色光带分别照到各自的CCD上,CCD将RGB光带转变为模拟电子信号,此信号又被A/D转换器转变为数字电子信号。
(3)反映原稿图像的光信号转变为计算机能够接受的二进制数字电子信号,最后通过USB等接口送至计算机。
扫描仪每扫描一行就得到原稿x方向一行的图像信息,随着沿y方向的移动,直至原稿全部被扫描。
经由扫描仪得到的图像数据被暂存在缓冲器中,然后按照先后顺序把图像数据传输到计算机并存储起来。
当扫描头完成对原稿的相对运动,将图稿全部扫描一遍,一幅完整的图像就输入到计算机中去了。
(4)数字信息被送入计算机的相关处理程序,在此数据以图像应用程序能使用的格式存在。
最后通过软件处理再现到计算机屏幕上。
所以说,扫描仪的简单工作原理就是利用光电元件将检测到的光信号转换成电信号,再将电信号通过模拟/数字转换器转化为数字信号传输到计算机中。
无论何种类型的扫描仪,它们的工作过程都是将光信号转变为电信号。
所以,光电转换是它们的核心工作原理。
5.1.3音频采集和生成
1、音频采集
音频是一种典型的连续时间信号。
话筒把声音的机械振动转换为电信号,模拟音频技术中以模拟电压的幅度表示声音的强弱。
这种模拟信号的特点是一个在时间轴上的连续平滑的波形,对这样一个在时间上连续的信号,计算机每隔固定的时间对波形的幅值进行采样,用得到的一系列数字化量来表示声音。
在某一个特定的时刻对音频信号的测量叫做采样。
每秒中采样的次数称为采样频率,单位为Hz。
根据Nyguist采样定律,要从采样中完全恢复原始信号波形,采样频率必须至少是信号中最高频率的两倍。
所以CD标准的采样频率至少要是人耳所能听到的频率上限20KHz的两倍。
实际使用的CD标准的采样频率为44.1KHz,这样,人耳能够听到的声音频率成分均可以恢复。
由于不同质量的声音其频率覆盖的范围不同,在实际应用中,可以根据声音的类型和质量要求,选择采样频率。
如语音的频率范围是3.4KHz以下,使用7KHz采样即可。
在数字音频中,把表示声音强弱的模拟电压用数字表示,如0.5V电压用20表示,2V电压用80表示等。
模拟电压的幅度,即使在某电平范围内,仍然可以有无穷多个,如1.2V、1.21V、1.215V、……。
而用数字来表示音频幅度时,只能把无穷多个电压幅度用有限个数字来表示。
把某一幅度范围内的电压用一个数字表示,这称为量化。
计算机内的基本数制是二进制,为此我们还要把声音数据写成计算机数据格式,这称之为编码,模拟电压幅度、量化、编码的关系。
2、波形声音的有关参数
(1)、采样频率:
常用的标准采样频率有,44.1KHz,22.05KHz,11.025KHz,8KHz,16KHz,37.8KHz,48KHz等,应用于不同质量的声音场合。
(2)、位参数:
每个采样点的采样精度,即每个采样点的量化位数。
(3)、声道数:
声音通道的个数,表明记录的是只产生一个波形(单声道)还是产生两个波形(立体声双声道)。
立体声听起来要比单声道的声音丰满且有一定空间感,但需要两倍的存储空间。
3、波形声音的采集、处理和输出
计算机必须有相应的输入输出设备才能进行声音信号的处理。
波形声音的获取是通过声音数字化接口进行的,输入的声音经过数字化后进入计算机中。
输出的过程正好与上图相反,声音数字流经解码、逆压扩变换后,通过数模转换电路把离散的数字序列转换为模拟电压波形送扬声器播放。
对于声音的处理主要集中在压缩、编辑和效果处理上。
压缩常在硬件或低层软件中完成,以降低数据量。
对声音的编辑常常是进行分段、组合、首尾处理等,以求单一的声音片断能以干净、准确的形式出现。
声音效果处理也常常放在编辑操作中,常用的处理有回声处理、倒序处理、音色效果处理以及淡入淡出效果处理等。
4、语音合成
语音合成技术是让计算机能够产生高清晰度、高自然度的连续语音,在人机对话、语音咨询、自动播音、语音教学、电话翻译、因特网、电子商务等领域有着广泛的应用前景。
语音合成(让计算机说话)包含着二个方面的可能性:
一是机器能再生一个预先存入的语音信号,就象普通的录音机一样,不同之处只是采用了数字存储技术。
简单地将预先存入的单音或词组拼接起来也能作到“机器开口”,但是“一字一蹦”,机器味十足,人们很难接受。
然而如果预先存入足够的语音单元,在合成时采用恰当的技术手段挑选出所需的语音单元拼接起来,也有可能生成高自然度的语句,这就是波形拼接的语音合成方法。
为了节省存储容量,在存入机器之前还可以对语音信号先进行数据压缩。
另一种采用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表征声道谐振特性的时变数字滤波器,这个源可能是周期脉冲序列,它代表浊音情况下的声带振动,或者是随机噪声序列,代表不出声的清音,调整滤波器的参数等效于改变口腔及声道形状,达到控制发不同音的目的,而调整激励源脉冲序列的周期或强度,将改变合成语音的音调、重音等。
按照人类言语功能的不同层次,语音合成也可分成三个层次,它们是:
(1)从文字到语音的合成;
(2)从概念到语音的合成;
(3)从意向到语音的合成。
这三个层次反映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动。
当前,语音合成的研究已经进入文字-语音转换(TTS)阶段。
为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这将涉及自然语言理解的问题。
文字-语音转换过程是先将文字序列转换成音韵序列,再由语音合成器生成语音波形。
其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;
第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。
因此一般说来,文字-语音合成系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文字-语音转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。
当然其中语音合成终究还是最基本的部分,它相当于“人工嘴巴”,任何语音合成系统包括文字-语音转换系统,都离不开语音合成器。
5.1.4视频采集
视频采集卡是将模拟摄像机、录像机、LD视盘机、电视机输出的视频信号等输出的视频数据或者视频音频的混合数据输入电脑,并转换成电脑可辨别的数字数据,存储在电脑中,成为可编辑处理的视频数据文件。
视频采集卡,又称视频捕捉卡,英文名为“VideoCaptureCard”,其功能是将视频信号采集到电脑中,以数据文件的形式保存在硬盘上。
它是我们进行视频处理必不可少的硬件设备,通过它,就可以把摄像机拍摄的视频信号从摄像带上转存到计算机中,利用相关的视频编辑软件,对数字化的视频信号进行后期编辑处理、比如剪切画面、添加滤镱、字幕和音效、设置转场效果以及加入各种视频特效等等,最后将编辑完成的视频信号转换成标准的VCD、DVD以及网上流媒体等格式,方便传播和保存。
从视频信号源和采集卡的接口来分,视频采集卡共分为两大类:
一类是模拟采集卡,另一类是数字采集卡。
模拟采集卡通过AV或S端子将模拟视频信号采集到PC中,使模拟信号转化为数字信号,其视频信号源可来自模拟摄像机、电视信号、模拟录像机等;
数字采集卡通过IEEE1394数字接口,以数字对数字的形式,将数字视频信号无损地采集到了PC中,其视频信号源主要来自DV(数码摄像机)及其它一些数字化设备。
模拟采集卡与数字采集卡的一个重要区别就是:
使用数字采集卡,在采集过程中视频信号没有损失,可以保证得到与原始视频源一模一样的效果,而使用模拟采集卡则视频信号会有一定程度的损失。
数字采集卡均采用了IEEE1394作为标准的数字接口,所以,人们又习惯将数字采集卡称为IEEE1394卡。
目前市场上比较流行的IEEE1394卡按技术特点来分,主要分为三类:
(1)带有硬件CODEC(Coder-Decoder的缩写,即多媒体数字信号编解码器)的1394编辑卡,这类卡采用专门的处理芯片进行编解码,添加字幕、生成特效等都由硬件完成,其突出的优点是:
生成的速度快、编辑质量高,功能也比较强大,但价格昂贵,几千元甚至上万元,比普通的数码摄像机还要贵,一般用于专业制作;
(2)用专门的软件CODEC实现编解码的1394卡。
由于硬件CODEC比较贵,非普遍用户能够接受,因此,一些视频软件厂商专门开发出了一种软件CODEC,来替代硬件CODEC,其最大的优点是:
价格较低,但由于是用软件实现编解码,所以处理速度相对来讲要慢得多,对计算机的配置要求也比较高;
(3)OHCI(OpenHostConnectInterface,开放主机控制器接口
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第5章 信息资源管理的技术 信息 资源管理 技术