有关CDmp3midi等数字音乐的原理播放刻录.docx
- 文档编号:29340391
- 上传时间:2023-07-22
- 格式:DOCX
- 页数:16
- 大小:38.21KB
有关CDmp3midi等数字音乐的原理播放刻录.docx
《有关CDmp3midi等数字音乐的原理播放刻录.docx》由会员分享,可在线阅读,更多相关《有关CDmp3midi等数字音乐的原理播放刻录.docx(16页珍藏版)》请在冰豆网上搜索。
有关CDmp3midi等数字音乐的原理播放刻录
我们每天都听着自己喜爱的cd,然而cd究竟是什么东西?
什么叫add,aad,ddd?
什么叫hdcd?
什么叫xrcd?
(这些标志在盗版cd上几乎都印着,当然是代表好东东的意思)
请看cd篇:
自计算机发明以后,信息的数字化是不可阻挡的潮流,也是二十世纪人类文明的重大革命,影响所及,深入现代生活各个层面,反映在音乐方面最常见的产物就是CD。
自音乐CD在九零年代成为主流音乐储存媒体,数字音乐已与你我生活密不可分。
本篇文章希望以深入浅出的方式,带领读者探索数字音乐的各类储存格式与讯号处理技巧。
何谓数字化?
从字面上来说,数字化(Digital)就是以数字来描述事物。
例如用数字纪录一张桌子的长宽高尺寸以及各木料间的角度,这就是一种数字化。
跟数字常常一起被提到的字是模拟(Analog/Analogue)。
模拟的意思是用相似的东西去表达,例如将桌子用传统相机将三视图拍下来,就是一种模拟的纪录方式。
音乐如何数字化?
将音乐数字化,首先必须将音讯数字化。
将音讯数字化的方式有很多,最常见的方式是透过PCM(PulseCodeModulation)。
音乐CD即是纪录此种格式的数字讯号,转换原理如下。
首先我们考虑声音经过麦克风,转换成一连串电压变化的讯号,如图一所示,我们现在开始将这声音波型的模拟讯号数字化(AnalogtoDigital)。
这张图的横坐标为秒,纵坐标为电压大小。
要将这样的讯号转为PAM(PulseAmplitudeModulation)格式的方法,是先以等时距分割横坐标。
假设用每0.01秒分割,则得到图二。
http:
//www.dearhoney.idv.tw/Audio/LukeLo20010705/pic1.gif
//www.dearhoney.idv.tw/Audio/LukeLo20010705/pic1.gif"alt="点击显示完整图片"target="_blank"> http: //www.dearhoney.idv.tw/Audio/LukeLo20010705/pic2.gif //www.dearhoney.idv.tw/Audio/LukeLo20010705/pic2.gif"alt="点击显示完整图片"target="_blank"> 接着我们把分割线与讯号图形交叉处的坐标位置纪录下来,就完成了PAM。 我们把横坐标数字纪录下来,得到如下资料,(0.01,11.65)、(0.02,14.00)、(0.03,16.00)、(0.04,17.74)…..(0.18,15.94)、(0.19,17.7)、(0.20,20)。 现在我们已经把这个波形以数字纪录下来了,也就是完成了来源讯号的PCM。 由于我们已经知道时间间隔是固定的0.01秒,因此我们只要把纵坐标纪录下来就可以了,得到的结果就是11.6514.0016.0017.7419.0019.8920.3420.0719.4418.5917.4716.3115.2314.4313.8913.7114.4915.9417.7020.00这一数列。 这一串数字就是将以上讯号数字化的结果。 看,我们确实用数字纪录了事物。 在以上的范例中,我们的取样频率是100Hz(1/0.01秒)。 其实计算机中的.WAV档的内容就是类似这个样子,文件头纪录了取样频率和可容许最大纪录振幅等信息,内容就是一连串表示振幅大小的数字,有正有负。 前面提到音乐CD是以PCM格式纪录,而它的取样频率(SampleRate)是44100Hz,振幅纪录精度是16Bits,也就是说振幅最小可达-32768(-2^16/2),最大可达+32767(2^16/2-1)。 在这里我们可以发现无论使用多么高的纪录精度,纪录的数字跟实际的讯号大小总是有误差,因此数字化无法完全纪录原始讯号。 我们称这个数字化造成失真称为量化失真。 以上是PCM理论上的运作方式,但是实际上我们的电路没有办法纪录瞬间的振幅大小,而是纪录取样时距内的振幅最大值,也就是Sample/Hold的运作方式。 这样的运作方式会造成波型的偏移,且很难用事后的运算来补偿,为PCM的一大缺点。 为什么要数字化? 数字化的最大好处是方便数据传输与保存,使资料不易失真。 只要纪录资料的数字大小不改变,纪录的资料内容就不会改变。 传统模拟的方式纪录讯号,如使用LP表面的凹凸起伏或是录音带表面的磁场强度来表达振幅大小,在我们复制数据时,无论电路设计多么严谨,总是无法避免噪声的介入。 这些噪声会变成复制后资料的一部份,造成失真,且复制越多次讯噪比(讯号大小与噪声大小的比值)会越来越低,有意义的资料细节也越来越少。 如果读者曾经复制过录音带或是录像带,一定有过发现拷贝版噪声较大的经验。 在数字化的世界里,数字转换为二进制,以电压的高低判读1与0,并可加上各种检查码,使得出错机率大大降低,因此在一般的情况下无论资料复制多少次,都可以达到不失真的目标。 或许读者会问,既然CD是数字化的储存媒体,为什么用烧录机复制的烧片放到CDPlayer中音质往往比原版片来得差呢? 数字化的复制不是不会失真吗? 这个问题我们留到后面再解答。 那么,数字化的资料如何转换回原来的音乐讯号呢? 这时候我们需要一项装置叫做DAC(DigitaltoAnalogConverter),中文叫数类转换器。 DAC的功能如其名是把数字讯号转换回模拟讯号,在我们的CDPlayer,声卡中都有这装置,而在许多电路中也经常被用到,例如显示卡的RAMDAC。 我们可以把CDPlayer中以PCM运作的DAC想象成16个小电阻,各个电阻值是以二的倍数增大。 当DAC接受到来自CD读取机构的二进制PCM讯号,遇到0时相对应的电阻就接上电路,遇到1相对应的电阻不作用,如此每一批16Bits数字讯号都可以转换回相对应的电压大小。 这些电压大小看起来会像阶梯一样一格一格,跟原来平滑的讯号差异,因此再输出前还要通过一个低通滤波器,将高次谐波滤除,这样声音就会变得比较平滑。 cd为什么记录74分钟信息呢? cd的来历如何? 为何是16bit的呢? 请看: 细说音乐CD(CompactDiscDigitalAudio) 关于音乐CD实在是有太多可以聊了,这个于1982年由Sony和Philips共同制定于红皮书的储存媒体,便于携带音质又比录音带好,流行至今毫无颓势。 关于它的规格有许多有趣的故事,例如为什么一片标准长度的CD是74分钟呢? 话说这是因为设计者想要把贝多芬第九号交响曲存进一片CD中,于是开始估计CD的直径,另一套说法是著名指挥家卡拉扬(HerbertvonKarajan)这样要求,也有人说是Sony公司当时主席的太太这样要求,另一套说法是Sony当时的Mr.Oga所决定的。 另外要补充的是HerbertvonKarajan指挥的贝多芬第九号交响曲总长度大概在68分钟左右,一般的版本大概在65~74分中间分布。 根据网友nightmare告知,大贺典雄的传记记载当卡拉扬还活着时,跟大贺的交情匪浅(算亦师亦友的感情吧),因此当年Philips找上Sony制定CD规格时,大贺就一口咬定一片CD一定要能装得下贝多芬第九号交响曲(大贺本身是声乐家),因为古典音乐单首曲目的长度比这个长的也寥寥无几,为了在聆赏时不影响兴致,所以大贺对此非常坚持,而日后大贺用此录卡拉扬预演的曲目,并让卡拉扬听,而卡拉扬非常赞赏这个划时代的数字媒体,甚至后来在说明会之类的活动时,卡拉扬也帮CD说了不少好话。 CD是以螺旋状由内到外储存资料,在一片标准74分钟的CD中,从里绕到外总共有22188圈,把它全部伸展开来长达5.7km。 音乐的CD读取方式是等线速度(CLV),每秒有1.2m长的资料经过雷射头,雷射在真空中波长为780nm,以侦测CD表面的凹凸变化判读讯号。 表面的凹凸刻痕宽0.5um,深度为0.11um(约为780nm雷射在CD塑料材质内波长的1/4),长度为0.8到3.1um。 CD是以由凹变凸和由凸变凹定义为1,平坦的部分为0,所以改变刻痕的长度可以改变资料内容。 而读取头就是靠着凹变凸和由凸变凹时的光干涉作用来判读讯号。 音乐CD的规格为什么是44.1kHz、16Bits呢? 关于44.1kHz这个数字的选取分为两个层面。 首先我们知道人耳的聆听范围是20Hz到20kHz,根据NyquistFunctions,理论上我们只要用40kHz以上的取样率就可以完整纪录20kHz以下的讯号。 那么为什么要用44.1kHz这个数字呢? 那是因为在CD发明前硬盘还很贵,所以主要数字音讯储存媒体是录像带,用黑白来记录0与1。 而当时的录像带格式为每秒30张,而一张图又可以分为490条线,每一条线又可以储存三个取样讯号,因此每秒有30*490*3=44100个取样点,而为了研发的方便,CD也继承了这个规格,这就是44.1kHz的由来。 一张刮痕累累的CD放到CDPlayer中听起来声音常没有什么问题,这又是什么原因呢? 这是一个非常复杂的问题,我们必须从CD的讯号储存格式说起。 首先要引入的名词是block,CD每秒钟的资料被分成7350个block。 每个block内有588bits的资料。 可是这588bits无法全部用来储存有意义的资料,因为过度密集的凹凸变化会造成硬件设计难度的增加,且CD是以由凹变凸和由凸变凹定义为1,无法重复出现1,因此每14个bits中只有8个bits是有意义的,这就是所谓EFM(Eight-to-Fourteen-Modulation)的目的。 扣除6bits无意义的资料,每个block剩下588*8/14=336bits,再扣除同步(sync)与合并(merge)信息,剩下264bits,等于264/8=33bytes。 在这33个databytes中,有1个sub-codebyte、12个odd-audiobytes、4个Q-redundancybytes、12个even-audiobytes和4个P-redundancybytes。 其中最有意义的就是那12+12=24个音讯bytes,每个block共有24*8=192bits,由于CD以16bits纪录资料大小,因此每个block有6个立体声取样点资料(6*16*2=192)。 还记得前面说过每秒钟有7350个block吗? 由此可以得知每秒钟有6*7350=44100个立体声取样点! 没错,就是这个数字。 顺带一提的是每98个block组成一个frame,每秒有75个frame(98*75=7350)。 好了,我们还没讲到重点,为什么有轻微刮痕的CD听起来还是很正常呢? 答案就在于这24bits的音讯资料,并非单纯按照出现顺序储存在单一的block中,而是打散顺序离散分布在接下来109个block中,因此若有刮痕造成一部份的资料无法正确读出,可以藉由前面提到的P-redundancybytes和Q-redundancybytes作同位检查确保资料正确性,进而重建资料,还可利用声音连续变化的特性,由问题资料的前后取样点来内插补点。 实际编码时,是先将12bytes的evensamples重新排列然后经由C2编码计算出4bytes的Q-redundancy得到28bytes的资料,然后由这28bytes的资料来决定这24bytes的音讯要如何分布在0到108个block中。 再来将这28Bytes的数据经过C1编码,如此就得到4bytes的P-redundancy。 P-redundancy另外的用途是确保当取样点都为0时这block中的32bits仍不都为零。 另外每个block还有一个sub-codebyte,其用途非常广泛,在lead-in的区域sub-code纪录了这张CD有几轨、总长度多少 接下来想要介绍一些CD的衍生物如HDCD,xrcd2等,但是不可避免要提到一些数字录音着专业术语,因此我们先解释一下这些术语。 数字音讯处理名词解释 Pre-emphasis Pre-emphasis就是在录音的时候将高频讯号放大,放音时再把讯号用同样的倍率缩小以还原波形(De-emphasis),在模拟录音的时代,这个技巧的主要用途是作为提高讯噪比。 例如广播发送时将频率1500Hzto2000Hz以上以每八度音6dB的倍率提高讯号,或是LP唱片(LP)在录制时的RIAA(美国唱片工业协会)等化曲线(不过这曲线的制定目的主要与LP的结构有关,且放大讯号不只高频而已),以及录音带用的杜比抑噪系统,都是使用同样的原理。 在数字的领域,Pre-emphasis的主要用意在于降低量化失真,因为一般的音乐讯号高频段往往振幅比较小,而且越高的频率振幅越小,所以从PCM取样的原理中我们可以发现这些小振幅会被分配到较少数的bits来记录,这样有效描述振幅的数字就变小了,与原波型的误差就变大了,因此我们使用Pre-emphasis的技巧先增加高频振幅再取样来降低高频量化失真。 使用这功能的音乐CD非常少见,推测是因为Pre-emphasis和De-emphasis这一来一回的计算,反而造成了更大的失真。 就笔者所知风之谷原声带就有经过Pre-Emphasis处理,由之前提到的subcode纪录着这项信息。 http: //www.dearhoney.idv.tw/Audio/LukeLo20010705/pic3.gif //www.dearhoney.idv.tw/Audio/LukeLo20010705/pic3.gif"alt="点击显示完整图片"target="_blank"> Supersampling(Oversampling) Supersampling字面上的翻译叫做超取样,原理是从已有的数字讯号经过内插补点计算得到取样点间的讯号振幅信息,例如把44.1kHz转成176.4kHz的四倍超取样。 超取样并不能帮我们把更多的细节从量化失真中找回来,它的主要用意是帮助我们获得更正确的模拟讯号。 怎么说是更正确的呢? 从之前关于PCM取样的介绍我们知道越高频的讯号被取样的次数就会越少,想象一个20kHz的正弦波经过44.1kHz的取样,一个周期分不到三个取样点,要从这三个取样点算出原来的正弦波理论上是可以办到的,但实作的这样的数字电路来计算是非常繁杂的,因此发展出来了各种取巧的方式希望能藉由较简单的计算得到接近原波型的结果,超取样算是其中的一种方法,用意是为了重建高频讯号与原始波型。 Dynamicrange 中文叫做动态范围,也就是容许纪录资料最大值与最小值的比值,例如16Bits纪录精度的音乐CD其动态范围最大就是20*log[(2^16)/1]=96.3dB。 用越多bit纪录,我们就可以得到越大的动态范围。 如果能纪录越大的动态范围,我们就能纪录越多的细节,并且更能保存爆炸声等大音量声音的波形。 当动态范围不足时,为了不造成破音,我们只好降低录音音量,可是小范围的声音变化可以分配的bit就减少了,造成量化失真更为严重。 PeakLevel 我们把一段波型的最大振幅叫做Peak,peaklevel则是这最大振幅与最大可容许纪录振幅的比值。 在16bits的例子中,最大振幅就是32767,20bits的例子中就是524287。 在之前PCM取样原理的介绍中我们可以发现越大的振幅可以分配到越多的bit去纪录,因此同样的一段波型只要PeakLevel不超过1(超过可能会爆音),则原始模拟讯号音量越大纪录的波型越精准。 Normalize Normalize就是将一段波型音量放大,放大的目标是让原波型的最大振幅(peak)等于最大可容许振幅。 我们常常会抱怨自做精选集CD这一首音量好大,下一首音量又太小,这时将每首都经过Normalize处理可以改善这个问题。 不过由于经放大过后的振幅大小可能不是整数,最后不可避免要用到四舍五入之类的技巧,因此处理过的波型和原波型造成非线性放大产生误差,再度导致量化失真。 所以为了保留音色与相位的正确性,处理数字音乐尽量避免Normalize,除非放到后刚好不须舍弃位数。 Dither Dither是数字音乐处理上非常神奇的技巧,目的是用少数的bits达到与较多bits同样的听觉效果,方法是在最后一个bit(LSB eastSignificantBit)动手脚。 例如用16bits纪录听起来好似20bits的资料,听到原先16Bits无法纪录的微小信息。 举例来说,今天我有个20Bits的取样资料,我现在想把存成16Bits的资料格式,最简单的转换方式就是直接把后面四个bits直接去掉,但是这样就失去用20Bits录音/混音的意义。 比较技巧性的方法是在第17~20Bits中加入一些噪音,这段噪音就叫做dither。 这些噪音加入后,可能会进位而改变第16个Bit的资料,然后我们再把最后四个bits删掉,这个过程我们称为redithering,用意是让后面四个bits的数据线性地反映在第16个bit上。 由于人耳具有轻易将噪音与乐音分离的能力,所以虽然我们加入了噪音,实际上我们却听到了更多音乐的细节。 关于dither有种比喻是说我们透过手指间的细缝只能看到眼前部分的图形,但是如果前后挥动手掌,就可以透过不同时刻看到的各个图形的一小部份,在脑中建构出完整的图形信息,这是大脑神奇的地方,不是简单的理论就可以说得通的。 在此我提供一个网址,该网页内提供经过dither处理和原始的wav档下载,内容是一个固定频率的声音以等比例逐渐降低音量,我们可以发现经过dither处理过的声音听起来失真比较少且持续比较久,也就是可以让我们听到更小的音量与细节,还附有dither前后的波型图标,网址如下: http: //www.mtsu.edu/~dsmitche/rim420/reading/rim420_Dither.html。 在众多的dither技术中,Sony公司的SBM(SuperBitMapping),LIVESTUDIORECORDINGS的ULTRAMATRIXPROCESSING,都是专攻20bits转16bits的技术。 Dither在数字音讯处理用途非常广泛,举凡两个波型的相加、振幅的缩放、Normalize都会用到。 现在的录音室已经进展到24bits录音,在CD还是主流储存媒体的时代,dither还是非常重要的技术。 顺道一提,在影像处理领域,将24bits的全彩图形以16bits的高彩画面显示也会用到dither的技术。 --CETagParser~color=#FF0000 --CETagParser~/color (这是和刻录cd非常有关的一个指标,喜欢刻录cd的同学请自己阅读) Jitter一般翻译作时基误差,是数字音讯播放音质劣化的原因之一。 Jitter会造成声音的改变,成因并非振幅资料本身的错误,而是时间部分出错了。 在之前数字化的过程中我们知道一个取样点包括振幅和时间这两项资料,而jitter造成振幅没有在准确的时间呈现出来使得波型扭曲。 在普通的CDPlayer中,由于读取机构是由资料流量来判断转速是否合宜,而电路的工作时脉又是以读出的一连串数字讯号的多少来决定,因此当转速不稳定时,每秒读出的资料数量就有误差,而电路工作时脉就受到影响,由电路工作时间所决定的各个取样点的出现时间与实际的时间就产生误差,这就是jitter的成因之一。 还有很多影响工作时脉的因素可能造成jitter,例如CD的重量与厚度是否均匀影响转动稳定性、反射面的材质、石英震荡的品质、CD转盘到DAC之间的连接线,都会造成jitter。 要避免jitter发生最直接的方法就是re-clock,将接收的数字讯号先存到缓冲存储器中,在精准的时钟运作下重新送出这些数字讯号,并且让后续的数字电路以这个时钟为运作基准。 有些Hi-End器材使用不同于一般S/PDIF的单线数字传输接口,加入包含时钟讯号的接线用意即在此。 S/PDIF将运作时脉信息藏在资料的变化中,因此资料流量会影响运作时脉。 或许读者仍对所谓资料正确但是音质受到影响感到疑惑,为了让读者对jitter有更深刻的认识在此提出一个相关实验。 准备一张音乐CD,然后复制成另外一张,并用抓音轨软件检查确保这两张CD的资料内容是相同的,可是放到CDPlayer中聆听却发现两张CD的音质有很大差异。 原先猜测是因为CDPlayer的读取机制不如计算机光驱精准,但经过专业用声卡CardDeluxe数字录音从CDPlayer的数字输出(SPDIFOut)的结果,经过多次的比对我们发现数字录音的结果与直接抓音轨的资料内容相同,也就是说CDPlayer读取资料内容并没有问题,而影响音质的主要原因是jitter。 单位时间资料流量不稳定的变动造成jitter,但这些资料内容本身并没有出错,因此不能单从数字录音的资料发现错误。 一般来讲,除非设计上有瑕疵,jitter不该会大到使资料内容出错,否则该称为Error而非jitter。 今天买的cd有没有收藏价值? 是不是hdcd,或者xrcd? 请看 HDCD(HighDefinitionCompatibleDigital) 别给这个产品名称给吓到了,HDCD本质上还是CD,放到一般的CDPlayer中播放完全没有问题。 HDCD是PacificMicrosonics创始人KeithJohnson和PflashPflaumer于1995年提出的规格,其技术本身也包含从20Bits的原始母带dither至16Bits的技术,但其独特的地方在于比dither更有效利用CD的第16个Bits(LSB),它不但用dither技术处理LSB,使得音质比一般CD好,甚至将LSB以固定的数字排列,当作是一种指令,这种指令在一般的CDPlayer对于听觉没有影响,可是在搭载HDCD译码芯片的CDPlayer上,这些特殊的指令就可以改变声音的特性,例如增加某频段的音量,提升整体动态范围,或是音场调整。 这些加料的功能使得声音听起来细节更多,定位更加精准,这正是HDCD的特色。 常见的CD如孙燕姿的几张专辑都经过HDCD处理过。 HDCD的技术并非限于音乐CD,在DVD-Audio上也有发挥的空间。 目前HDCD的技术属于Microsoft,WindowsXP内建的MediaPlayer就有辨识HDCD的功能。 xrcd(extendedresolutioncompactdisc) Xrcd也是不折不扣的音乐CD,由JVC制作发展。 Xrcd的特色是以DIGITALK2处理。 这套技术不光是以20bits128倍超取样将模拟讯号转为数字讯号,还加上另一套20Bits转16bits的dither技巧,意图将CD制作过程的每一个步骤最佳化! 不但非常注重各个器材的供电品质,器材的连接线材,配送系统,且为了降低jitter对音质的影响,所有的数字讯号都改用SDIF-2传输,有别于一般所使用的AES/EBU工业标准,并对于时钟的运作精度做过特别的校正。 经处理最后的CD母带资料储存于SonyPCM9000MO,送至位于日本横滨全世界唯一一条xrcd生产线。 Xrcd另外一个特色是以铝作为反射面(与一般CD相同),JVC宣称是因为使用铝可以达到比较低的jitter。 Xrcd价位相当高,通常要一千三百元以上,便宜的如麦田之歌也要八百多元,但是音质与音场表现的确有其独到之处,因此在发烧音响界仍有其市场。 DVD-Audio DVD-Audio是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 有关 CDmp3midi 数字 音乐 原理 播放 刻录