模拟波形处理时只要保真度高就万事大吉。而数字信号本身的保真度是没什么问题的,不过人类听的和看的都是模拟信号,所以,第一步就必须把模拟信号变换成数字信号。当把时间和幅度都连续变化的模拟信号变成两者都离散的数字量时,如何保真就从根本上决定了最后信号的质量。
要在时间变化方向上保真,取样点要密,取样频率应该高。在幅度取值上要保真,分得就应该尽量细,量化比特率要高。但不管多密多细总还是与模拟波形有差距,总要丢掉一些信息,这也算是一种“压缩”吧,只要压缩掉的是人听不到的声音问题就不大。
CD音频格式取样率为44.1kHz,量化率为16bit,主要依据就是人类听力的频率范围被认为只有20Hz到20kHz,动态范围虽有120dB,但是非线性的,实际有96dB就够了。
这一假定有两个方面的问题,1.是不是丢掉了人实际上能感觉到的声音,更确切些是人类能感觉到的信息,不一定只能从耳朵进入人脑。也就是保真度够不够;2.是否混有不必要或人实际上感觉不到的信息,即传送和存储的比特数还是多了。
前者推动了CD播放机的高倍取样和再量化,人为补入一些近似的信息,如这两年的HDCD,超级CD和音频DVD等,从音源上就增加信息的音频新格式。
后者实际上发展得更早,模拟时代电话传送时就压缩掉了5kHz以上、100Hz以下的频率成分,但并不影响语言信息和个人特征的传送。数字音频出现后,音频压缩技术更是全面开花,一步步向高压缩、高保真的方向迈进。就在这一两年内,实验室中的各种成果都纷纷走向市场,硕果累累。
如果音质一样,压缩式音频肯定比PCM编码的音频更加吸引人,它在存储和传送方面都大为有利,占用比特数少,节省载体空间,就可考虑采用价格相对贵的优质载体。现在音乐软件的载体主要是磁带和光盘,因为磁光载体每比特的单价十分廉价,几乎可以不用考虑成本。但从录入、读取以及编辑等角度看,EPROM、SRAM和快闪存储器等IC存储器肯定更方便灵活,而且完全不再需要磁光机电组件(这可是录放机中,最娇气、最短命,又最能把产品质量拉开档次的部分),可实现全面电气读取写入。
压缩式信号传输也快捷。CD信号的音频数据率为44.1k×16×2≈1.4Mbps,即1秒钟内必须送完1.4兆个比特脉冲,才能恢复出左、右声道各1秒的音乐。(实际上,由于纠错码的加入,光盘上出来的EFM信号的传输比特率达4.3218Mbps。)若用256kbps的传输系统来传送或通信,要收5秒钟数据,才能恢复出1秒钟音乐,根本无法实现实时通讯。如果将声音的数据率压缩到10kbps,那么同样的传输系统就可以同时传送25路声音,接收端还能与发送端同步对话。