顶10篇文章

乱伦
Torrey DeVitto
传教士式体位
酒神(漫画)
Chelsy Davy
互联网电影数据库
禁忌(影片系列)
红色诗歌选
Bea Alonzo
菲律宾老鹰

News:

音频压缩法(数据)

为减少时间它采取听对并且了解录音的过程,看见 时间压缩的讲话.

音频压缩法 是形式 数据压缩 设计减少大小 音频文件. 音频压缩法 算法 在计算机软件被实施 音频编解码器. 普通 数据压缩 算法不足执行以音频数据,很少减少文件大小在87%原物以下和没有设计用于真正的时间。 结果,具体音频“lossless“并且”lossy“算法被创造了。 Lossy算法提供更加巨大的压缩比和用于主流消费者音频设备。

和与 图像压缩 lossy和无损压缩算法用于音频压缩法, lossy是最共同的为日常使用。 在lossy和无损压缩,信息多余减少,运用方法例如编制程序、图案识别和线性预言减少用于的信息量描述数据。

轻微地减少的音频质量交易为多数实用音频应用清楚地胜过,用户不可能察觉任何区别,并且空间需要极大地减少。 例如,在一CD,你可能适合1小时高保真度的音乐,少于音乐被压缩的2个小时losslessly,或者在MP3音乐压缩的7个小时格式化。

内容

Lossless音频压缩法

文件存储和通信带宽变得较不昂贵和更加可利用, lossless格式大众化例如 猴子的音频, FLAC 并且 缩短 因为人们选择维护他们的音频文件,一个永久档案增加了尖锐。 无损压缩的主要用户是 音频工程师想要保存他们的音频文件的一个确切的拷贝的audiophiles和那些消费者,与从有损压缩技术的不可逆变化对比例如 Vorbis 并且 MP3. 压缩比于那些是相似的为lossless数据压缩(大约50-60%原始尺寸)。 Lossless格式例如 杜比TrueHD 与高定义一起也被介绍 DVD 格式。

维护所有数据在音频小河和达到坚固压缩是难的。 首先,大多数录音是高度复杂的,从真实世界记录。 因为其中一个压缩关键方法是发现样式和重复,更加混乱的数据例如音频不很好压缩。 以相似的方式, 相片 压缩较少以lossless方法比更加简单的计算机造出的图象高效率地。 但有趣的是,甚而计算机造出的声音可能包含非常复杂 信号波形 那个礼物一个挑战到许多压缩算法。 这归结于音频信号波形的本质,没有a (必要lossy)转换向频率信息,一般是难简化,如由人的耳朵执行。

第二个原因是音频的价值 样品 改变非常迅速,那么普通数据压缩 算法 不要为音频很好工作,并且连贯字节串经常一般没出现。 然而, 卷积 用过滤器[- 1 1] (即采取第一个区别)趋向对轻微地 漂白 (decorrelate做舱内甲板)光谱,从而允许传统无损压缩在编码器做它的工作; 综合化在译码器恢复原始的信号。 编解码器例如 FLAC, 缩短 并且 TTA 用途 线性预言 估计 信号的光谱。 在编码器,去除鬼峰顶用于估计物的反面漂白信号,当估计物使用重建原始的信号在译码器时。

Lossless音频编解码器没有质量问题,因此实用性可以估计

  • 压缩和解压的速度
  • 程度压缩
  • 软件和硬件支持
  • 强壮和错误校正

Lossy音频压缩法

Lossy音频压缩法用于一个极端宽应用范围。 除直接应用之外(MP3播放器或计算机),数字式地压缩的音频小河用于多数录影DVDs; 数字式电视; 流出的媒介在 互联网; 卫星和缆绳收音机; 并且越来越在地球无线电广播。 有损压缩通过放弃重要数据比无损压缩(5%到原始的小河的20%数据,而不是50%到60%)典型地达到更加伟大的压缩。

lossy音频压缩法的创新是使用 心声学 认为不是所有的数据在音频小河可以由人的听觉系统察觉。 多数有损压缩由感知被考虑毫不相关,即,声音是非常坚硬听见的第一辨认声音减少感知多余。 典型的例子包括发生,在更加大声的声音的同时的高频率或者声音。 那些声音编码以减少的准确性或根本没有被编码。

当去除或减少这些‘unhearable’声音也许占在有损压缩时保存的位的小百分比,真正的储款来自一种补全现象: 噪声塑造. 减少用于的位的数量编码信号在那个信号增加相当数量噪声。 在基于心声学的有损压缩,真正的钥匙是‘掩藏’位储款引起的噪声在不可能被察觉音频小河的范围。 这做,例如,使用非常很小数量的位编码高频率多数信号-没有,因为信号有一点高频率信息(虽则这也是经常真实的),但宁可,因为人的耳朵在这个区域可能只察觉非常大声的信号,因此‘暗藏的’更软的声音那里没简单地听见。

如果减少感知多余不达到充足的压缩为一种特殊应用,它也许要求进一步有损压缩。 根据音频来源,这可能不仍然引起可认识区别。 讲话比音乐可以例如被压缩更多。 允许压缩参量调整多数有损压缩计划达到数据的目标率,通常被表示为a 数位速率. 再次,数据减少将由某一模型怎样引导重要声音是如由人的耳朵察觉,打算效率和优化质量为目标数据速率。 (比其他有用于这感知分析的许多不同的模型,某一好适合与音频的不同的类型。)因此,根据带宽和储藏需要,对有损压缩的用途也许导致从无范围到严厉音频质量的被察觉的减少,但一般明显地可听见的减少进入质量对听众是不能接受的。

由于数据被取消在有损压缩期间,并且不可能由解压恢复,某些人可能不更喜欢有损压缩为档案库存储器。 因此,如被注意,平衡使用有损压缩的那些人(例如为便携式的音频应用)也许希望保留一个losslessly压缩的档案为其他应用。 另外,压缩技术继续推进,并且达到科技目前进步水平有损压缩将要求你从lossless,原始的音频数据和压缩再开始以新的lossy编解码器。 有损压缩的本质(为音频和图象)导致质量的增长的退化,如果数据被解压,然后使用有损压缩recompressed。

历史

真正,运作的音频编码制大品种在一件收藏品在卡普坦选区, 1988年2月在IEEE学报在通信(JSAC)被出版了。 当以前有一些纸从那时候时,纸这个纲要提供了整个品种完成的,工作的音频编码人,几乎所有使用感知(即。 掩没的)技术和频率分析和后端无声的编制程序。[1] 几个这些之中文章关于困难获得好,干净的数字式音频陈述了为研究目的。 多数,如果不所有,作者在JSAC编辑也是活跃在MPEG-1音频委员会里。

世界的第一个商业广播自动化音频压缩法系统由Oscar ・ Bonello,工程学教授开发在 布宜诺斯艾利斯大学 .[2] 1983年,使用掩没的psychoacoustic原则重要带1967年首先出版的,[3] 他开始开发根据的一个实际应用最近被开发 IBM个人计算机 计算机1987年和广播自动化系统被发射了以名义 Audicom. 20年后,几乎所有电台在世界使用相似的技术,制造由很多家公司。

编制程序方法

变换领域方法

为了确定什么信息在音频信号感知是毫不相关的,多数有损压缩算法用途变换例如 修改过的分离余弦变换 (MDCT)转换 时间界域 被抽样的信号波形到变换领域里。 一旦变换,典型地成 频域组分频率可以是分配的位根据怎样可听见他们是。 鬼组分的成音度取决于首先计算a 掩没的门限在之下它估计那听起来将是在人感知之外极限。

掩没的门限使用被计算 听力刺激阈 并且原则 同时掩没 -现象,信号由频率分离的另一个信号掩没-和,在某些情况下, 世俗掩没 -信号由时间以前的地方分离的另一个信号掩没。 相等大声等高 可以也使用衡量不同的组分的感知重要性。 合并这样作用的人的耳朵脑子组合的模型经常叫 psychoacoustic模型.

时间界域方法

lossy压缩机的其他类型,例如 线性有预测性的编制程序 (LPC)使用以讲话,是 基于来源的编码人. 这些编码人使用声波发生器的模型(例如人的声道与LPC)在量子化之前漂白音频信号(即,铺平它的光谱)。 LPC也许也被重视作为一个基本的感知编程技术; 一个音频信号的重建使用一个线性预报因子塑造编码人的量子化噪声在,部份地掩没它的目标信号的光谱。

应用

由于lossy算法的本质, 音频质量 遭受,当文件被解压时并且recompressed (世代损失)。 这使有损压缩不合适为存放中间结果在专业音频工程学应用,例如声音编辑和多声道录音。 然而,他们是非常普遍的终端用户(特别 MP3),作为一兆字节能存放一分钟的价值音乐在充分质量。

实用性

lossy音频编解码器的实用性被确定:

  • 被察觉的音频质量
  • 压缩因素
  • 压缩和解压的速度
  • 算法固有潜在因素(重要为实时流出的应用; 下面看见)
  • 软件和硬件支持

Lossy格式为流出的音频的发行或者相互作用应用是常用的(例如讲话编制程序为数字传输在手机网络)。 在这样应用,在整个数据流被传送了之后,必须解压数据作为数据流,而不是。 不是所有的音频编解码器可以为流出的应用使用,并且为这样应用被设计的编解码器流出数据通常将有效地被选择。

潜在因素起因于使用的方法输入和解码数据。 一些编解码器将分析数据的更长的段优选效率,有些然后编码一次要求数据更大的段为了解码的它。 (编解码器经常创造称“框架的”段创造离散信道段为内码和解码。)固有 潜在因素 编制程序算法可以是重要的; 例如,当时数据双向传输,例如以电话谈话,重大延迟也许严重贬低被察觉的质量。

与压缩对比的速度,与操作的数量是比例由算法,潜在因素要求这里提到必须分析样品的数量,在音频块被处理之前。 在极小的案件,潜在因素是0零的样品(即,如果编码人或译码器简单地减少用于的位的数量量子化信号)。 时间界域算法例如LPC经常也有低潜在因素,因此他们的大众化在语音编码为电话。 在算法例如MP3,然而,很大数量的样品在频域必须被分析为了实施一个psychoacoustic模型,并且潜在因素是按照23女士(46的指示女士为双向联系)。

讲话内码

讲话内码 是音频数据压缩一个重要类别。 用于的感知模型估计什么一个人的耳朵能听见一般是有些与用于音乐的那些不同。 频率的范围比为音乐需要的那需要表达人的声音的声音通常狭窄,并且声音通常是较不复杂的。 结果,讲话可以被输入在高质量使用相对地低比特率。

这由二种方法的某一组合是成功的,一般来说, :

  • 可能由唯一人的声音做仅的输入的声音。
  • 丢掉更多数据在信号 -- 刚够保持重建“可理解”声音的而不是人的充分的频率范围 听力.

或许用于讲话内码(和音频数据压缩的最早的算法一般)是 法律算法 并且 µ法律算法.

词汇

ABR
平均数位速率
CBR
恒定数位速率
VBR
易变数位速率

参考

参见

外部链接

The original article is from Wikipedia. To view the original article please click here.
Creative Commons Licence