基于信源统计特性,将信源输出符号序列变换为最短码字序列,并使其各码元之平均信息量最大,同时又保证能无失真地恢复出原来符号序列。
信源编码理论是基于1948年美国数学家C.E.香农在其著名的论文《通信的数学理论》中提出的信源编码定理,他证明了可用略大于信息熵的码平均长度来对信源进行无失真的编码,为信源编码的研究指出了方向。显然,一切有利于减少信源输出符号序列冗余度的变换或处理,均属于信源编码的范畴。包含信源编码的通信系统模型如图所示。
信源编码的通信系统模型
信源编码包含两方面的工作:一方面是研究各种实际信源所应有的信源熵,这不仅涉及对信源进行统计测量,更重要的是对信源的表示及描述方法的研究,不同的表示与描述方法可能导致不同的信源熵估计;一方面是解决编码方法的结构化,使给定的编码效率可以在技术上得以实现。前者进展不大,而后者却成果显著,如在语音通信及图像通信中广泛采用的各种压缩编码方法等。
信源分为离散信源和连续信源,要先判断信源的类型,然后采取相应的编码方法,但编码途径都是解除序列符号之间的相关性与概率均匀化。
①离散信源编码。输出的消息属于时间离散、取值有限或可数的随机序列的信源为离散信源。对于离散信源,根据信源编码的无失真信源编码定理,将等长的消息变成变长的消息,使得平均码长最短,提高编码效率。其编码方法主要有香农编码、费诺编码和哈夫曼编码3种。其中,香农编码有着全面的、唯一确定的编码方法,但是效率最低。费诺编码和哈夫曼编码的编码方法都不唯一。费诺编码适用于对分组概率相等或接近的信源编码,哈夫曼编码对系统的统计特性无特殊要求,效率最高,综合性能最优。
②连续信源编码。输出的消息属于时间连续、取值连续、无限或不可数的随机序列的信源为连续信源。对于连续信源,在满足保真度原则下,根据限失真信源编码定理,由于连续信源在时间和取值上都是连续的,因此要使得信源在时间和取值上离散,转变为离散信源,就可以采用离散编码定理进行编码。首先使其在时间上离散,采取的方法是抽样,抽取离散点,这些离散点须代表整个信号。然后再经过均匀量化或非均匀量化使信号在取值上也离散,成为离散的数字信号。在值域上选取有限个量化值中的一个来代替信号值即量化,量化肯定带来误差。量化后转化为离散信源编码,而离散信源编码属于无失真编码,因此连续信源编码的误差来自量化过程。
不同类型的信源,是否存在最佳的信源编码,通常由信源编码定理来表示。最简单、最有实用指导意义的信源编码定理是离散、无记忆型信源的二进制变长编码的编码定理。它证明,一定存在一种无失真编码,当把
个符号进行编码时,平均每个符号所需二进制码的码长满足:

式中
为信源的符号熵(比特),这就是说,最佳的信源编码应是与信源信息熵
统计匹配的编码,代码长度可接近符号熵。这一结论不仅表明最佳编码存在,而且还给出具体构造码的方法,即按概率特性编成不等长度码。对不同类型信源,如离散或连续、无记忆或有记忆、平稳或非平稳以及无失真或限定失真等,可以构成不同的组合信源,它们都存在各自的信源编码定理。但它们中绝大部分仅是属于理论上的存在性定理,这给具体寻找和实现不同类型信源的信源编码,带来了相当的难度。
基本信源空间与时间冗余特性的预测编码、变换编码以及与统计无关的信源编码方法,如各种量化技术等已发展得相当成熟。小波编码也属于变换编码,已经广泛应用于图像信号的处理。一方面,它拥有传统信源编码方法的优点,可很好消除图像数据中的统计冗余。另一方面,小波变换的多分辨率与多尺度分析信号的特性,提供了利用人眼视觉特性,消除图像中其他冗余信息的机制。
分形编码是在分形几何理论基础上发展起来的一种方法。分形理论是欧氏几何相关理论的扩展,描述了自然界物体的自相似性,这种自相似可是确定的,也可是统计意义上的。有研究者在分形编码中引入迭代函数系统来刻画这种自相似性,并将其用于图像编码,对某些特定图像获得了10000∶1的压缩比,显示出这种编码方法的潜力。
随着信息技术的普遍应用,大容量信息传输与存储的需要,信源编码及相应数据压缩方法已经成为有广泛应用前景的高技术。国际标准化组织为此制定出通用的国际标准,如在语音编码方面有国际电报电话咨询委员会(Consultative Committee on International Telegraph and Telephone,CCITT)的G系列标准等;在图像方面有JPEG、JPEG2000以及MPEG1.2.4、H.261、H.263标准等。这些标准已在语音、图像和多媒体等众多领域获得了广泛的应用。