书签分享收藏举报版权申诉 / 89

立即下载加入VIP,免费下载

当前位置：首页 > 初中教育 > 语文 > 哈夫曼编码encode.docx

哈夫曼编码encode.docx

文档编号：11148211
上传时间：2023-02-25
格式：DOCX
页数：89
大小：240.72KB

哈夫曼编码encode.docx

《哈夫曼编码encode.docx》由会员分享，可在线阅读，更多相关《哈夫曼编码encode.docx（89页珍藏版）》请在冰豆网上搜索。

哈夫曼编码encode.docx

哈夫曼编码encode

哈夫曼编码（HuffmanCoding）

FromMay10Algorithm

Jumpto:

navigation,search

Template:

Translation

哈夫曼编码（HuffmanCoding）是一種編碼方式，以哈夫曼树─即最优二叉树，带权路径长度最小的二叉树，经常应用于数据压缩。

在计算机信息处理中，“哈夫曼编码”是一种一致性编码法（又称"熵编码法"），用于数据的无损耗压缩。

这一术语是指使用一张特殊的编码表将源字符（例如某文件中的一个符号）进行编码。

这张编码表的特殊之处在于，它是根据每一个源字符出现的估算概率而建立起来的（出现概率高的字符使用较短的编码，反之出现概率低的则使用较长的编码，这便使编码之后的字符串的平均期望长度降低，从而达到无损压缩数据的目的）。

这种方法是由David.A.Huffman发展起来的。

例如，在英文中，e的出现概率很高，而z的出现概率则最低。

当利用哈夫曼编码对一篇英文进行压缩时，e极有可能用一个位（bit）来表示，而z则可能花去25个位（不是26）。

用普通的表示方法时，每个英文字母均占用一个字节（byte），即8个位。

二者相比，e使用了一般编码的1/8的长度，z则使用了3倍多。

倘若我们能实现对于英文中各个字母出现概率的较准确的估算，就可以大幅度提高无损压缩的比例。

Incomputerscience,Huffmancodingisanentropyencodingalgorithmusedforlosslessdatacompression.Thetermreferstotheuseofavariable-lengthcodetableforencodingasourcesymbol（suchasacharacterinafile）wherethevariable-lengthcodetablehasbeenderivedinaparticularwaybasedontheestimatedprobabilityofoccurrenceforeachpossiblevalueofthesourcesymbol.ItwasdevelopedbyDavidA.HuffmanasaPh.D.studentatMITin1952,andpublishedinAMethodfortheConstructionofMinimum-RedundancyCodes.

哈夫曼树又称最优二叉树，是一种带权路径长度最短的二叉树。

所谓树的带权路径长度，就是树中所有的叶结点的权值乘上其到根结点的路径长度（若根结点为0层，叶结点到根结点的路径长度为叶结点的层数）。

树的带权路径长度记为WPL=（W1*L1+W2*L2+W3*L3+...+Wn*Ln），N个权值Wi（i=1,2,...n）构成一棵有N个叶结点的二叉树，相应的叶结点的路径长度为Li（i=1,2,...n）。

可以证明哈夫曼树的WPL是最小的。

从树中一个结点到另一个结点之间的构成这两个结点之间的路径，路径上的分支数目称做路径长度。

树的路径长度是从树根到每一结点的路径长度之和。

结点的带权路径长度为从该结点到树根之间的路径长度与结点上权的乘积。

树的带权路径长度为树中所有叶子结点的带权路径长度之和，通常记作

。

假设有n个权值{ω1,ω2,•••,ωn}，试构造一棵有n个叶子结点的二叉树，每个叶子结点带权为ωi，则其中带权路径长度WPL最小的二叉树称做最优二叉树或赫夫曼树。

赫夫曼树构造的算法（圆圈表示叶结点，方块表示非终端结点）。

（关于哈夫曼编码的其他代码）

/*赫夫曼树和赫夫曼编码的存储表示*/

typedefstruct

{

unsignedintweight;

unsignedintparent,lchild,rchild;

}HTNode,*HuffmanTree;/*动态分配数组存储赫夫曼树*/

typedefchar**HuffmanCode;/*动态分配数组存储赫夫曼编码表*/

/*求赫夫曼编码*/

#include"c1.h"

#include"c6-7.h"

#include"func6-1.c"

voidHuffmanCoding（HuffmanTree*HT,HuffmanCode*HC,int*w,intn）/*算法6.12*/

{/*w存放n个字符的权值（均>0），构造赫夫曼树HT，并求出n个字符的赫夫曼编码HC*/

intm,i,s1,s2,start;

unsignedc,f;

HuffmanTreep;

char*cd;

if（n<=1）

return;

m=2*n-1;

*HT=（HuffmanTree）malloc（（m+1）*sizeof（HTNode））;/*0号单元未用*/

for（p=*HT+1,i=1;i<=n;++i,++p,++w）

{

（*p）.weight=*w;

（*p）.parent=0;

（*p）.lchild=0;

（*p）.rchild=0;

}

for（;i<=m;++i,++p）

（*p）.parent=0;

for（i=n+1;i<=m;++i）/*建赫夫曼树*/

{/*在HT[1～i-1]中选择parent为0且weight最小的两个结点，其序号分别为s1和s2*/

select（*HT,i-1,&s1,&s2）;

（*HT）[s1].parent=（*HT）[s2].parent=i;

（*HT）[i].lchild=s1;

（*HT）[i].rchild=s2;

（*HT）[i].weight=（*HT）[s1].weight+（*HT）[s2].weight;

}

/*从叶子到根逆向求每个字符的赫夫曼编码*/

*HC=（HuffmanCode）malloc（（n+1）*sizeof（char*））;

/*分配n个字符编码的头指针向量（[0]不用）*/

cd=（char*）malloc（n*sizeof（char））;/*分配求编码的工作空间*/

cd[n-1]='\0';/*编码结束符*/

for（i=1;i<=n;i++）

{/*逐个字符求赫夫曼编码*/

start=n-1;/*编码结束符位置*/

for（c=i,f=（*HT）[i].parent;f!

=0;c=f,f=（*HT）[f].parent）

/*从叶子到根逆向求编码*/

if（（*HT）[f].lchild==c）

cd[--start]='0';

else

cd[--start]='1';

（*HC）[i]=（char*）malloc（（n-start）*sizeof（char））;

/*为第i个字符编码分配空间*/

strcpy（（*HC）[i],&cd[start]）;/*从cd复制编码（串）到HC*/

}

free（cd）;/*释放工作空间*/

}

voidmain（）

{

HuffmanTreeHT;

HuffmanCodeHC;

int*w,n,i;

printf（"请输入权值的个数（>1）:

"）;

scanf（"%d",&n）;

w=（int*）malloc（n*sizeof（int））;

printf（"请依次输入%d个权值（整型）:

\n",n）;

for（i=0;i<=n-1;i++）

scanf（"%d",w+i）;

HuffmanCoding（&HT,&HC,w,n）;

for（i=1;i<=n;i++）

puts（HC[i]）;

}

/*无栈非递归遍历赫夫曼树，求赫夫曼编码*/

#include"c1.h"

#include"c6-7.h"

#include"func6-1.c"

voidHuffmanCoding（HuffmanTree*HT,HuffmanCode*HC,int*w,intn）*/

{/*w存放n个字符的权值（均>0），构造赫夫曼树HT，并求出n个字符的赫夫曼编码HC*/

intm,i,s1,s2;/*此句与algo6-1.c不同*/

unsignedc,cdlen;/*此句与algo6-1.c不同*/

HuffmanTreep;

char*cd;

if（n<=1）

return;

m=2*n-1;

*HT=（HuffmanTree）malloc（（m+1）*sizeof（HTNode））;/*0号单元未用*/

for（p=*HT+1,i=1;i<=n;++i,++p,++w）

{

（*p）.weight=*w;

（*p）.parent=0;

（*p）.lchild=0;

（*p）.rchild=0;

}

for（;i<=m;++i,++p）

（*p）.parent=0;

for（i=n+1;i<=m;++i）/*建赫夫曼树*/

{/*在HT[1～i-1]中选择parent为0且weight最小的两个结点，其序号分别为s1和s2*/

select（*HT,i-1,&s1,&s2）;

（*HT）[s1].parent=（*HT）[s2].parent=i;

（*HT）[i].lchild=s1;

（*HT）[i].rchild=s2;

（*HT）[i].weight=（*HT）[s1].weight+（*HT）[s2].weight;

}

/*以下为算法6.13，无栈非递归遍历赫夫曼树，求赫夫曼编码，以上同算法6.12*/

*HC=（HuffmanCode）malloc（（n+1）*sizeof（char*））;

/*分配n个字符编码的头指针向量（[0]不用）*/

cd=（char*）malloc（n*sizeof（char））;/*分配求编码的工作空间*/

c=m;

cdlen=0;

for（i=1;i<=m;++i）

（*HT）[i].weight=0;/*遍历赫夫曼树时用作结点状态标志*/

while（c）

{

if（（*HT）[c].weight==0）

{/*向左*/

（*HT）[c].weight=1;

if（（*HT）[c].lchild!

=0）

{

c=（*HT）[c].lchild;

cd[cdlen++]='0';

}

elseif（（*HT）[c].rchild==0）

{/*登记叶子结点的字符的编码*/

（*HC）[c]=（char*）malloc（（cdlen+1）*sizeof（char））;

cd[cdlen]='\0';

strcpy（（*HC）[c],cd）;/*复制编码（串）*/

}

elseif（（*HT）[c].weight==1）

{/*向右*/

（*HT）[c].weight=2;

if（（*HT）[c].rchild!

=0）

{

c=（*HT）[c].rchild;

cd[cdlen++]='1';

}

else

{/*HT[c].weight==2，退回*/

（*HT）[c].weight=0;

c=（*HT）[c].parent;

--cdlen;/*退到父结点，编码长度减1*/

}

free（cd）;

}

voidmain（）

{/*主程序同algo6-1.c*/

HuffmanTreeHT;

HuffmanCodeHC;

int*w,n,i;

printf（"请输入权值的个数（>1）:

"）;

scanf（"%d",&n）;

w=（int*）malloc（n*sizeof（int））;

printf（"请依次输入%d个权值（整型）:

\n",n）;

for（i=0;i<=n-1;i++）

scanf（"%d",w+i）;

HuffmanCoding（&HT,&HC,w,n）;

for（i=1;i<=n;i++）

puts（HC[i]）;

}

关于哈夫曼编码的其他代码

FromMay10Algorithm

Jumpto:

navigation,search

--Brianchon08:

22,224月2006（CDT）

基本类型：

typedefcharlabel_t;

typedefintweight_t;

哈夫曼树结点：

typedefstruct_T_nodenode_t,*node_p;

struct_T_node{

weight_tWeight;

node_pLeft;

union{

label_tLabel;

node_pRight;

}U;

};

下面的代码接受N（N>0）个标签L[]和相应的权值W[]，以此构造哈夫曼树：

node_pHuffman（label_pL,weight_pW,intN）

{

node_pA=（node_p）malloc（（2*N-1）*sizeof（*A））;

inti,j;

将叶子结点初始化到前N个结点中去，我们通过堆来选出结点并甩到数组后面，它们的位置不再改变，保证了指向它们的指针有效。

新生成的内结点取代最后被选出的结点放在A[0]，然后通过下筛入堆。

堆总是在数组A的前端并规模递减，这样堆可以一直维护着而无需重建。

最后生成的内结点是根结点，它正好是放置在A[0]，这样我们返回的根结点指针也是分配出的内存块指针A，可以用于稍后的free（）调用。

for（i=0,i

A[i].Left=0;

A[i].U.Label=L[i];

A[i].Weight=W[i];

}

通过下筛过程建堆，下筛建堆可以在线性时间内完成。

for（i=N/2-1;i>=0;--i）

Sift（A,i,N）;

建立树的过程是：

不断从堆中提取权值最小的两个结点，并创建连接这两个结点的内结点，然后将其纳入堆中。

A[i]是堆中的最后一个结点，j指向上次被选出的结点，新选出的结点将紧接在它们前面放置。

i=N-1,j=2*N-1;

while（i>0）{

A[--j]=A[0];

Sift_new（A,0,i,A+i）;

A[--j]=A[0];

A[0].Left=A+j;

A[0].U.Right=A+j+1;

A[0].Weight=A[j].Weight+A[j+1].Weight;

Sift（A,0,i--）;

}

returnA;

}

下筛例程如下，这样写的目的是为了尽量减少结构的赋值。

Sift_new从A[i]开始向下在堆中寻找合适的位置放置新结点Node，A[i]开始时是空闲的。

voidSift_new（node_pA,inti,intN,node_pNode）

{

for（ ; ;）{

intj=（i+1）*2;

if（j>N）

break;

if（j==N||A[j-1].Weight

--j;

if（Node->Weight<=A[j].Weight）

break;

A[i]=A[j];

i=j;

}

A[i]=*Node;

}

voidSift（node_pA,inti,intN）

{

intj=（i+1）*2;

if（j<=N）{

if（j==N||A[j-1].Weight

--j;

if（A[i].Weight>A[j].Weight）{

node_tT=A[i];

A[i]=A[j];

Sift_new（A,j,N,&T）;

}

RLE

RLE又叫RunLengthEncoding，是一个针对无损压缩的非常简单的算法。

它用重复字节和重复的次数来简单描述来代替重复的字节。

尽管简单并且对于通常的压缩非常低效，但它有的时候却非常有用（例如，JPEG就使用它）。

1.1.原理

图2.1显示了一个如何使用RLE算法来对一个数据流编码的例子，其中出现六次的符号‘93’已经用3个字节来代替：

一个标记字节（‘0’在本例中）重复的次数（‘6’）和符号本身（‘93’）。

RLE解码器遇到符号‘0’的时候，它表明后面的两个字节决定了需要输出哪个符号以及输出多少次。

1.2.实现

RLE可以使用很多不同的方法。

基本压缩库中详细实现的方式是非常有效的一个。

一个特殊的标记字节用来指示重复节的开始，而不是对于重复非重复节都codingrun。

因此非重复节可以有任意长度而不被控制字节打断，除非指定的标记字节出现在非重复节（顶多以两个字节来编码）的稀有情况下。

为了最优化效率，标记字节应该是输入流中最少出现的符号（或许就不存在）。

重复runs能够在32768字节的时候运转。

少于129字节的要求3个字节编码（标记+次数+符号），而大雨128字节要求四个字节（标记+次数的高4位|0x80+次数的低4位）。

这是通常所有采用的压缩的做法，并且也是相比较三个字节固定编码（允许使用3个字节来编码256个字节）而言非常少见的有损压缩率的方法。

在这种模式下，最坏的压缩结果是：

输出大小=257/256*输入大小+1

2. 哈夫曼

哈夫曼编码是无损压缩当中最好的方法。

它使用预先二进制描述来替换每个符号，长度由特殊符号出现的频率决定。

常见的符号需要很少的位来表示，而不常见的符号需要很多为来表示。

哈夫曼算法在改变任何符号二进制编码引起少量密集表现方面是最佳的。

然而，它并不处理符号的顺序和重复或序号的序列。

2.1.原理

我不打算探究哈夫曼编码的所有实际的细节，但基本的原理是为每个符号找到新的二进制表示，从而通常符号使用很少的位，不常见的符号使用较多的位。

简短的说，这个问题的解决方案是为了查找每个符号的通用程度，我们建立一个未压缩数据的柱状图；通过递归拆分这个柱状图为两部分来创建一个二叉树，每个递归的一半应该和另一半具有同样的权（权是∑NK=1符号数k,N是分之中符号的数量，符号数k是符号k出现的次数）

这棵树有两个目的：

1．编码器使用这棵树来找到每个符号最优的表示方法

2．解码器使用这棵树唯一的标识在压缩流中每个编码的开始和结束，其通过在读压缩数据位的时候自顶向底的遍历树，选择基于数据流中的每个独立位的分支，一旦一个到达叶子节点，解码器知道一个完整的编码已经读出来了。

我们来看一个例子会让我们更清楚。

图2.2显示了一个10个字节的未压缩的数据。

根据符号频率，哈夫曼编码器生成哈夫曼树（图2.4）和相应的编码表示（图2.3）。

你可以看到，常见的符号接近根，因此只要少数位来表示。

于是最终的压缩数据流如图2.5所示。

压缩后的数据流是24位（三个字节），原来是80位（10个字节）。

当然，我应该存储哈夫曼树，这样解码器就能够解码出对应的压缩流了，这就使得该例子中的真正数据流比输入的流数据量大。

这是相对较短的数据上的副作用。

对于大数据量来说，上面的哈夫曼树就不占太多比例了。

解码的时候，从上到下遍历树，为压缩的流选择从左/右分支，每次碰到一个叶子节点的时候，就可以将对应的字节写到解压输出流中，然后再从根开始遍历。

2.2.实现

哈夫曼编码器可以在基本压缩库中找到，其是非常直接的实现。

这个实现的基本缺陷是：

1．慢位流实现

2．相当慢的解码（比编码慢）

3．最大的树深度是32（编码器在任何超过32位大小的时候退出）。

如果我不是搞错的话，这是不可能的，除非输出的数据大于232字节。

另一方面，这个实现有几个优点：

1．哈夫曼树以一个紧密的形式每个符号要求12位（对于8位的符号）的方式存储，这意味着最大的头为384。

2．编码相当容易理解

哈夫曼编码在数据有噪音的情况（不是有规律的，例如RLE）下非常好，这中情况下大多数基于字典方式的编码器都有问题。

3. Rice

对于由大word（例如：

16或32位）组成的数据和教低的数据值，Rice编码能够获得较好的压缩比。

音频和高动态变化的图像都是这种类型的数据，它们被某种预言预处理过（例如delta相邻的采样）。

尽管哈夫曼编码处理这种数据是最优的，却由于几个原因而不适合处理这种数据（例如：

32位大小要求16GB的柱状图缓冲区来进行哈夫曼树编码）。

因此一个比较动态的方式更适合由大word组成的数据。

3.1.原理

Rice编码背后的基本思想是尽可能的用较少的位来存储多个字（正像使用哈夫曼编码一样）。

实际上，有人可能想到Rice是静态的哈夫曼编码（例如，编码不是由实际数据内容的统计信息决定，而是由小的值比高的值常见的假定决定）。

编码非常简单：

将值X用X个‘1’位之后跟一个0位来表示。

3.2.实现

在基本压缩库针对Rice做了许多优化：

1．每个字最没有意义的位被存储为k和最有意义的N-k位用Rice编码。

K作为先前流中少许采样的位平均数。

这是通常最好使用Rice编码的方法，隐藏噪音且对于动态变化的范围并不导致非常长的Rice编码。

2．如果rice编码比固定的开端长，T，一个可选的编码：

输出T个‘1’位，紧跟（log2（X-T））个‘1’和一个‘0’位，接着是X-T（最没有意义的（log2（X-T））-1位）。

这对于大值来说都是比较高效的代码并且阻止可笑的长Rice编码（最坏的情况，对于一个32位word单个Rice编码可能变成232位或512MB）。

如果开端是4，下面是结果编码表：

X

bin

Rice

Thresholded

Rice

0

00000

0

1

00001

10

2

00010

110

3

00011

1110

4

00100

11110

5

00101

111110

6

00110

1111110

11111100

+1

7

00111

11111110

11111101

8

01000

111111110

1111111000

+1

9

01001

1111111110

1111111001

10

01010

11111111110

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 哈夫曼编码 encode

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：哈夫曼编码encode.docx
链接地址：https://www.bdocx.com/doc/11148211.html

哈夫曼编码encode.docx

热门标签