数的定标Word格式文档下载.docx
- 文档编号:20889006
- 上传时间:2023-01-26
- 格式:DOCX
- 页数:20
- 大小:29.63KB
数的定标Word格式文档下载.docx
《数的定标Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《数的定标Word格式文档下载.docx(20页珍藏版)》请在冰豆网上搜索。
):
定点数(
)转换为浮点数(x):
例如,浮点数
x=0.5,定标
Q=15,则定点数
=
,式中表示下取整。
反之,一个用
Q=15
表示的定点数16384,其浮点数为16384×
2-15
=16384/32768=0.5。
表3.1
Q表示、S表示及数值范围
Q表示
S表示
十进制数表示范围
Q15
S0.15
-1≤X≤0.9999695
Q14
S1.14
-2≤X≤1.9999390
Q13
S2.13
-4≤X≤3.9998779
Q12
S3.12
-8≤X≤7.9997559
Q11
S4.11
-16≤X≤15.9995117
Q10
S5.10
-32≤X≤31.9990234
Q9
S6.9
-64≤X≤63.9980469
Q8
S7.8
-128≤X≤127.9960938
Q7
S8.7
-256≤X≤255.9921875
Q6
S9.6
-512≤X≤511.9804375
Q5
S10.5
-1024≤X≤1023.96875
Q4
S11.4
-2048≤X≤2047.9375
Q3
S12.3
-4096≤X≤4095.875
Q2
S13.2
-8192≤X≤8191.75
Q1
S14.1
-16384≤X≤16383.5
Q0
S15.0
-32768≤X≤32767
3.2
高级语言:
从浮点到定点
在编写DSP模拟算法时,为了方便,一般都是采用高级语言(如C语言)来编写模拟程序。
程序中所用的变量一般既有整型数,又有浮点数。
如例3.1程序中的变量i是整型数,而pi是浮点数,hamwindow则是浮点数组。
例3.1
256点汉明窗计算
int
i;
float
pi=3.14159;
hamwindow[256];
for(i=0;
i<
256;
i++)
hamwindow[i]=0.54-0.46*cos(2.0*pi*i/255);
如果要将上述程序用某种定点DSP芯片来实现,则需将上述程序改写为DSP芯片的汇编语言程序。
为了DSP程序调试的方便及模拟定点DSP实现时的算法性能,在编写DSP汇编程序之前一般需将高级语言浮点算法改写为高级语言定点算法。
下面讨论基本算术运算的定点实现方法。
st1"
smarttags"
3.2.1
加法/减法运算的C语言定点模拟
设浮点加法运算的表达式为:
floatx,y,z;
z=x+y;
将浮点加法/减法转化为定点加法/减法时最重要的一点就是必须保证两个操作数的定标值一样。
若两者不一样,则在做加法/减法运算前先进行小数点的调整。
为保证运算精度,需使Q值小的数调整为与另一个数的Q值一样大。
此外,在做加法/减法运算时,必须注意结果可能会超过16位表示。
如果加法/减法的结果超出16位的表示范围,则必须保留32位结果,以保证运算的精度。
1.结果不超过16位表示范围
设x的Q值为Qx,y的Q值为Qy,且Qx>
Qy,加法/减法结果z的定标值为Qz,则
z=x+y
⇒
=
所以定点加法可以描述为:
intx,y,z;
longtemp;
temp=y<
(Qx-Qy);
temp=x+temp;
z=(int)(temp>
>
(Qx-Qz)),
若Qx≥Qz
z=(int)(temp<
(Qz-Qx)),
若QxQ≤z
例3.2
定点加法
设x=0.5,y=3.1,则浮点运算结果为z=x+y=0.5+3.1=3.6;
Qx=15,Qy=13,Qz=13,则定点加法为:
x=16384;
y=25395;
temp=25395<
2=101580;
temp=x+temp=16384+101580=117964;
z=(int)(117964L>
2)=29491;
因为z的Q值为13,所以定点值z=29491即为浮点值z=29491/8192=3.6。
例3.3
定点减法
设x=3.0,y=3.1,则浮点运算结果为z=x-y=3.0-3.1=-0.1;
Qx=13,Qy=13,Qz=15,则定点减法为:
x=24576;
y=25295;
temp=25395;
temp=x-temp=24576-25395=-819;
因为Qx<
Qz,故
z=(int)(-819<
2)=-3276。
由于z的Q值为15,所以定点值z=-3276即为浮点值z=-3276/32768≈-0.1。
2.结果超过16位表示范围
Qy,加法结果z的定标值为Qz,则定点加法为:
intx,y;
longtemp,z;
(Qx-Qy);
z=temp>
(Qx-Qz),若Qx≥Qz
z=temp<
(Qz-Qx),若Qx≤Qz
例3.4
结果超过16位的定点加法
设x=15000,y=20000,则浮点运算值为z=x+y=35000,显然z>
32767,因此
Qx=1,Qy=0,Qz=0,则定点加法为:
x=30000;
y=20000;
temp=20000<
1=40000;
temp=temp+x=40000+30000=70000;
z=70000L>
1=35000;
因为z的Q值为0,所以定点值z=35000就是浮点值,这里z是一个长整型数。
当加法或加法的结果超过16位表示范围时,如果程序员事先能够了解到这种情况,并且需要保证运算精度时,则必须保持32位结果。
如果程序中是按照16位数进行运算的,则超过16位实际上就是出现了溢出。
如果不采取适当的措施,则数据溢出会导致运算精度的严重恶化。
一般的定点DSP芯片都设有溢出保护功能,当溢出保护功能有效时,一旦出现溢出,则累加器ACC的结果为最大的饱和值(上溢为7FFFH,下溢为8001H),从而达到防止溢出引起精度严重恶化的目的。
3.2.2
乘法运算的C语言定点模拟
设浮点乘法运算的表达式为:
z=xy;
假设经过统计后x的定标值为Qx,y的定标值为Qy,乘积z的定标值为Qz,则
z=xy
=
所以定点表示的乘法为:
temp=(long)x;
z=(temp×
y)>
(Qx+Qy-Qz);
例3.5
定点乘法
设x=18.4,y=36.8,则浮点运算值为z=18.4×
36.8=677.12;
根据上节,得Qx=10,Qy=9,Qz=5,所以
x=18841;
y=18841;
temp=
18841L;
z=(18841L*18841)>
(10+9-5)=
354983281L>
14=21666;
因为z的定标值为5,故定点
z=21666即为浮点的
z=21666/32=677.08。
3.2.3
除法运算的C语言定点模拟
设浮点除法运算的表达式为:
z=x/y;
假设经过统计后被除数x的定标值为Qx,除数y的定标值为Qy,商z的定标值为Qz,则
z=x/y
所以定点表示的除法为:
z=(temp<
(Qz-Qx+Qy))/y;
例3.6
定点除法
设x=18.4,y=36.8,浮点运算值为z=x/y=18.4/36.8=0.5;
根据上节,得Qx=10,Qy=9,Qz=15;
所以有
x=18841,y=18841;
temp=(long)18841;
z=(18841L<
(15-10+9))/18841=
308690944L/18841=16384;
因为商z的定标值为15,所以定点z=16384即为浮点
z=16384/215=0.5。
3.2.4
程序变量的Q值确定
在前面几节介绍的例子中,由于x、y、z的值都是已知的,因此从浮点变为定点时Q值很好确定。
在实际的DSP应用中,程序中参与运算的都是变量,那么如何确定浮点程序中变量的Q值呢?
从前面的分析可以知道,确定变量的Q值实际上就是确定变量的动态范围,动态范围确定了,则Q值也就确定了。
设变量的绝对值的最大值为
,注意
必须小于或等于32767。
取一个整数n,使它满足
则有
Q=15-n
例如,某变量的值在-1至+1之间,即
1,因此n=0,Q=15-n=15。
确定了变量的
就可以确定其Q值,那么变量的
又是如何确定的呢?
一般来说,确定变量的
有两种方法:
一种是理论分析法,另一种是统计分析法。
1.理论分析法
有些变量的动态范围通过理论分析是可以确定的。
(1)
三角函数,y
=sin(x)或y
=cos(x),由三角函数知识可知,|y|≤1;
(2)
汉明窗,y(n)=0.54-0.46cos[2πn/(N-1)]
,0≤n≤N-1。
因为-1≤cos[2πn/(N-1)]≤1,所以0.08≤y(n)≤1.0;
(3)FIR卷积。
y(n)=
,设
,且x(n)是模拟信号12位量化值,即有
≤211,则
≤211;
(4)
理论已经证明,在自相关线性预测编码(LPC)的程序设计中,反射系数
满足下列不等式:
,i=1,2,…,p,p为LPC的阶数。
2.统计分析法
对于理论上无法确定范围的变量,一般采用统计分析的方法来确定其动态范围。
所谓统计分析,就是用足够多的输入信号样值来确定程序中变量的动态范围,这里输入信号一方面要有一定的数量,另一方面必须尽可能地涉及各种情况。
例如,在语音信号分析中,统计分析时就必须采集足够多的语音信号样值,并且在所采集的语音样值中,应尽可能地包含各种情况,如音量的大小、声音的种类(男声、女声)
等。
只有这样,统计出来的结果才能具有典型性。
当然,统计分析毕竟不可能涉及所有可能发生的情况,因此,对统计得出的结果在程序设计时可采取一些保护措施,如适当牺牲一些精度,Q值取比统计值稍大些,使用DSP芯片提供的溢出保护功能等。
3.2.5
浮点至定点变换的C程序举例
本节通过一个例子来说明C程序从浮点变换至定点的方法。
这是一个对语音信号(0.3kHz~3.4kHz)进行低通滤波的C语言程序,低通滤波的截止频率为800Hz,滤波器采用19点的有限冲击响应FIR滤波。
语音信号的采样频率为8kHz,每个语音样值按16位整型数存放在insp.dat文件中。
例3.7
语音信号800Hz19点FIR低通滤波C语言浮点程序
#include<
stdio.h>
const
intlength=180
void
filter(intxin[],intxout[],intn,floath[]);
static
floath[19]=
{0.01218354,-0.009012882,-0.02881839,-0.04743239,-0.04584568,
-0.008692503,0.06446265,0.1544655,0.2289794,0.257883,
0.2289794,0.1544655,0.06446265,-0.008692503,-0.04584568,
-0.04743239,-0.02881839,-0.009012882,0.01218354};
intx1[length+20];
filter(intxin[],intxout[],intn,floath[])
{
inti,j;
floatsum;
length;
i++)x1[n+i-1]=xin[i];
for(i=0;
i++)
sum=0.0;
for(j=0;
j<
n;
j++)sum+=h[j]*x1[i-j+n-1];
xout[i]=(int)sum;
}
(n-1);
i++)x1[n-i-2]=xin[length-1-i];
main()
FILE
*fp1,*fp2;
frame,indata[length],outdata[length];
fp1=fopen(insp.dat,"
rb"
);
fp2=fopen(outsp.dat,"
wb"
frame=0;
while(feof(fp1)==0)
frame++;
printf("
frame=%dn"
frame);
indata[i]=getw(fp1);
filter(indata,outdata,19,h);
putw(outdata[i],fp2);
fcloseall();
return(0);
例3.8
语音信号800Hz19点FIR低通滤波C语言定点程序
constintlength=180;
filter(intxin[],intxout[],intn,inth[]);
staticint
h[19]={399,-296,-945,-1555,-1503,-285,2112,5061,7503,8450,
7503,5061,2112,-285,-1503,-1555,-945,-296,399};
x1[length+20];
filter(intxin[],intxout[],intn,inth[])
longsum;
sum=0;
j++)
sum+=(long)h[j]*x1[i-j+n-1];
xout[i]=sum>
15;
i++)x1[n-i-2]=xin[length-i-1];
主程序与浮点的完全一样。
3.3
DSP定点算术运算
定点DSP芯片的数值表示是基于2的补码表示形式。
每个16位数用1个符号位、i个整数位和15-i个小数位来表示。
因此数00000010.10100000表示的值为
=2.625,这个数可用Q8格式(8个小数位)来表示,它表示的数值范围为-128~+127.996,一个Q8定点数的小数精度为1/256=0.004。
虽然特殊情况(如动态范围和精度要求)必须使用混合表示法,但是,更通常的是全部以Q15格式表示的小数或以Q0格式表示的整数来工作。
这一点对于主要是乘法和累加的信号处理算法特别现实,小数乘以小数得小数,整数乘以整数得整数。
当然,乘积累加时可能会出现溢出现象,在这种情况下,程序员应当了解数学里面的物理过程以注意可能的溢出情况。
下面讨论乘法、加法和除法的DSP定点运算,汇编程序以TMS320C25为例。
3.3.1
2个定点数相乘时可以分为下列3种情况:
1.小数乘小数
Q15×
Q15=Q30
例3.9
0.5*0.5=0.25
0.100000000000000
;
×
Q15
00.010000000000000000000000000000=0.25
Q30
2个Q15的小数相乘后得到1个Q30的小数,即有2个符号位。
一般情况下相乘后得到的满精度数不必全部保留,而只需保留16位单精度数。
由于相乘后得到的高16位不满15位的小数精度,为了达到15位精度,可将乘积左移1位,下面是上述乘法的TMS320C25程序:
LT
OP1
OP1=4000H(0.5/Q15)
MPY
OP2
OP2=4000H(0.5/Q15)
PAC
SACH
ANS,1
ANS=2000H(0.25/Q15)
2.整数乘整数
Q0×
Q0=Q0
例3.10
17×
(-5)=-85
0000000000010001=17
1111111111111011=-5
11111111111111111111111110101011=-85
3.混合表示法
许多情况下,运算过程中为了既满足数值的动态范围又保证一定的精度,就必须采用Q0与Q15之间的表示法。
比如,数值1.2345,显然Q15无法表示,而若用Q0表示,则最接近的数是1,精度无法保证。
因此,数1.2345最佳的表示法是Q14。
例3.11
1.5×
0.75=1.125
01.10000000000000=1.5
00.11000000000000=0.75
Q14
0001.0010000000000000000000000000=1.125;
Q28
Q14的最大值不大于2,因此,2个Q14数相乘得到的乘积不大于4。
一般的,若一个数的整数位为
i位,小数位为
j
位,另一个数的整数位为
m
位,小数位为
n
位,则这两个数的乘积为
(i+m)位整数位和(j+n)位小数位。
这个乘积的最高16位可能的精度为(i+m)整数位和(15
-
i
m)小数位。
但是,若事先了解数的动态范围,就可以增加数的精度。
例如,程序员了解到上述乘积不会大于1.8,就可以用Q14数表示乘积,而不是理论上的最佳情况Q13。
例3.11的TMS320C25程序如下:
;
OP1=6000H(1.5/Q14)
OP2=3000H(0.75/Q14)
ANS=2400H(1.125/Q13)
上述方法为了保证精度均对乘的结果舍位,结果所产生的误差相当于减去1个LSB(最低位)。
采用下面简单的舍入方法,可使误差减少二分之一。
OP1
OP2
ADD
ONE,14
(上舍入)
ANS,1
上述程序说明,不管ANS为正或负,所产生的误差是1/2LSB,其中存储单元ONE的值为1。
3.3.2
乘的过程中,程序员可不考虑溢出而只需调整运算中的小数点。
而加法则是一个更加复杂的过程。
首先,加法运算必须用相同的Q点表示;
其次,程序员或者允许其结果有足够的高位以适应位的增长,或者必须准备解决溢出问题。
如果操作数仅为16位长,其结果可用双精度数表示。
下面举例说明16位数相加的两种途径。
1.保留32位结果
LAC
(Q15)
ANSHI
(高16位结果)
SACL
ANSLO
(低16位结果)
2.调整小数点保留16位结果
OP1,15
(Q14数用ACCH表示)
OP2,15
ANS
(Q14)
加法运算最可能出现的问题是运算结果溢出。
TMS320提供了检查溢出的专用指令BV,此外,使用溢出保护功能可使累加结果溢出时累加器饱和为最大的整数或负数。
当然,即使如此,运算精度还是大大降低。
因此,最好的方法是完全理解基本的物理过程并注意选择数的表达方式。
3.3.3
在通用DSP芯片中,一般不提供单周期的除法指令,为此必须采用除法子程序来实现。
二进制除法是乘法的逆运算。
乘法包括一系列的移位和加法,而除法可分解为一系列的减法和移位。
下面来说明除法的实现过程。
设累加器为8位,且除法运算为10除以3。
除的过程就是除数逐步移位并与被除数比较的过程,在每一步进行减法运算,如果能减则将位插入商中。
除数的最低有效位对齐被除数的最高有效位。
00001010
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 定标