词法分析.docx
- 文档编号:12032027
- 上传时间:2023-04-16
- 格式:DOCX
- 页数:25
- 大小:238.58KB
词法分析.docx
《词法分析.docx》由会员分享,可在线阅读,更多相关《词法分析.docx(25页珍藏版)》请在冰豆网上搜索。
词法分析
词法分析实验报告
一、实验目的与要求
通过编写和调试一个词法分析程序,掌握在对程序设计语言的源程序进行扫描的过程中,将字符形式的源程序流转化为一个由各类单词符号组成的流的词法分析方法。
二、实验内容
根据教学要求并结合学生自己的兴趣和具体情况,从具有代表性的高级程序设计语言的各类典型单词中,选取一个适当大小的子集。
例如,可以完成无符号常数这一类典型单词的识别后,再完成一个尽可能兼顾到各种常数、关键字、标识符和各种运算符的扫描器的设计和实现。
输入:
由符合和不符合所规定的单词类别结构的各类单词组成的源程序文件。
输出:
把单词的字符形式表示翻译成编译器的内部表示,确定单词串的输出形式,并将其结果放到某个文件中。
要求所输出的每一单词均按形如(CLASS,VALUE)的二元式编码。
对于变量和常数,CLASS字段为相应的类别码;VALUE字段则是该标识符、常数的具体值或在其符号表中登记项的序号(要求在变量名表登记项中存放该标识符的字符串;常数表登记项中则存放该常数的二进制形式)。
对于关键字和运算符,采用一词一类的编码形式;由于采用一词一类的编码方式,所以仅需在二元式的CLASS字段上放置相应的单词的类别码,VALUE字段则为“空”。
不过,为便于查看由词法分析程序所输出的单词串,要求在CLASS字段上放置单词类别的助记符。
三、实现方法与环境
词法分析是编译程序的第一个处理阶段,可以通过两种途径来构造词法分析程序。
其一是根据对语言中各类单词的某种描述或定义(如BNF),用手工的方式(例如可用C语言)构造词法分析程序。
一般地,可以根据文法或状态转换图构造相应的状态矩阵,该状态矩阵连同控制程序一起便组成了编译器的词法分析程序;也可以根据文法或状态转换图直接编写词法分析程序。
构造词法分析程序的另外一种途径是所谓的词法分析程序的自动生成,即首先用正规式对语言中的各类单词符号进行词型描述,并分别指出在识别单词时,词法分析程序所应进行的语义处理工作,然后由一个所谓词法分析程序的构造程序对上述信息进行加工。
如美国BELL实验室研制的LEX就是一个被广泛使用的词法分析程序的自动生成工具。
总的来说,开发一种新语言时,由于它的单词符号在不停地修改,采用LEX等工具生成的词法分析程序比较易于修改和维护。
一旦一种语言确定了,则采用手工编写词法分析程序效率更高。
四、基本实验题目
题目:
试用手工编码方式构造识别以下给定单词的某一语言的词法分析程序(包含无符号数)。
语言中具有的单词包括五个关键字begin、end、if、then、else;标识符;整型常数;六种关系运算符;一个赋值符和四个算术运算符。
参考实现方法简述如下。
单词的分类:
构造上述语言中的各类单词符号及其分类码表。
表I语言中的各类单词符号及其分类码表
单词符号
类别编码
类别码的助记符
单词值
begin
1
BEGIN
end
2
END
if
3
IF
then
4
THEN
else
5
ELSE
标识符
6
ID
字母打头的字母数字串
整常数
7
INT
数字串
<
8
LT
<=
9
LE
=
10
EQ
<>
11
NE
>
12
GT
>=
13
GE
:
=
14
IS
+
15
PL
-
16
MI
*
17
MU
/
18
DI
处理过程:
在一个程序设计语言中,一般都含有若干类单词符号,为此可首先为每类单词建立一张状态转换图,然后将这些状态转换图合并成一张统一的状态图,即得到了一个有限自动机,再进行必要的确定化和状态数最小化处理,最后据此构造词法分析程序。
在此为了使词法分析程序结构比较清晰,且尽量避免某些枝节问题的纠缠,假定要编译的语言中,全部关键字都是保留字,程序员不得将它们作为源程序中的标识符;在源程序的输入文本中,关键字、标识符、整常数之间,若未出现关系和算术运算符以及赋值符,则至少须用一个空白字符加以分隔。
作了这些限制以后,就可以把关键字和标识符的识别统一进行处理。
即每当开始识别一个单词时,若扫视到的第一个字符为字母,则把后续输入的字母或数字字符依次进行拼接,直至扫视到非字母、数字字符为止,以期获得一个尽可能长的字母数字字符串,然后以此字符串查所谓保留字表(此保留字表已事先造好),若查到此字符串,则取出相应的类别码;反之,则表明该字符串应为一标识符。
采用上述策略后,针对表I中部分单词可以构造一个如图1所示的有限自动机(以状态转换图表示)。
在图1中添加了当进行状态转移时,词法分析程序应执行的语义动作。
根据图1,可用C语言编写出符合以上几项要求的一个相应的扫描器程序,如程序一所示。
无符号常数的单词分类码助记符:
UCON;其值为无符号常数的机内二进制表示。
描述无符号数的正规文法和状态转换图:
无符号数的右线性文法G1[<无符号数>]如下:
〈无符号数〉→d〈余留无符号数〉
〈无符号数〉→·〈小数部分〉
〈无符号数〉→d
〈余留无符号数〉→d〈余留无符号数〉
〈余留无符号数〉→·〈十进小数〉
〈余留无符号数〉→E〈指数部分〉
〈余留无符号数〉→d
〈余留无符号数〉→·
〈十进小数〉→E〈指数部分〉
〈十进小数〉→d〈十进小数〉
〈十进小数〉→d
〈小数部分〉→d〈十进小数〉
〈小数部分〉→d
〈指数部分〉→d〈余留整指数〉
〈指数部分〉→+〈整指数〉
〈指数部分〉→-〈整指数〉
〈指数部分〉→d
〈整指数〉→d〈余留整指数〉
〈整指数〉→d
〈余留整指数〉→d〈余留整指数〉
〈余留整指数〉→d
图2所示为上述文法的状态转换图,其中编号0、1、2、…、6分别代表非终结符号<无符号数>、<余留无符号数>、<十进小数>、<小数部分>、<指数部分>、<整指数>及<余留整指数>。
图2文法G1[<无符号数>]的状态转换图
实现无符号数识别的参考方法:
在计算机内实现状态转换图的方法之一,是以状态图中的各个状态为行,以可能输入的各个输入符号为列,组成一个状态矩阵。
其中,矩阵的元素用来指明下一个状态和扫描器应完成的语义动作(如拼接字符、数制转换、查填符号表以及输出单词的内部表示等)。
由于在一个状态矩阵中,通常有许多状态都是出错状态,为了节省存放状态矩阵的存储空间,在具体实现时,常常采用更为紧凑和有效的数据结构。
例如,对于文法G1[<无符号数>]的状态转换图,可按表II的形式来存放其状态矩阵。
表II中的第一列为各状态Si的编号,第二列分别列出了在每一状态下可能扫视到的输入符号aj(其中“other”是一个符号集合,用来表示在相应状态所属的那一栏中,除其前所列字符之外的全部其它字符),第三列指出当(Si,aj)出现时应执行的语义动作(通常用若干个语句来实现,若其为空,则表示不进行任何处理),最后一列用来指明下一状态的编号(若其为NULL或“结束”则表示无后继状态)。
状态矩阵中所嵌入的语义动作,其功能是在扫描源程序字符串的过程中,把识别出的字符串形式的无符号数的值,逐步转换为相应的二进制整数(ICON)或二进制浮点数(FCON)的内部形式,方法详见教材第56页。
(注:
考虑能否采用C语言的库函数实现此语义处理工作。
)
表II包含语义处理过程的识别无符号数的状态矩阵
图1识别表I所列语言中的部分单词的DFA及相关的语义过程
五、源程序
**************************词法分析.h文件
#include
#include
#include
#include
#defineID6
#defineINT7
#defineLT8
#defineLE9
#defineEQ10
#defineNE11
#defineGT12
#defineGE13
#defineIS14
#definePL15
#defineMI16
#defineMU17
#defineDI18
#defineMAX_KEY_NUMBER20/*关键字的数量*/
#defineKEY_WORD_END"waitingforyourexpanding"/*关键字结束标记*/
char*KeyWordTable[MAX_KEY_NUMBER]={"begin","end","if","then","else",KEY_WORD_END};
charTOKEN[20]="";
charch='';//用于存储带判断的字符
introw=1;//row标识错误在第几行
#defineDIGIT1
#definePOINT2
#defineOTHER3
#definePOWER4
#definePLUS5
#defineMINUS6
#defineUCON7//Supposetheclassnumberofunsignedconstantis7
#defineClassOther200
#defineEndState-1
intindex=0;//保存已读的字符串的索引
//charJudgeStr[256];//存储已读的字符串
intw,n,p,e,d;
intClass;//Usedtoindicateclassoftheword
intICON;
floatFCON;
staticintCurrentState;//Usedtopresentcurrentstate,theinitialvalue:
0
intEXCUTE(intstate,intsymbol,FILE*fp,charJudgeStr[],introw,intindex);
intGetChar(charch);
intHandleError(charStrJudge[],introw);
************************词法分析.c文件
#include"词法分析.h"
//////////////////////////////////////////////////查保留字表,判断是否为关键字
intlookup(char*token)
{
intn=0;
while(strcmp(KeyWordTable[n],KEY_WORD_END))/*strcmp比较两串是否相同,若相同返回0*/
{
if(!
strcmp(KeyWordTable[n],token))/*比较token所指向的关键字和保留字表中哪个关键字相符*/
{
returnn+1;/*根据单词分类码表I,设置正确的关键字类别码,并返回此类别码的值*/
break;
}
n++;
}
return6;/*单词不是关键字,而是标识符*/
}
///////////////////////////////////////////////////输出分析结果
voidout(inti,char*pStr)
{
charMnemonic[5];
if(1==i)
{
strcpy(Mnemonic,"BEGIN");
}
elseif(2==i)
{
strcpy(Mnemonic,"END");
}
elseif(3==i)
{
strcpy(Mnemonic,"IF");
}
elseif(4==i)
{
strcpy(Mnemonic,"THEN");
}
elseif(5==i)
{
strcpy(Mnemonic,"ELSE");
}
elseif(6==i)
{
strcpy(Mnemonic,"ID");
}
elseif(7==i)
{
strcpy(Mnemonic,"INT");
}
elseif(8==i)
{
strcpy(Mnemonic,"LT");
}
elseif(9==i)
{
strcpy(Mnemonic,"LE");
}
elseif(10==i)
{
strcpy(Mnemonic,"EQ");
}
elseif(11==i)
{
strcpy(Mnemonic,"NE");
}
elseif(12==i)
{
strcpy(Mnemonic,"GT");
}
elseif(13==i)
{
strcpy(Mnemonic,"GE");
}
elseif(14==i)
{
strcpy(Mnemonic,"IS");
}
elseif(15==i)
{
strcpy(Mnemonic,"PL");
}
elseif(16==i)
{
strcpy(Mnemonic,"MI");
}
elseif(17==i)
{
strcpy(Mnemonic,"MU");
}
elseif(18==i)
{
strcpy(Mnemonic,"DI");
}
else
{
strcpy(Mnemonic,"UnkownType");
}
printf("(%s)对应%s\n",Mnemonic,pStr);
}
/////////////////////////////////////////////////报错
voidreport_error(introw)
{
printf("%sError!
Inthe%drow\n",TOKEN,row);
}
/////////////////////////////////////////////////////////////扫描程序
voidscanner(FILE*fp)//总的判断函数开始就应该判断已读取的字符是否为空字符,不为则不用再读,直接进行判断,否则再读
{
//printf("***ch=%c******\n",ch);
inti,c;
fseek(fp,-1,1);//首先回溯一个字符,就是将文件所有的字符都在scanner内部判断,外部while循环不会浪费任何字符
ch=fgetc(fp);//scanner中要想判断字符,必须开头先读一个字符
while(''==ch||'\n'==ch||'\t'==ch)//将文件中的所有空字符浪费在这里
{
if('\n'==ch)
{
row++;
}
ch=fgetc(fp);
}
if(EOF==ch)
{
return;
}//必须在这里判断一下
/*if(''==ch||'\n'==ch||'\t'==ch)
{
fseek(fp,-1,1);
return;
}*/
//ch=fgetc(fp);
/*if(''==ch||'\n'==ch||'\t'==ch)
{
fseek(fp,-1,1);
return;//文件结束标志不能与这几个空白符作为一种情况考虑,因为文件遇到结束标志时,不能回退
}//文件指针,否则在外层的while循环中造成死循环,由此猜测fgetc函数执行的过程为,先读取
*///当前文件指针所指的字符,再将字符指针后移!
if(isalpha(ch))/*itmustbeaidentifer!
*/
{
TOKEN[0]=ch;ch=fgetc(fp);i=1;
while(isalnum(ch))
{
TOKEN[i]=ch;i++;
ch=fgetc(fp);
}
TOKEN[i]='\0';
fseek(fp,-1,1);/*retract*/
c=lookup(TOKEN);
if(c!
=6)out(c,TOKEN);elseout(c,TOKEN);
}
elseif(isdigit(ch)||'.'==ch)
{
fseek(fp,-1,1);//首先回溯一个字符,下面为了循环内部使用先读字符后判断的格式。
intType;
CurrentState=0;
i=0;
do
{
ch=fgetc(fp);
TOKEN[i]=ch;
i++;
TOKEN[i]='\0';//为随时输出字符串做准备
Type=GetChar(ch);
EXCUTE(CurrentState,Type,fp,TOKEN,row,i);
}while(CurrentState!
=EndState);
/*TOKEN[0]=ch;ch=fgetc(fp);i=1;
while(isdigit(ch))
{
TOKEN[i]=ch;i++;
ch=fgetc(fp);
}
TOKEN[i]='\0';
fseek(fp,-1,1);
out(INT,TOKEN);*/
}
else
switch(ch)
{
case'<':
ch=fgetc(fp);
if(ch=='=')out(LE,"<=");
elseif(ch=='>')out(NE,"<>");
else
{
fseek(fp,-1,1);
out(LT,"<");
}
break;
case'=':
{
ch=fgetc(fp);
if('='==ch)
{
out(EQ,"==");
}
else
{
fseek(fp,-1,1);
out(IS,"=");
}
}
break;
case'>':
ch=fgetc(fp);
if(ch=='=')out(GE,">=");
else
{
fseek(fp,-1,1);
out(GT,">");
}
break;
case'+':
{
out(PL,"+");
}
break;
case'-':
{
out(MI,"-");
}
break;
case'*':
{
out(MU,"*");
}
break;
case'/':
{
out(DI,"/");
}
break;
default:
report_error(row);break;
}
return;
}
///////////////////////////////////判断矩阵执行程序
intEXCUTE(intstate,intsymbol,FILE*fp,charJudgeStr[],introw,intindex)
{//row用于指示出错的行数,index用于为待输出的字符串赋结束符‘\0’时用
switch(state)
{
case0:
switch(symbol)
{
caseDIGIT:
n=0;p=0;e=1;w=d;CurrentState=1;Class=UCON;break;
casePOINT:
w=0;n=0;p=0;e=1;CurrentState=3;Class=UCON;break;
default:
{
Class=ClassOther;
CurrentState=EndState;
printf("无符号数的第一个字符是非法的!
\n");
}
}
break;
case1:
switch(symbol)
{
caseDIGIT:
w=w*10+d;break;//CurrentState=1
casePOINT:
CurrentState=2;break;
casePOWER:
CurrentState=4;break;
default:
{
if(ch!
=EOF)//如果是因为读到文件结束字符而终止识别(是正确识别一个无符号数结束),就不应该回退,否则可能造成死循环
{
fseek(fp,-1,1);//遇到其他的字符,可能是一条语句中的其他字符,需后退,因为主函数外层循环每次都要读一个字符进行判断,而这个判读不回溯,所以在内部把这个多读的字符回溯
}
ICON=w;CurrentState=EndState;
JudgeStr[index-1]='\0';
printf("(UCON,%i)对应%s\n",ICON,JudgeStr);
}break;
}
break;
case2:
switch(symbol)
{
caseDIGIT:
n++;w=w*10+d;break;
casePOWER:
CurrentState=4;break;
default:
{
if(ch!
=EOF)
{
fseek(fp,-1,1);
}
FCON=w*pow(10,e*p-n);CurrentState=EndState;
JudgeStr[index-1]='\0';
printf("(UCON,%f)对应于%s\n",FCON,JudgeStr);
}
}
break;
case3:
switch(symbol)
{
caseDIGIT:
n++;w=w*10+d;CurrentState=2;break;
default:
{
/*if(ch!
=EOF)//识别无符号数产生错误时,不应该再回溯,应该把造成错误的那个字符算到错误的无符号数字符串中,再向下面识别单词时跳过这个字符,不回溯就能达到这个目的
{
fseek(fp,-1,1);
}*/
HandleError(JudgeStr,row);CurrentState=EndState;
}
}
break;
case4:
switch(symbol)
{
caseDIGIT:
p=p*10
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 词法 分析