基于Web的计算机专业人才培养需求分析系统的设计和实现文档格式.docx
- 文档编号:22893531
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:7
- 大小:20.02KB
基于Web的计算机专业人才培养需求分析系统的设计和实现文档格式.docx
《基于Web的计算机专业人才培养需求分析系统的设计和实现文档格式.docx》由会员分享,可在线阅读,更多相关《基于Web的计算机专业人才培养需求分析系统的设计和实现文档格式.docx(7页珍藏版)》请在冰豆网上搜索。
20世纪90年代以来,伴随着Internet应用的逐渐普及和发展,因特网上的信息资源正在呈几何级数增长。
在人才需求方面,网络上的信息十分丰富,一些著名人才招聘网站更是定期发布全国企事业单位的人才需求信息。
这就给各高校教学改革一个启示:
开发基于Web的计算机专业人才培养的需求分析系统,该系统可以搜集当前人才需求信息,对未来一段时间内社会对专业人才的需求作出分析预测。
在此基础上建立岗位——能力——知识——课程关联模型,合理地确定专业人才的能力结构、知识结构、课程体系,从而确定专业人才的培养方案。
1Web数据搜索引擎概述
搜索引擎指对WWW站点资源和其它资源进行索引和检索的一类检索系统机制。
搜索引擎是由数据采集、数据加工、查询服务三个模块组成。
目前各种各样的中西文搜索引擎有十几种或更多,每个搜索引擎都有其各自的特点,有的以查询速度快见长,有的以数据库容量大占优,但总而言之,一个优秀的搜索引擎应具有以下几个特点:
①支持全文检索(FullTextSearch):
用户能够对各网站的每篇文章中的每个词进行搜索。
世界上最典型的全文搜索引擎为Digital公司的Altavista;
②支持分类查询:
世界上最具代表性的目录式分类搜索引擎是Yahoo网站。
分类搜索引擎的优点是将信息系统分门别类。
它可以提供给用户选定类的信息,尤其适合“希望了解某一方面/类信息,并不局限某个关键字”的用户;
③能够区分搜索结果的相关性:
搜索引擎应能够找到与搜索要求相对应的站点,并将其相关程度将搜索结果排序。
这里的相关程度是指搜索关键字在文档中出现的频度,最高为1。
当频度越高时,则认为该文档的相关程度越高。
2需求分析系统的设计与实现
2.1系统基本结构
需求分析系统采用B/S模式。
服务器端包括Crawler(爬虫,负责搜索网页)、全文数据库、人才需求网页数据库、索引数据库、数据分析预测和ASP动态网页。
用户在客户端调用浏览器访问ASP动态网页,根据不同的要求进行查询(图1)。
2.2系统模块划分
本系统为了实现人才需求信息的搜集,并对未来社会对专业人才的需求作出分析预测,根据系统基本结构将系统划分为系统设置、词典维护、爬行与索引和分析预测4大模块(图2)。
(1)系统设置模块。
它主要负责设置、修改系统参数(如搜索深度参数、最大页面参数、同一站点搜索深度、网页文件存放目录等)以及Crawler爬行搜索的初始网址信息。
(2)词典维护模块。
它主要负责专业需求词典的管理。
主要功能包括按岗位类别进行词条的添加、修改及删除。
(3)爬行与索引模块。
此模块是系统的核心模块,负责对Internet进行人才需求信息搜索,搜索结果保存在全文数据库中,然后根据招聘网页特征项将全文数据库中信息进行过滤,过滤结果存放在人才需求网页数据库中,最后依据专业需求字典,并按招聘岗位类别在人才需求网页数据库中提取所需信息分类存放在索引数据库中,然后根据索引数据库信息确定人才培养方案。
(4)分析预测模块。
此模块基于探索性分析的时序数据挖掘方法,根据索引数据库信息,采用线性回归技术建立了数学模型。
依据该数学模型进行计算机专业需求的预测和社会对计算机专业招聘总人数的预测等。
2.3关键技术问题处理
2.3.1Crawler服务器实现
(1)初始化搜索网站策略。
本系统开发的目的是在Internet上搜集当前计算机专业人才需求信息,并做出未来需求分析预测,进而建立岗位——能力——知识——课程关联模型,确定专业人才的培养方案。
该目的决定了系统小型专业化的特点,因此开发Crawler时要避免通用搜索引擎广而不精的缺点。
同时考虑到一个招聘单位同时在不同的招聘网站登记了相同的招聘信息,为了避免招聘信息的重复搜集,Crawler只针对一个著名招聘网站进行信息搜索(考虑到一个著名招聘网站的信息量也很大,不影响系统对专业需求信息的定性、定量分析)。
为了提高搜索所需信息的准确性,增强可利用性,减少搜索时间,降低无用信息被搜索进全文数据库的比例,结合系统只需获得计算专业人才需求信息的要求,我们可以直接将爬行搜索的初始网址设置为该招聘网站的计算机行业招聘网址。
(2)爬行搜索策略。
搜索策略就是关于当Crawler搜索到一个HTML文件以后,下一步应该转移到哪一个HTML文件的方法问题。
一般有两种搜索方法,即采用广度优先或者深度优先的策略对Web进行遍历并下载文档,系统中维护一个超链队列或者堆栈,其中包含一些起始URL,Crawler从这些URL出发,下载相应的页面,并从中抽取出新的超链加入到队列或者堆栈中,上述过程不断重复。
考虑到深度优先搜索适宜遍历一个指定的站点或者深层嵌套的HTML文件集,同时为了避免出现由于Web的结构相当深,一旦进去也许就再也出不来了的情况(即所谓的网络陷阱),可以设定一个整型变量MaxLevel,用它来限定搜索的最大层次。
通过对一些著名招聘网站的点击发现,其招聘发布信息(包括岗位、专业需求、招聘人数等)链接在第n层,这里设初始化的计算机行业明细链接招聘网址为第0层,一般情况下n<
4。
因此,Crawler搜索策略定为深度优先搜索,搜索层次定为n层,具体n值为多少由初始化搜索网址确定,可在系统设置模块中进行设定,超链采用堆栈数据结构保存。
(3)限制搜索跳转。
作为小型专业化搜索引擎,系统只对一个著名招聘网站进行信息搜索,不希望在对该网站搜索过程中跳转到其它的网站。
因此,在找到新的URL时,并不是简单地加入超链堆栈,而是首先判断该URL的主机地址是否与正在搜索的主机地址相同,若相同,则加入超链堆栈中,否则丢弃该URL。
2.3.2索引数据库生成
(1)全文数据库的生成及过滤。
通过对上面爬行搜索策略的分析,知道招聘发布信息链接在第n层,因此系统只需把Crawler搜索到的第n层的链接所对应的网页存放在全文数据库中。
考虑到第n层的链接所对应的网页有可能包含一些与招聘发布信息无关的网页,为了保证之后生成的索引数据库的信息有效性,需将这些网页从全文数据库中过滤掉,过滤后的网页保存在人才需求网页数据库中。
在通过研究招聘信息发布网页及无关网页的源文件后,得出过滤算法如下:
①在全文数据库网页的HTML源文件中定位<
METAname="
keywords"
content="
"
>
标记,如content中含“招聘”二字,则置判断变量Found1=TRUE,继续下一步,否则置Found1=FALSE,并跳至第4步;
②对HTML源文件继续往下进行二级查找,看是否包含“招聘人数”四字,如有,则置判断变量Found2=TRUE,继续下一步,否则置Found2=FALSE,并跳至第4步;
③将该网页HTML源文件复制到人才需求网页数据库;
④在全文数据库打开下一个网页的HTML源文件,从第1步开始循环执行。
上述算法查找关键字时采用改进的BM字符串匹配算法。
(2)索引数据库的生成。
人才需求网页数据库生成后,还必须按照专业需求词典生成索引数据库。
根据系统是为改革课程体系,确定计算机专业人才培养方案提供决策支持的目的,我们确定专业需求词典如表1所示。
然后提取专业需求词典的专业需求字段,逐条在打开的人才需求网页数据库的网页源文件中查找,如找到,则将对应的专业需求、岗位及在网页源文件中找到的招聘人数值写入到索引数据库主表——专业招聘人数表中。
该表包括专业需求、岗位和招聘人数字段。
如果同一专业需求在不同招聘网页源文件中匹配,则将不同网页源文件中对应的招聘人数值累计求和后填入专业招聘人数表中招聘人数字段。
为了方便后续分析预测模块对不同时期专业招聘人数的统计分析和预测,必须把专业招聘人数表按照生成日期保存在不同的目录下,目录以生成日期命名。
为了专业人才培养方案的确定,须对专业招聘人数表按岗位和招聘人数字段进行排序。
并按照实际情况,将同一岗位招聘人数排名前几位的专业需求纳入授课计划,同时建立课程教材表,该表包括课程名、选用教材、专业需求字段。
2.3.3分析预测
(1)实验方法。
采用一种基于探索性分析的时序数据挖掘技术,即从原始数据入手,以实际数据为依据探索其内在的规律性,方法的选择服从数据的特点和研究目的,根据原始数据的特点和研究目的来挖掘出变量之间的关系,建立较优的模型,并且简单直观,适合于大部分用户使用。
为了简单起见,系统采用线性回归的方法来挖掘关系。
对于数据(x,y)需要拟合一条直线:
y=a+b*x,其中a和b是需要求解的值。
挖掘这种直线关系最广泛使用的方法是最小二乘法,最小二乘法模型主要是使得公式
(1)最小。
Q(a,b)=∑n[]i=1(y-i-a-b*x-i)+2[JY]
(1)
则:
Q[]a=-2∑(y-i-a-bx-i)=0Q[]b=-2∑(y-i-a-bx-i)x-i=0[JY]
(2)
记:
=1[]n∑x-i,=1[]n∑y-i,
L-{xy}=∑(x-i-)(y-i-)=∑x-iy-i-1[]n∑x-i∑y-i
L-{xx}=∑(x-i-)+2=∑{x-i}+2-1[]n(∑x-i)+2[JY](3)
L-{yy}=∑(y-i-)+2=∑{y-i}+2-1[]n(∑x-i)+2
整理公式
(2)得:
na+nb=nna+∑{x-i}+2b=∑x-iy-i[JY](4)
解得a,b的值为:
b=l-{xy}/l-{xx}a=-b*[JY](5)
其中决定系数
R+2=1-∑(y-i--i)+2[]∑(y-i-)+2[JY](6)
(2)建立预测模型。
为了给课程改革和招生计划提供依据,对未来专业需求状况进行预测是很必要的。
来看一下某招聘网站网页制作方向招聘人数占招聘总人数的百分比仿真图(图3)。
从图3中不能看出一种直线关系,因而不能直接用最小二乘法来进行挖掘关系,但可以看出图中是一种明显的上升关系,因此可以通过幂变换来达到直线的效果,首先对X,Y取对数(X表示时间,Y表示百分比),其仿真图如图4所示。
该图近似服从直线分布,没有特别远离的异常点,可以采用最小二乘法来进行回归挖掘。
设Y=A*X+B,进行对数变换为lnY=lnA+B*lnX,令y=lnY,x=lnX,a=lnA,b=B,则方程可变为y=a+b*x,通过计算得:
y=1039.0017*x-7897.7237。
决定系数R+2=0.978,复相关系数R=0.989,因而此关系挖掘得较好。
以后可以通过模型y=1039.0017*x-7897.7237预测未来网页制作专业需求状况,另外也可用相似数学方法对未来招聘人数等进行预测。
3结束语
基于Web的计算机专业人才培养的需求分析系统为计算机课程体系改革、专业人才培养方案的确定提供了重要的依据和解决方案。
在后续的工作中,还要对系统作进一步功能扩充和推广,以满足其他非计算机专业人才培养的实际需求。
参考文献:
[1]钟涛,陈新明,万钧.中文文本Web搜索引擎的设计与实现[J].计算机工程与应用,2001(17).
[2]刘峰,王秀坤.中英文专业搜索引擎中数据采集加工的设计与实现[J].计算机应用研究,2004(10).
[3]甘登文,丁晖.概率论与数理统计[M].南昌:
江西教育出版社,2000.
[4]XIANGJUNZOU,BANGJUNGU,JIANSUN,etal.Web-basedproductdevelopmentandsimulationwithvirtualreality[J].JournalofComputationalInformationSystems,2006
(1).
[5]张荣明,邹湘军.基于探索性分析的时序数据研究[J].系统仿真学报,2006
(2).
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Web 计算机专业 人才培养 需求 分析 系统 设计 实现