ROSTCM使用说明_精品文档资料下载.pdf
- 文档编号:16123163
- 上传时间:2022-11-20
- 格式:PDF
- 页数:26
- 大小:692.87KB
ROSTCM使用说明_精品文档资料下载.pdf
《ROSTCM使用说明_精品文档资料下载.pdf》由会员分享,可在线阅读,更多相关《ROSTCM使用说明_精品文档资料下载.pdf(26页珍藏版)》请在冰豆网上搜索。
描红超纲词5?
查看非词表6?
加密词表6?
打开词典目录64)汉语频度分析65)社会网络和语义网络分析66)情感分析87)流量分析98)相似分析99)网络环境分析1010)/IDF批量词频分析1011)聚类分析1012)分类分析11二、文本操作111)字段抽取112)一般性行处理113)基于正则的特定信息抽取124)基于字段特征的行处理125)基于辅助词群的行抽取及处理126)文本的替换和增补13三、可视化141)标签云14四、工具141)剪贴板控制器142)域名排名查询器153)批量文件格式转换器154)批量文件处理器165)浏览网页文本实时抓取器176)NetDraw177)ROSTWebSpider178)调试用189)程序目录19ROSTCM6使用手册http:
/10)数据目录1911)第三方工具1912)自定义文件19五、聊天分析19六、全网分析201)全网数据中的摘要或标题数据中的词语、机构的共现关系202)情感分析203)域名的批量流量分析204)将网址列表载入到迅雷中进行下载20七、网站分析211)获得网站数据212)分析22八、浏览分析22九、微博分析231)扫描数据232)分析23十、期刊分析23ROSTCM6使用手册http:
/
(1)分词点击功能性分析下拉列表框中的分词选项,打开分词窗口,在待处理文本框中载入待处理文件,如“虚拟学习团队201087.txt”,则系统按照程序目录下的User目录下的User.txt文档,自动在输出文件框中生成“虚拟学习团队201087_分词后.txt”文件,获得以空格分离的分词后文档,如果原来文档中有空格的位置保留空格。
点击确定按钮,即可打开该文档。
如果需要自己增加一些词,则点击工具下拉列表框中的自定义文件分词自定义词表,系统将自动在记事本中打开user目录下的user.txt文件,编辑后点击保存存盘,再次重新启动本软件,方可生效。
(2)字频分析点击功能性分析下拉列表框中的字频分析选项,打开字频分析窗口,在待处理文件框中载入待处理文件,如“虚拟学习团队201087.txt”,则系统自动在输出文件框中生成“虚拟学习团队201087_字频.txt”文件,点击确定按钮,即可打开该文档。
(3)英文词频分析?
文件词频统计点击功能性分析下拉列表框中的英文词频分析选项,打开ROSTROSTCM6使用手册http:
/如果要统计剪切板词频,则选择统计菜单下的统计剪切板词频菜单项,则剪切板上的单词会显示在打开文件框中,再点击工具栏上的统计按钮即可。
?
查看统计表格点击查看菜单下的统计表格菜单项,即可查看空的统计表格。
查看大纲列表点击查看菜单下的大纲列表菜单项,打开大纲列表窗口,即可查看大纲列表。
如果要查看某大纲,双击该行即可。
在大纲列表窗口,还可以自定义某个词汇表,方法是在大纲名称文本框中输入大纲名称,然后在大纲文件文本框中载入大纲文件,再点击添加按钮即可。
/非词表你不想统计的单词或者字符的列表,该文件位于程序目录下的dict子目录下的notwords.txt。
要查看非词表,点击工具菜单下的查看非词表即可。
如果要启动非词表,则工具菜单下的点击启动非词表。
加密词表如果要对词表加密,则点击工具菜单下的加密词表;
如果要解密词表,则则点击工具菜单下的解密词表即可。
打开词典目录点击工具菜单下的打开词典目录即可。
(4)汉语频度分析点击功能性分析下拉列表框中的汉语词频分析选项,打开汉语词频统计窗口,在分词后待统计词频文件文本框中载入分词后的文件,如“虚拟学习团队201087_分词后.txt”,则系统自动载入过滤词表,并在输出文件文本框中生成词频统计文件“虚拟学习团队201087_分词后_词频.txt”。
在归并词群表文本框中载入归并词群表,还可以对文档中的词进行归并。
在保留词表文本框中载入保留词表,则可ROSTCM6使用手册http:
/ROST语义网络和社会网络生成工具,在待处理文本框中载入待处理文件(待处理文件格式可以是一行一句的未分词文件,比如聊天记录,全网分析中的摘要文件等;
也可以是一句若干词的已分词文件;
还可以是多行有关联的已分词文件),然后点击高频词按钮,可以生成高频词表;
点击过滤无意义词按钮,可以生成过滤后的高频词和共现矩阵词表;
点击提取行特征按钮,可以生成行特征词;
点击构建网络按钮可以生成语义网络的.VNA文件和.txt文件,如果进一步点击启动NetDraw按钮,则可以打开NetDraw工具,查看图形结果;
点击构建矩阵按钮则可以生成共现矩阵文件。
双击文件框可查看相应结果。
如果想进行快速分析,则载入待处理文件后,点击“快速分析”按钮,即可一次生成上述文件。
可以是聊天内容文件,文件格式是例如,以下是对“虚拟学习团队摘要文件”分析的结果:
/使用手册http:
/RostAlexa网络流量分析工具,在输入网址文本框中输入要进行流量分析的网址,点击数据分析按钮即可。
还可以在该工具中进行批量分析,这时只需要点击批量分析按钮,导入需要进行批量分析的网页链接表,即可得到批量分析结果。
(8)TF/IDF批量词频分析点击功能性分析下拉列表框中的TF/IDF批量词频分析选项,打开TF/IDF批量词频分析窗口,点击批量打开文件按钮,选择需要打开的文件夹,即可在工具栏的下方打开所选文件夹中所有的.txt文件。
勾选文件前面的复选框,选中文件(可同时勾选多个文件),点击计算批量文件IDF,窗口的左下方即可出现所选文件的IDF值。
在已计算完IDF值的文件中选择一个文件,ROSTCM6使用手册http:
/TFIDF值,则在窗口的右下方出现所选文件的TFIDF值。
(9)相似分析点击功能性分析下拉列表框中的相似分析选项,打开文档相关性监测工具,首先点击打开按钮,在待查文章选项卡下可以打开要检测的文档,点击检测按钮,即进行文档相关性检测,并可在结果查看选项卡下查看检测结果。
点击停止按钮,即可停止检测。
点击结果按钮,可以查看分析统计数据。
点击目录按钮,可以打开相似度分析目录。
点击退出按钮,即可退出检测系统。
(10)网站信息分析点击功能性分析下拉列表框中的网站信息分析选项,打开ROST网络环境分析窗口,点击分析按钮,即可完成网络的环境分析。
(11)聚类分析点击功能性分析下拉列表框中的聚类分析(测试模块)选项,打开聚类分析窗口,在待处理文本框中载入待类聚文件,然后填上类别数量,点击开始聚类即可对所选文件进行聚类分析。
(12)分类分析点击功能性分析下拉列表框中的分类分析(测试模块)选项,打开短文本分类工具窗口,在待处理文本框中载入待分类文件,然后填上按第几字段分类,点击分析即可对所选文件进行分类分析;
双击输出文件框中的文件目录即可打开分类后文件;
双击特征词表中的文件目录即可看到特征词表。
/
(1)字段抽取点击文本操作下拉列表框中的字段抽取选项,打开抽取字段窗口,在待处理文本框中载入待处理文件,如“虚拟学习团队201087.txt”,则系统自动在输出文件框中生成“虚拟学习团队201087_抽取.txt”文件,然后在抽取出字段文本框中输入需要抽取的一个或两个字段,并在下面的复选框中选择抽取条件(注意:
只有当抽取两个字段时,才选择抽取出两个字段都不为空的行复选框,否则,抽取无结果)。
点击确定按钮,即可打开抽取结果文档。
(2)一般性行处理点击文本操作下拉列表框中的一般性行处理选项,打开一般性行处理窗口,在待处理文本框中载入待处理文件,如“虚拟学习团队201087.txt”,则系统自动在输出文件框中生成“虚拟学习团队201087_一般性行处理.txt”文件,然后在处理条件单选框中,点击所需的处理条件,再点击确定按钮,即可打开按要求处理后的文档。
(3)基于正则的特定信息抽取点击文本操作下拉列表框中的基于正则的特定信息抽取选项,打开基于正则的特定信息抽取窗口,在待处理文本框中载入待处理文件,如“虚拟学习团队201087_域名表.txt”,然后在正则表达式文本框中右键点击所需行抽取条件的正则表达式,这里选择域名正则表达式,则当前表达式文本框中自动显示所选的正则表达式。
点击确定按钮,则系统自动在输出文件框中生成“虚拟学习团队201087_域ROSTCM6使用手册http:
/201087.txt”,则系统自动在输出文件框中生成“虚拟学习团队201087_一般性行处理.txt”文件,然后在抽取条件单选框中,选择所需抽取条件,再点击确定按钮,即可打开按要求处理后的文档。
(5)基于辅助词群的行处理点击功能性分析下拉列表框中的基于辅助词群的行抽取及处理选项,打开基于辅助词群的行抽取及处理窗口。
在待处理文本框中载入待处理文件,并在辅助文件文本框中载入辅助文件,然后在抽取条件单选框中,点击所需的单选按钮。
点击单选按钮抽取出包含词群的行,则将在待处理文件中选出包含辅助文件中词语的行输出;
点击单选按钮抽取出不包含词群的行,则将在待处理文件中选出不包含辅助文件中词语的行输出;
点击单选按钮按照给定的批量行号提取行,则此时的辅助文件中只输入需要输出的行号(若需要输出多行,则辅助文件中输入一个行号后换行后再输入另一个行号。
),则将在待处理文件中选取辅助文件中指定的行。
(6)文本的替换和增补点击文本操作下拉列表框中的文本的替换与增补选项,打开文本的替换与增补窗口,在待处理文本框中载入待处理文件,如“虚拟ROSTCM6使用手册http:
/201087.txt”,然后在处理条件单选框中,点击所需的单选按钮。
点击单选按钮替换字段间隔符号,再点击确定按钮,则系统自动在输出文件框中生成“虚拟学习团队201087替换隔离符号.txt”文件,即可获得按要求处理后的文档,即将文档中字段间的空格键替换为Tab键;
点击单选按钮补行号(例如:
将1补到2),再点击确定按钮,则系统自动在输出文件框中生成“虚拟学习团队201087补行号.txt”文件,打开该文档,即可以看到该文档中只保留了源文档中的前两行,而且每行首部增加了相应的行号;
点击单选按钮字段位置互换(例如:
将1换到2),再点击确定按钮,则系统自动在输出文件框中生成“虚拟学习团队201087字段位置互换.txt”文件,即可以获得源文档中两个字段互换后的文档(例如:
源文档中第1个字段与第2个字段进行了互换);
点击单选按钮批量词群替换,然后在辅助词群下的文本框中输入替换词和被替换词(被替换词应该是待处理文件中包含的词),两个词之间用空格键隔开,再点击确定按钮,则系统自动在输出文件框中生成“虚拟学习团队201087词群替换.txt”文件,即可以获得源文档中某个词被另一个词替换后的文档。
三、三、可视化可视化
(1)标签云点击可视化下拉列表框中的标签云选项,打开标签云窗口,点击工具栏上的打开按钮,打开已经分频后的频度文本文件,则在工具栏下方右边的输出窗口内自动显示打开的频度文本文件里的内容,在左边的输出窗口内将显示频度文本文件里的字或词(即生成的标签云),ROSTCM6使用手册http:
/JPG图片的形式保存下来。
四、工具四、工具
(1)剪贴板控制器点击工具下拉列表框中的剪贴板控制器选项,打开剪贴板数据采集窗口,在文本框中可看到剪贴的数据,点击右键可进行复制、清空等相应操作
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ROSTCM 使用说明 精品 文档