通用听见智能会议系统建设方案一体机Word文件下载.docx
- 文档编号:16843924
- 上传时间:2022-11-26
- 格式:DOCX
- 页数:12
- 大小:810.89KB
通用听见智能会议系统建设方案一体机Word文件下载.docx
《通用听见智能会议系统建设方案一体机Word文件下载.docx》由会员分享,可在线阅读,更多相关《通用听见智能会议系统建设方案一体机Word文件下载.docx(12页珍藏版)》请在冰豆网上搜索。
环境指标要求
电源
机柜要求
音频接口
麦克风
视频接口
高度:
6U
深度:
500MM
对应机柜托盘一个
需提供一路音频接口,支持卡侬公或大三芯或双莲花
需配置麦克风对每个说话人声音进行采集
如需上屏,需提供投屏接口,支持HDMI或VGA
详细说明如下:
环境要求
智能会议系统采用专业定制一体机的硬件形态,一体机的安装机柜需要6U空间,安装于正常室外室内即可,设备深度为500MM,系统本身局域网组建自带,网络带宽在100M以上,主控PC需要连接局域网下使用,整套设备局域网下运行即可。
同时需要电源。
音视频需求
该系统是基于音频基础上实现语音转写,麦克风等音响设备利用会议室现有环境。
为实现对现场音频的采集,需要现场音响设备(调音台或相关音频设备)提供会议话筒音频供转写,同时设备接口支持卡侬公、大三芯()、双莲花输入。
如有展板上屏需求,需要会议室内配有投影仪或者电视机,且具备VGA或者HDMI接口任意一种,展板通过连接投影仪或者电视机进行投屏展示。
4.系统连线图
听见智能会议系统的配套硬件设备,其形态为:
通过国家CCC认证和专业定制一体机+应用端主控电脑。
一体式智能会议主机为讯飞听见专业定制设备,集成了包括服务节点、应用节点、声卡、显示器、路由器等部件,用于部署引擎等核心能力软件,并提供录音服务处理、数据传递等能力;
主控端笔记本电脑主要用于部署客户端软件,控制会议的开始和结束,提供软件各个功能的操作。
会议室现场的发言音频输出给一体机,同时如需显示,一体机支持显示输出,主控电脑通过网线与一体机连接,整套产品即可使用。
一体机整体外观图示意图及背后面板图如下:
参数说明:
整机电源:
AC100-240V700W;
服务器节点:
XEON20M2011P8CORE,E5-2620V3*2;
32GDDR4REG/ECC;
接口2*千网口(IntelI210AT),1*RS232,GPIO,Watchdog,VGA->
切换器;
USB:
6*USB(前置1*+后置(2*USB2*USB);
应用节点:
CORE6M1151P4COREI5-6500;
8GDDR4,2*千兆网口(Intel82579V)1*千兆网口(Intel82579V),1*RS232,1*VGA,1*PS2,外接:
DVI转HDMI;
坦克声卡:
一个麦克风输入并自带音量增益旋钮,XLR/混合式接头一个乐器输入并自带音量增益旋钮,接头4个模拟输入(RCA接头)一组唱盘输入并内建RIAA等化放大及自带音量增益旋钮6个模拟输出(RCA接头)一个耳机接孔接头)并自带音量增益旋钮一个光纤数字输出/输入一个同轴数字输出/输入一组MIDII/O。
产品连线说明:
本产品为一体机形态,只需要接通一根电源线、一根音频线、一根视频线,并通过一根网线连接主控,就可使用。
5.建设方案
5.1.系统概述
听见智能会议系统由软件、硬件共同构成,实现在会议场景下的实时音频或录音采集,并通过语音识别技术实时转化为文字。
用户可以通过系统提供延时播放、按句回听、重点标记等功能方便快速整理出会议材料;
并且通过系统提供的语气词过滤、自动分段等功能自动优化文字结果;
同时,用户可以使用全文检索功能方便检索历史音频。
系统具备会议音频管理、即时校对编辑、敏感词屏蔽、转写文字实时直播等基本功能。
5.2.性能参数
系统关键性能指标如下:
1)转写结果能够实时上屏展示;
2)转写结果能够音字对照、编辑校正;
3)普通话转写指标:
安静环境下的标准普通话转写正确率≥90%;
4)系统响应指标:
常规页面操作的响应时间≤5秒;
5)转写效率指标:
实时语音转写效率≤500毫秒。
5.3.软件功能配置
5.3.1.中文语音转写引擎
听见智能会议系统需要解决语音转换成文字的问题。
机器语音识别技术是一种实现从“声音”到“文字”转换的技术,通过将人的语音直接转换成相应的文本。
语音识别技术的研究工作开始于上世纪五十年代。
Bell实验室的研究人员利用模拟元器件提取了语音信号元音共振峰频率变化的信息,有史以来第一次实现了识别十个英文数字的语音识别系统-Audry系统。
八十年代,Bell实验室的Rabiner等科学家将原本艰涩难懂的隐马尔科夫模型(HiddenMarkovModel-HMM)理论工程化,形成了较为完善的概率统计模型体系,识别性能也得到了很大的提高。
2006年以来DeepLearning理论和技术成为了模式识别领域的一个热门研究方向,G.E.Hinton等深入研究了深度置信网络(DeepBeliefNetwork-DBN)以及深度神经网络(DeepNeuralNetwork-DNN)等模型结构,微软通过与Hinton合作率先将DNN应用于语音识别任务,识别性能取得了显著提升。
此后谷歌、蒙特利尔,以及IBM又将循环神经网络(RecurrentNeuralNetwok-RNN)成功应用于语音识别领域,特别是长短时记忆(Long-ShortTermMemory)神经网络结构,取得非常出色的语音识别性能。
加上目前图形处理器(GPU)计算能力的提升,以及互联网时代大规模标注数据获取成为可能,基于深度学习的语音识别技术已经在多个领域达到实用水平。
传统的语音识别技术主要用于解决人与机器的交互问题。
而在会议场景需要需要转成文字的音频内容是人与人之间交互,听见智能会议系统需要基于机器语音识别技术构建语音转写引擎。
听见智能会议系统构建的语音转写引擎需要能够实时、高效的把人与人之间交流的语音转换为文字的能力,具体包括中文语音转写引擎与英文语音转写引擎,本系统需要完成中文语音转写引擎的建设。
5.3.2.应用系统基本功能
听见智能会议系统,可以实现在会议、教学、演讲等场景下的实时音频或录音采集,并通过语音识别技术实时转化为文字。
并且通过系统提供的语气词过滤、自动分段等功能自动优化文字结果,可人工进行角色分离;
5.3.2.1.实时语音转写
听见智能会议系统需要通过对实时音频流信号的处理完成从信号获取、转换、处理、识别、输出、展示等一整套流程动作,需要由强大的音频采集处理模块。
系统讲通过使用特定的录音服务,通过麦克风收集后,送达后台服务端完成编码工作,实时上传到系统,供后续的转写文字等功能使用,同时保存到内容管理模块中。
系统通过专业麦克风对会议全程进行高保真录音,并针对连续中文语流进行实时语音转写识别,并持续进行转写结果文本内容的输出。
5.3.2.2.历史语音转写
相比于实时语音转写模块,历史语音转写模块提供对于已经录制好的历史音频需要转写情况下的解决能力;
用户可以通过系统提供的功能按钮,导入历史音频并实现快速离线转写;
支持音频批量导入。
图:
历史音频转写编辑效果图
5.3.2.3.内容编辑
在实时语音转写过程中用户可以实时对转写出的文本结果进行编辑,并进行重点内容标记。
在实时编辑的过程中采用延时播放的策略,用户可以在查看到转写文本之后及时根据听到的音频进行文本校对编辑。
用户也可不戴耳机直接听现场的实时音频。
支持选择查看原始结果,对比修改,方便快捷,会议结束后即可直接成稿,并根据重点内容,整理导出会议纪要。
具体功能包括:
延时播放:
在实时语音转写过程中,识别结果展现之后再开始连续播放音频,即用户在看到转写文本的时候,同步听到对应的音频,使得校对和编辑更加便利。
重点内容标记:
在实时语音转写过程中或者暂停和结束时,用户均可以选中文本来进行重点内容的标记,已标记的文本也可以进行修改和标记取消,方便整理会议纪要,会议结束会后即可或直接成稿。
音字对照:
在实时语音转写暂停的时候,用户如果对于有些内容没有听清,对于文本内容不确定的情况下,双击原始结果即可听到文本对应的音频,方便用户对写结果进行编辑,尤其是不小心误删除了编辑文本,可以通过回听原始结果来进行回溯。
实时语音转写结束状态时,原始结果及编辑结果均可双击进行音频回听。
实时语音转写效果图
5.3.2.4.效果优化
在实时语音转写过程中,听见智能会议系统通过提供语气词过滤、自动分段等功能自动优化文字转写和显示结果。
具体包括:
自动分段:
在会议内容实时语音转写成文字的过程中,为了方便用户编辑何查看,系统提供根据VAD+固定字数和VAD+固定关键词两种自动分段方式。
系统提供最佳的默认自动分段方式,用户也可根据实际情况进行设置。
语气词过滤:
用户可以在实时语音转写开始前或者进行文稿整理时可以根据需要选择是否开启语气词过滤按钮,若开启按钮可将语气词和多余的词汇去除,以保证文稿的规整。
语气词过滤只针对新转写的结果,已经修改过的内容不支持过滤。
关键词优化:
用户可通过关键词优化功能将此次会议相关的关键词进行添加,能有效提升该关键词的识别准确率。
实时转写过程中用户也可添加关键词,并且可以实时生效,后续识别结果可得到有效优化。
5.3.2.5.内容展示
系统通过提供展板上屏等形式进行实时语音转写结果的展示。
实时上屏:
通过展板上屏展示中实时语音转写结果。
并且,字体颜色和展板背景颜色可以根据实际情况需要进行调整。
展板效果图
上屏后台修改:
如果在实时转写过程中使用了实时上屏功能,希望保障上屏效果,那么可以使用上屏后台修改功能进行展板端的结果纠正。
在开始时点击展板按钮,调出展板,此时该展板端会同步出现识别文字。
如果在转写过程中出现明显错误或不适宜展示的词语,则可以在主控端进行展板编辑,可以修改或删除,修改之后按Enter键则修改的内容会同步到现场的投影屏幕上。
5.3.2.6.内容管理
所有通过听见智能会议系统转写的实时录制的音频文本数据和本地上传的音频文本数据系统都会以列表形式进行管理,后台通过分布式存储集群实现高效安全存储,整个过程用户无感知。
用户可以通过内容管理模块随时查看和编辑,并且可以根据名称等信息快速检索。
此外,编辑后的全文本、重点文本以及音频、某一角色的文本,用户都可以快速导出,方便快捷。
系统通过自然语言理解、语音识别和语义分析技术理解用户意图,执行用户的检索指令(包括语音、文本等),实现资源文本内容的语音搜索服务能力,不仅能检索文本资源,也能根据文件名对音视频内容进行搜索。
该服务在传统的文字输入搜索方式基础上,不仅能支持搜索语音时的相对自由表述,也应当能够支持传统文字检索时的相对自由表述。
5.4.硬件参数配置
听见智能会议系统的配套硬件设备,具体包括:
一体式智能会议主机、应用端主控电脑。
产品参数如下:
名称
参数配置
数量
单位
定制一体机
讯飞听见专业定制一体式智能会议主机,提供4U设备形态,集成了包括服务节点、应用节点、声卡、显示器、路由器等部件。
服务节点配置:
2*E5-2620V332G/900G*3SAS10KRPM+raid5/1*USBkey+3*1000MNIC;
应用节点配置:
IntelCorei5/8G/500GSATA7200RPM/VGA+HDMI\DVI\DP/3*1000MNIC;
KVM控制器:
二路信号切换,支持一键切换服务端、应用端信号源;
键鼠支持切换使用二切一。
声音采集工作站:
DMX6FireUSB,单路声卡
支持路由功能,提供三个连接外网标准网络LAN接口、1个标准网WAN口,配备1个加密狗。
1
台
主控电脑
华硕PRO453U。
cpu:
IntelCorei5-6200U,内存:
8G,硬盘:
500GBSATA,显卡:
2GB独显(满足同等配置均可)
本产品为软硬件一体的离线式单机产品,主机采用专业定制一体机,按照每天八小时的应用数据进行估算,产品可满足2年的数据存储,产品的容量空间可以通过历史会议信息删除得到释放(数据建议定期导出本地备份)。
6.项目报价
序号
类别
模块
功能描述
单价
小计
软件
语音识别转写引擎
智能中文连续语音识别转写引擎,实现对普通话连续语音的实时转写,并提供对已转写文字的后处理及字音同步对齐能力。
1套
¥
300,
应用终端软件
部署在主控笔记本上的客户端软件,提供实时速录、历史录音整理、会议信息管理、用户管理、上屏展示、会议编辑及效果优化等功能。
100,
3
硬件
一体式智能会议主机
专业定制一体式会议主机,集成服务器、声卡、局域网、KVM显示等能力,用于安装部署智能语音转写引擎及应用系统,为会议提供稳定的转写服务。
1台
93,
4
应用端主控电脑
华硕PRO453U,Intel®
Core®
i5-6200U8GB/Intel500GBSATA/Intel®
HDGraphics520集显+NvidiaGeForce920M2GB独显(满足同等配置均可)
5,
5
质保服务
1、提供首次上门安装、调试;
2、提供系统使用培训;
3、提供每年两次的软件版本升级及升级后培训;
4、提供每年一次的移机安装服务;
5、提供7*24小时的故障现场处理及远程技术支持服务。
1年
免费
合计(元)
498,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 通用 听见 智能 会议系统 建设 方案 一体机