《数据标注工程——概念、方法、工具与案例》教学课件—09工程化数据标注的质量控制.pptx
- 文档编号:30779231
- 上传时间:2023-08-26
- 格式:PPTX
- 页数:38
- 大小:977.24KB
《数据标注工程——概念、方法、工具与案例》教学课件—09工程化数据标注的质量控制.pptx
《《数据标注工程——概念、方法、工具与案例》教学课件—09工程化数据标注的质量控制.pptx》由会员分享,可在线阅读,更多相关《《数据标注工程——概念、方法、工具与案例》教学课件—09工程化数据标注的质量控制.pptx(38页珍藏版)》请在冰豆网上搜索。
人工智能技术应用核心课程系列教材,数据标注工程概念、方法、工具与案例,第9章工程化数据标注的质量控制,人工智能技术应用核心课程系列教材,质量控制质量标准质检与验收质量总结数据质检与验收案例本章小结作业与练习,9.1质量控制,第9章工程化数据标注的质量控制,三个主要阶段:
需求解读与确认人员培训与任务试做质检与验收,9.1.1质量控制流程,9.1质量控制,第9章工程化数据标注的质量控制,9.1.2控制流程细则任务对接流程,9.1质量控制,第9章工程化数据标注的质量控制,9.1.2控制流程细则人员分配和培训流程,9.1质量控制,第9章工程化数据标注的质量控制,控制流程细则团队人员验收准则在验收环节中,需要质检员根据项目规范设定的标准,仅对标注结果是否规范要求做出判定;如标注结果已确认合格,则无须给出答案;标注结果确认不合格时,若验收人员有完全确定的修改意见,判定该标注结果不合格并给出参考答案,9.1质量控制,第9章工程化数据标注的质量控制,9.1.3质量监控相互协作式自检体系:
数据标注团队内部各个小组间进行互相检查,各小组的组长对自己组内的数据质量负责。
互相协作质检完成且合格后,统一提交到项目质检组进行质检多轮次质量检查体系:
分为自检-质检-验收这三个轮次。
在自检和质检环节,分设3级质检员:
低级质检员,中级质检员,高级质检员。
项目组每完成一批数据,均采用相互协作质检的自检方式,协作质检完成后,交由质检组进行质检,质检通过后,交付客户进行验收,9.1质量控制,第9章工程化数据标注的质量控制,9.1.3质量监控质检报告单也可称为内部质检报告,用于团队内部分析错误原因,9.1质量控制,第9章工程化数据标注的质量控制,9.1.4质量检验方法1逐条抽取检查对整个标注项目中所包含的任务逐条检查并确认。
准确率极高,覆盖检查范围最广,适用于场景较为复杂、数据格式主观判断较多、量级不大的数据任务。
逐条抽取需要充足的人员配备,同时对于完成时间没有太高要求。
9.1质量控制,第9章工程化数据标注的质量控制,9.1.4质量检验方法2抽样检查简单抽样要求抽样人员客观的、随机的并且按照一定概率抽取一定数量的样本,在实际项目中,抽样概率与数量往往来自客户的要求系统抽样要求每隔一段时间进行检测,然后再从抽取的每个时间间隔的数据样本在进行随机抽样分层抽样适用于对不同类型且拥有多个加工环境的,即变量较多的项目进行评估,9.1质量控制,第9章工程化数据标注的质量控制,9.1.4质量检验方法3机器检查为了提高检查的效率,在实际项目中往往会引入机器检查。
通过机器学习,迁移学习、在线学习等方法对人工标注的数据做质量检查,实现全自动或者辅助人工质量检查。
机器检查输出的准确率并不能完全代表数据的准确率,机器检查后仍然需要人工进行质检,第9章工程化数据标注的质量控制,人工智能技术应用核心课程系列教材,质量控制质量标准质检与验收质量总结数据质检与验收案例本章小结作业与练习,9.2质量标准,第9章工程化数据标注的质量控制,9.2.1语音数据标注,9.2质量标准,第9章工程化数据标注的质量控制,9.2.1语音数据标注,9.2质量标准,第9章工程化数据标注的质量控制,9.2.2图像数据标注,9.2质量标准,第9章工程化数据标注的质量控制,9.2.3文本数据标注,9.2质量标准,第9章工程化数据标注的质量控制,9.2.3文本数据标注,第9章工程化数据标注的质量控制,人工智能技术应用核心课程系列教材,质量控制质量标准质检与验收质量总结数据质检与验收案例本章小结作业与练习,9.3质检与验收,第9章工程化数据标注的质量控制,9.3.1质检流程项目标注质检点确认项目质检人员培训输出批次数据质量报告及质量问题解决项目质量总结报告,9.3质检与验收,第9章工程化数据标注的质量控制,9.3.2验收原则项目验收要求与客户在前期对项目提出的招标文件以及客户与团队确认的验收标准相一致,在阶段验收或最终验收前由甲方验收专家对该项目所有数据进行逐项验收,并生成验收报告,9.3质检与验收,第9章工程化数据标注的质量控制,9.3.3验收报告验收评审完成后,确定项目符合验收标准,甲方出具项目验收合格报告,9.3质检与验收,第9章工程化数据标注的质量控制,9.3.3验收报告图片标注验收报告,9.3质检与验收,第9章工程化数据标注的质量控制,9.3.3验收报告语音数据标注验收报告,9.3质检与验收,第9章工程化数据标注的质量控制,9.3.3验收报告多段落语音验收报告,9.3质检与验收,第9章工程化数据标注的质量控制,9.3.3验收报告单句语音采集标注验收报告,第9章工程化数据标注的质量控制,人工智能技术应用核心课程系列教材,质量控制质量标准质检与验收质量总结数据质检与验收案例本章小结作业与练习,9.4质量总结,第9章工程化数据标注的质量控制,对整个标注阶段涉及的质检问题进行分析与总结,重点输出质量总结报告,该报告用于团队内部复盘,第9章工程化数据标注的质量控制,人工智能技术应用核心课程系列教材,质量控制质量标准质检与验收质量总结数据质检与验收案例本章小结作业与练习,9.5数据质检与验收案例,第9章工程化数据标注的质量控制,质量要求:
按图片张数计算合格率,并设置了95%的硬性合格率,9.5.1人脸68点标注质检案例,9.5数据质检与验收案例,第9章工程化数据标注的质量控制,9.5.1人脸68点标注质检案例质检环节设置30%的抽检比例验收环节设置1%-10%的抽检比例质量标准主要关注点位是否按序号标注、点是否贴合、点的属性是否正确等,9.5数据质检与验收案例,第9章工程化数据标注的质量控制,9.5.2客服语音数据标注质检案例项目要求语音数据标注员在没有参照文本的情况下将听到的语音文件译成文字,每一条音译结果包含一组文字序列及其他特殊标注符号等。
该项目涉及的标注规范包括以下8个方面:
语义内容清晰正确;判断是否有效;语音情况;噪音情况;是否能听清;判断说话人性别;是否包含口音;是否截取有效语音区域。
质量要求:
按句子来计算合格率,并设置了95%的硬性合格率,9.5数据质检与验收案例,第9章工程化数据标注的质量控制,9.5.2客服语音数据标注质检案例常见的语音数据标注项目,质量标准主要涉及文本错误如多字少字、错别字;符号错误,如噪音符号等;属性错误,如口音错误、性别错误等;截取错误,如语音内容未截取对或截取不全等,9.5数据质检与验收案例,第9章工程化数据标注的质量控制,9.5.33-5岁中国儿童朗读文本数据标注质检案例该项目为文本校对项目,校对后的文本将用于3-5岁儿童朗读。
该项目涉及的标注规范包括以下10个点:
每句话没有错别字,符合语法规则,易朗读。
对于较长的行,需要换行。
每行包含一个句子或短语。
一句话包含的字数控制在10个以内。
标点符号要正确。
句子中间有停顿的地方,需加上正确的标点符号。
删除没有必要的标点符号、删除无关的字。
不能含有英文单词。
不能含有生僻字。
删除全是拟声词的短语、句子短语、句子要通顺、完整文本不能含有政治、色情、暴力等与幼儿无关的内容。
不满足上述要求的,请酌情修改;无法修改的,请删除质量要求:
按句子来计算合格率,并设置了99%的硬性合格率,9.5数据质检与验收案例,第9章工程化数据标注的质量控制,9.5.33-5岁中国儿童朗读文本数据标注质检案例质检环节设置30%的抽检比例验收环节设置1%-10%的抽检比例,第9章工程化数据标注的质量控制,人工智能技术应用核心课程系列教材,质量控制质量标准质检与验收质量总结数据质检与验收案例本章小结作业与练习,9.6本章小结,第9章工程化数据标注的质量控制,阐述了质量控制的流程与细则介绍了文本、图像、语音数据标注项目涉及的质量标准介绍了质检流程、验收工作,并对该过程中输出的标志性报告做了详细介绍介绍了三个实际案例,第9章工程化数据标注的质量控制,人工智能技术应用核心课程系列教材,质量控制质量标准质检与验收质量总结数据质检与验收案例本章小结作业与练习,为什么要开展数据标注的质量控制?
请简述质量控制流程及流程细则。
质量检验的方法都有哪些?
抽样质检的流程是什么?
有什么优缺点?
质量监控有哪些方法?
语音数据标注的通用质量标准是什么?
图像数据标注的通用质量标准是什么?
文本数据标注的通用质量标准是什么?
如何进行人脸106点的质检?
通过本章内容的学习,你对质量控制优化有何想法?
请简述你的观点。
习题:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据标注工程概念、方法、工具与案例 数据 标注 工程 概念 方法 工具 案例 教学 课件 09 质量 控制