数据标注员知识入门 | 人工智能训练师之数据标注到底在干些什么
文库划重点:在语音识别领域,需要进行的是语义快判和语音转写。语义快判是听一段语音,判断语音的意思,有点像选择题。语音转写主要是把语音转化为文字,具体的标注规则需要在标注前仔细阅读规则说明,确保正确率。一般来说,语音标注难度较低,但标注员需要在标注时按照规则仔细进行。
本文主要对人工智能产业发展较快的四个方向进行数据标注工作介绍,包括自动驾驶数据标注、语音识别数据标注、图像识别数据标注和文本标注。
1、自动驾驶基础数据服务项目
2025年自动驾驶基础数据采标规模预计将超24亿,科技公司和车厂是主要需求方。自动驾驶基础数据主要是道路交通图像、障碍物图像、车辆行驶环境图像等,需求方以科技公司、汽车厂商和高精地图厂商为主,2018年自动驾驶行业基础数据服务规模为5.76亿元,预计2025年将超24亿元,三方规模占比分别为49%、47.2%和3.8%,行业数据总任务量超一亿张,2D图像标注与3D点云标注任务量基本为2:1。其中高精地图厂商算法较为成熟,数据自动化标注程度可达90%左右,外包需求较少;百度等自动驾驶科技公司一直是该领域基础数据服务的主要买方,平均各家算法训练图像数据累积需求在千万级以上,随着落地项目进程加快,将会有更多细分场景的需求产生;近几年,汽车厂商在ADAS和自动驾驶方向的投入明显,上汽、吉利等厂商年投入均可达数亿元,对于数据的采集和标注需求也逐年增加,预计未来3年中,汽车厂商将成为需求主力。
随着行业的规范,对无人驾驶的要求会越来越高,因为这是与未来行驶安全挂钩的项目。作为自动驾驶技术的基础,标注信息至关重要。在数据驱动的时代,数据越多、越好,得到的模型最终效果就越好,从而提升ADAS产品性能。针对传感器采集到的大量交通数据进行分类、标注,然后上传给自动驾驶系统进一步学习,提高自动驾驶的精确度。例如针对前向避撞、车道保持、车道偏离等功能,可以通过大数据迭代算法模型,提升产品的可靠性和用户体验。
在无人驾驶汽车领域,标注信息主要是对采集照片中的障碍物和车道线等交通设施进行标注。障碍物一般是指各种汽车、行人等,标注时在标注平台对对象进行属性判定和画框等;车道线的标注主要是需要按照规则进行明确的标注。无论是画框还是划线,标注时都需要按照标注要求进行正确标注,正确率过低会影响工资收入。
2、语音识别基础数据服务项目
2018年语音交互相关数据服务市场规模达到13.5亿元。语音交互主要分为近场交互、中场交互和远场交互,以智能影音家居、可交互机器人和车机为代表的中远场交互类数据服务需求合计占到智能交互基础数据服务的68%,成为当前智能交互基础数据服务的主流需求,因此针对远场语音交互的低噪声环境服务具有较强发展潜力和议价能力。在服务语种上,中文(含方言)服务占据71%的市场份额,外语种资源相对稀缺,采集和标注难度较大,成本相对更高,目前占29%的市场份额。
目前企业在智能交互系统的建设中,对单纯的语音识别或合成方面技术能力相对较完善,而在上下文理解、多轮对话、情绪识别、模糊语义识别、意图判断等方面的研发痛点更强,根据智能交互系统算法的发展,迭代并设计符合算法需求的NLP数据产品,有助于从数据层面推动智能交互系统的发展。特别的,对话系统的效果对标注数据的质量和规模依赖性很强,但目前受标注数据和模型能力的双重制约,对话流程还无法对语音、语义整个交互流程打通,而实现跨语音识别、语义理解的复合数据标注可以帮助减轻语音信息与文本信息之间的信息误传导,对整个对话流程效果增强能够产生积极影响,将增加智能交互基础数据服务探索的可能性。
在语音识别领域,需要进行的是语义快判和语音转写。语义快判是听一段语音,判断语音的意思,有点像选择题。语音转写主要是把语音转化为文字,具体的标注规则需要在标注前仔细阅读规则说明,确保正确率。一般来说,语音标注难度较低,但标注员需要在标注时按照规则仔细进行。
3、人像识别基础数据服务项目
在不考虑自动驾驶的前提下,2018年视图基础数据服务市场达到6.6亿元,人像与OCR数据是视图基础数据服务的主流,尤其人像数据占市场的42.9%。OCR占27%,其他的人体识别数据、商品识别数据、工业质检数据、医学影像数据及其他新场景数据等较为分散,合计占市场30.1%。
按照数据使用方向,可以划分为新算法模型搭建与研发、在已有算法基础上增加新模块、解决方案交付过程中定制优化等三类,其中新算法模型搭建与研发和在已有算法基础上增加新模块类型的数据需求是可以根据相应机器视觉算法的前沿研发方向来判断预测的。例如,就智慧城市场景而言,针对汉族的人脸识别和视频结构化已较为成熟,在实际应用场景中还需针对少数民族和其他人种进行优化以提升整体算法准确率,此外,跨镜追踪成为场景研发热点,相应的跨摄像头数据如何标注对算法训练也会产生较大影响,再及,深度相机可以帮计算机读懂三维立体的监控视频,还能够较好地解决复杂光照条件下视图数据采集的问题,也将在未来成为重要的研发方向,综上,多民族、多人种数据、跨摄像头数据、3D数据的采集与标注服务将为视图基础数据服务市场的发展带来增量空间,OCR、手机、零售等其他领域也同理可针对算法研发方向挖掘增量市场。
对于人脸识别的标注主要是对人脸五官与轮廓定位的标注,对人脸的关键位置,如脸廓、眉毛、眼睛、嘴唇进行定位,人脸关键点检测是人脸识别过程中重要的一步。在标注过程中,标注员需要自己阅读标注规则,对需要进行标注的位置进行打点。
无人驾驶、语音识别和人像人脸识别是人工智能数据服务领域中的主要项目。
4、文本标注数据服务项目
在人工智能的应用领域,比如客服、教育、医疗等领域,本文标注也是重要的数据服务项目,一般来说主要包括文本清洗、文本分类、文本富集、OCR转写、情感标注、NLP标注。标注时,一般通过线上平台将一段文本按照要求进行标注,文本清洗是按照规则对文本进行筛选,挑出符合要求的数据;文本分类是按照您的的规则对文本进行属性分类;文本富集是围绕主题进行文本撰写,使得对于同一主题,文本表达方式多样且贴合实际;OCR转写是对图片中的文字内容进行标框和转写;情感标注是对文本表达情绪倾向进行判断,分类积极和消极的文本;NLP标注是对文本语法的标注,包括槽位提取、文本关系等。
(标题为哈希力量所加,收录入库经哈希力量二次校对编辑)
收录于哈希力量,手机站省略本文固定网址