ai数据采集解决方案:分享如何做好AI数据采集
2018年4月20日下午,“世界聊得来”科大讯飞翻译战略暨新品上市发布会在北京亮马桥外交办公大楼举行。从语音切入人工智能领域的科大讯飞,如今已在人工智能语音领域占据较大份额。作为AI翻译领域的开拓者,科大讯飞产品已在全球130多个国家覆盖使用。作为全新品类,本次发布的科大讯飞翻译机新品支持中文与英文、日语、韩语、法语、西班牙语、俄语、泰语、土耳其语等33种语言即时互译,与此同时还具有对方言以及带方言口音非标准普通话的识别能力,支持粤语、四川话、东北话、河南话四大方言。
AI领域中一个伟大产品的诞生背后一定有一个超大体量的大数据支持,在这其中AI大数据采集发挥着不可估量的作用。
目前AI领域,不同企业因服务和产品的不同从而拥有多样的AI数据采集定制化需求。任正非曾经指出:重视数据的录入和采集,是人工智能和自动化的源头。如何做好AI大数据采集是AI企业非常关注的点。
龙猫数据在AI数据采集领域有着丰富的经验,如何做好AI数据采集龙猫数据有着自己的标准。
—龙猫数据 ▲▲▲▲▲
项目负责
AI企业在项目研发进度过程中有着严苛的时间标准,任何一个环节在时间上脱节都将对AI项目造成滞后。所以在遇到数据采集需求时数据服务团队需要考虑是否能完成。例如上海的采集团队承接西藏地区藏羚羊的图片采集任务或者深圳的采集团队承接新疆地区奔驰车的图片采集任务,采集时效性和质量显然是欠缺的。片面的夸大和不切实际的标榜会让AI企业产生巨大的成本。
数据服务团队不仅要对自己的团队人员负责,更要对AI企业项目进度负责。而事实上部分数据服务团队可以在某个领域进行高效的数据采集服务,但是如果要在各个领域高效的提供数据采集服务,众包模式就发挥了其不可替代的作用。将数据采集需求发布到众包,不同的团队、个人、组织均参与到整个项目中来,整个采集成本下降的同时,时效性得到了大大提升。
—龙猫数据 ▲▲▲▲▲
深度理解
由于每个人的看法和角度不同,从而导致信息在传递中出现滞后和误差。在数据采集项目中,AI企业对于项目的理解程度极高,下发的数据采集需求说明具有较高的行业属性。数据服务团队承接数据采集需求时不能只看到表面,而是需要深度理解项目含义。例如去餐厅用餐,即使点的是套餐,优秀的服务人员也会问是否有忌口。卓越体现的不单单是服务,更重要的是让客户享受服务。
在一个语音采集需求中,当客户需要采集中年人语音样本的时候, 我们需要做的是向客户精确确认年龄段以及什么年龄段为主;当客户需求采集安静环境语音样本的时候,我们需要做的是向客户明确安静的标准,即:封闭型静音安静、无噪声安静、有噪声安静。数据采集更多的是需要站在客户角度思考,满足真切的客户需求,提供优质的数据采集服务。
—龙猫数据 ▲▲▲▲▲
实时沟通
在数据采集过程中,会出现不同的状况,采集状态以及采集过程出现的困难需要时时同客户进行沟通,做到不隐瞒不遮掩,一切以解决问题为主。而如果用户的需求期间出现了变动,要及时调整采集方案。
在整个采集项目中后期需要充分考虑时间因素。比如同客户约定10天交付,那么采集团队就需要提前数天完成数据的采集工作,给数据清洗、数据打包、数据传输预留出充裕的时间,这样才能在约定时间给客户最有优质的采集数据。
AI企业对数据采集的质量要求较高,选择数据采集服务企业的时候需要重点了解该数据服务企业资质和经验。多数数据采集企业忽视自身特点,在不依靠众包模式的情况下去服务AI企业,导致数据采集行为失去了AI企业最为关注的时效性和质量,导致成本大大上升。提供优质数据采集服务依靠的不仅是勇气,更重要的是一个数据采集方式和方法,在深度理解项目的情况下提升数据采集时效性,这样才能为AI企业为提供更优质的数据服务。