新疆都市报 > 科技 > 智能 >

“文本智能标注”能解决哪些烦恼?

发布时间:2020-06-11 01:17来源: 网络整理

  随着技术的进步,人工智能的发展和应用如火如荼,智能化转型已经成为企业发展的必然趋势。

  人工智能技术作为“新基建”提速的重要一环,应用场景已经日趋广泛,比如在传媒领域的智能机器人写作、各类APP的个性化内容推荐以及准确度接近人类的实时翻译工具等。各行业越来越多的应用案例证明,利用AI技术来提高企业的业务效率,是智能经济时代,企业降本增效、提升核心竞争力的必备“秘籍”。

  EasyDL是飞桨深度学习平台推出的面向企业打造的零门槛AI开发平台。EasyDL发布以来,在工业、农业、零售、安防、教育、医疗等数十个行业的上百个领域中落地应用,助力众多企业迈出了智能化转型的关键一步。

  近期,在百度NLP(自然语言处理)技术的加持下,EasyDL平台率先推出了业界领先的文本智能标注功能,目前已经上线到EasyDL专业版平台,在自然语言数据集中可以启动智能标注,帮助企业和开发者解决以往文本数据标注成本高、效率低的痛点。

  文本智能标注功能解决了训练NLP任务模型时必须人工逐条标注文本数据的烦恼。借助该功能,开发者仅需提供少量的已标注文本数据,即可完成对大规模数据集的自动标注,对企业来说,数据标注的成本大幅降低,同时模型训练效果也得到有效提升。目前,文本智能标注功能已经支持使用最广泛的文本分类任务。

  企业为什么需要“文本智能标注”

  1、数据是企业智能化转型的核心要素之一

  通常情况下,数据集的数量和质量会决定模型训练的效果,进而直接影响企业的业务效率,因此企业在应用AI技术进行智能化转型时,需要用大规模已标注的业务数据集来训练AI模型,提高模型的训练效果。

  2、人工标注数据成本高、效率低

  在大多数企业中,数据标注的工作往往是人工完成的,企业需要设置完备的数据标注体系,并对标注人员进行业务培训,实时管理标注过程,对标注结果进行验收,存在着标注人员培训成本高、标注效率低、数据管理冗余等一系列问题。

  以某金融企业的智能媒体业务为例,开发者需要使用分类模型对金融专业文章按照不同频道进行分类,在人工标注模型训练数据集的过程中,伴随着以下几个核心痛点:

  1)对数据标注人员的要求高。金融领域的高专业度使得模型训练所需的数据集对标注人员的专业性和理解力提出了很大的挑战,为保证大规模数据集的标注质量,往往需要金融专业背景的人员来进行数据集的标注。

  2)人工进行数据标注的效率低。为了保证数据标注的质量,企业需要设定相应的标注流程和标注质量验证的方法,同时为了保证流程和方法得到落地和执行,还需增加适当的奖励机制,并与人事管理相结合。

  3)难以对标注数据进行规划。企业在人工数据标注的过程中对数据标注管理方案投入较多的资源,但对未来应该获得多少标注数据以提升模型效果往往无法进行有效的预期和规划,会额外增加不可预期的成本。

  训练模型过程中,通常需要经历数据集准备(标注)、任务网络配置开发、模型的训练和部署等重要过程。很多时候,模型训练在数据准备阶段遇到数据量不足的问题,使模型开发过程迟迟不能启动。借助EasyDL专业版的文本智能标注功能,开发者可通过上传少量的已标注数据样本,完成对大规模的数据集的自动标注,省去了人工逐一标注的环节,使用智能标注数据来训练小型网络模型,以获得效果和性能更优的模型预测服务。

  如何使用文本智能标注能力

  借助文本智能标注功能,开发者可以使用少量人工标注的数据和业界领先的预训练模型ERNIE2.0对大规模的未标注数据进行预测,完成对数据的智能标注。

  同时,开发者可以根据智能标注结果的准确率情况,对智能标注数据集进行优化:在智能标注完成后,系统将根据算法挑选出少量优先标注样本供开发者进行人工校验,校验完成后系统将使用此部分样本对模型进行重新训练,从而获得更精准的智能标注数据。

  开发者登录百度EasyDL专业版平台后,仅需三步即可使用文本智能标注能力,完成对相关数据集的标注过程:

  1、准备好待标注的大规模数据集,并且对少量的数据进行人工标注(已标注数据需大于600条);

  2、在EasyDL专业版创建并导入数据集,启动智能标注过程;