筛选风险词、用实体类型推断限售商品,阿里安全夺冠知识图谱大赛

机器之心专栏
机器之心编辑部

最近 , 阿里安全一线风控发现 , 在禁售的风险防控库里 , 有人试图「上新」新品种 , 借助在社交媒体上走红的「魔法改运」等说辞 , 引入玄学骗局 。 这种安全风险如何防范呢?他们给出了答案 。
对于阿里安全等风控部门来说 , 尽量提前发现风险问题 , 提早布防他们的日常工作 。 但是 , 风险对抗不断升级 , 各类风险词不断变异试图躲避各家平台管控 , 如果单靠人力防控 , 只会是杯水车薪 。
针对类似具有行业共性的风险治理难题 , 业界和学界推动以技术创新探索网络风险治理 。 今年中国中文信息学会语言与知识计算专业委员会主办了「CCKS 2021 通用百科知识图谱实体类型推断」比赛 , 邀请国内 283 支队伍参赛 。
12 月 25 日 , 比赛结果出炉 , 阿里安全升级包含封建迷信、软色情、野生动植物保护、血腥暴力等重难点风险治理域在内的 AI 技术 , 并获得第一名 。
筛选风险词、用实体类型推断限售商品,阿里安全夺冠知识图谱大赛
文章图片

CCKS 2021 通用百科知识图谱实体类型推断竞赛获奖情况 。
任务介绍
通用百科知识图谱实体类型推断任务围绕通用百科知识图谱构建中的实体类型推断展开 , 评测从实体百科页面出发 , 从给定的数据中推断相关实体的类型 。 数据示例如下:
筛选风险词、用实体类型推断限售商品,阿里安全夺冠知识图谱大赛
文章图片

任务涉及的类型包括组织机构、人物、作品、位置等多个领域 , 54 种实体类型 。 实体类型之间具有层级关系 。 标签体系如下:
筛选风险词、用实体类型推断限售商品,阿里安全夺冠知识图谱大赛
文章图片

实体类型推断任务指的是指通过上述实体的信息 , 对实体进行分类 , 上面示例中的卡米尔陨坑 , 其对应的标签是『位置_自然景观』 。
任务难点
与目前主流的学术评测不同 , 本次任务提供的 60 万 训练数据 , 全部没有标签 。 这样的比赛设定更贴近于实际的工程场景 , 因此对参赛选手解决问题能力有着更高的要求 。
此外 , 实体类型更加丰富 , 不同领域下包括多个具体的实体类型 , 整体任务包括几十个实体类型 。 某些实体可能只属于一个实体类型 , 某些实体可能属于多个实体类型 , 因此更加增添了任务的难度 。 比如「刘德华」既属于「歌手」类型 , 又属于「演员」类型;「知识图谱概念与技术」就只属于「书籍」类型 。
阿里安全的解决方案
数据处理
由于训练数据没有标签的特性 , 如何利用最小的成本给训练数据打上标签 , 则成为了整个方案最重要的一环 。 本次评测 , 阿里安全采用了多种低成本的方案 , 对数据进行打标 。
一方面是弱监督 。 通过外部高置信度的数据 , 训练模型 , 回标训练集 。 使用到的外部数据有维基百科、CN-DBpedia 。 其中 , 维基百科中的实体都是带有实体标签的 , 比如通过的标签映射中国男歌手即「人物 > 文艺工作者 > 歌手」, 即可得到外部的歌手数据 。
通过此种方法 , 得到的外部数据共计 30 万条 。 给定树状结构标签 , 广度优先 + 剪枝进行递归遍历 , 获取每个子类别 。 利用类似的方法 , 在 CN-DBpedia 中得到数据 70 万条 。
另一方面是基于句法分析标签抽取 。 通过分析训练数据 , 基于统计结果 , 大部分实体的首句 , 都包含了实体类型 。 基于 LTP 依存句法分析和语义角色标注的事件三元组抽取 , 可抽取出 (海贼王, 是 ,漫画) 。 通过此部分逻辑 , 可给 Train 打标 20 万条数据 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。