机器学习技术应用于保险反欺诈

来源:中国保险报网 2019-06-25 09:10:00

摘要
□赵正堂韩方园保险欺诈是指假借保险名义或利用保险合同谋取非法利益的行为,主要包括保险金诈骗类欺诈行为、非法经营保险业务类欺诈行为和保险合同诈骗类欺诈行为等。保险欺诈是任何一家保险公司都面临的棘手问题,是一个难以根除的全球性难题,很大程度上限制了保险行业的健康持续发展。保险欺诈一旦得逞必然会损害众多善

  □赵正堂 韩方园

  保险欺诈是指假借保险名义或利用保险合同谋取非法利益的行为,主要包括保险金诈骗类欺诈行为、非法经营保险业务类欺诈行为和保险合同诈骗类欺诈行为等。保险欺诈是任何一家保险公司都面临的棘手问题,是一个难以根除的全球性难题,很大程度上限制了保险行业的健康持续发展。

  保险欺诈一旦得逞必然会损害众多善意投保人、被保险人或受益人的合法权益,损害保险的公正性和公平性,损害保险公司的整体利益和社会声誉,影响保险的社会功效,背离“保险姓保”的宗旨。

  由于保险欺诈的巨大危害,保险界将保险欺诈称为“黑色逆流”。幸运的是,技术的进步和保险公司大量的数据积累,使得保险公司有机会利用机器学习技术更精确同时成本更低地识别欺诈风险。

  机器学习技术与保险反欺诈

  随着大数据技术的不断成熟以及计算机算力的迅猛提升,机器学习、深度学习等算法进入了飞速应用发展的阶段,图像识别、自然语言处理等技术正逐渐被应用于我们的日常生活场景中,应用前景广阔。例如,犯罪嫌疑人的追踪筛选可以通过人脸识别、声纹识别提高效率,机器翻译、音频文字转化得益于自然语言处理技术的应用,还有推荐系统、广告计算等领域借助FM(Factorization Machine)、FFM(Field-aware Factorization Machine)技术也取得了突破性进展。此外,不管是人工智能机器人,还是无人驾驶技术,种种关于未来想象的科技产品中随处可见机器学习的身影。

  目前,机器学习技术在精准识别和预防欺诈两方面都对保险反欺诈工作起到了十分积极的推动作用。现阶段机器学习技术的反欺诈应用主要是根据目标建立相关模型,之后通过设置将欺诈案件中的特征系统化,运用算法来依靠定量方式评估理赔案件中欺诈风险的级别。这种方式可以极大地提高欺诈风险识别的准确性和效率,同时还可以为保险公司节省大量的人力成本。

  半监督学习的保险反欺诈应用

  保险产品不仅品类繁多,而且不同险种拥有的数据量也相差很大。在机器学习的常规模型中,一般会对不同的产品单独进行训练预测。但在实际中,这样的做法有时会遇到操作上的难题。例如,某一特定险种上的数据量不足或者说正样本(即发生欺诈事件)的数量不足,又或者当我们有少量的标注数据却有大量的未标注数据时,同一个模型的性能受数据质量的影响也会严重下降。当然我们可以花费更多的时间、精力和人力去搜集到足够的数据量(或者是标注出足够的数据量),但这与我们使用机器学习技术的初衷不符,并且这样的做法也会增加保险公司的成本。因此,笔者提出半监督学习的方法,希冀为解决此类问题提供一定思路。

  半监督学习已经有许多成功应用的思路,如半监督支持向量机、图半监督学习、协同训练、半监督聚类等,笔者将说明一些新的将标注数据和未标注数据“同时”训练的思路。

  首先,对训练数据使用不同的三个模型进行训练,得到第一阶段的模型,将这三个模型分别在测试集上预测。需要注意的是,三个模型之间的差距越大越好,比如可以考虑分别使用LGBM(树形算法)、卷积神经网络和支持向量机(线性算法)。推荐使用卷积神经网络,因为虽然最初卷积神经网络是为了解决图像识别问题而提出的,思路来源也是视觉上的“感受野”,但实际中,由于卷积神经网络能够提取不同大小,不同部位的局部特征,其提取特征的能力要高于单纯的全连接神经网络,因此往往在结构化数据里CNN的表现也优于全连接神经网络。

  其次,使用三个模型得到预测集上的预测结果后,将原先只有自变量x的测试集和预测出来的标签合并,得到三个新的“训练集”,由于此训练集上的标签并非真实标签,而是自己使用算法标注,因此也被称为伪标签(Pseudo label)。之后,将三个模型得到的新训练集交叉添加,得到三个新的训练集后,可以进行第二阶段的训练,甚至可以循环这个过程,直到模型性能不再提升为止。由于这种做法是三个模型之间“互相帮助”训练,因此也叫协同训练。

  伪标签技术在比赛中已经有广泛应用,但一般会直接将预测最精准的值(例如预测概率在0.90以上或者0.1以下)直接加入训练集。但这样有时会破坏原本训练集的分布情况,而且由于伪标签本身就是算法标注,因此,在实际应用时,往往会考虑在构造出来的新训练集上加入一个人为的随机高斯噪音,同时由于伪标签不能保证和真实标签一样的准确率,因此会相对降低新训练集在第二阶段的权重来提升模型的泛化能力,同时降低模型的过拟合。

  笔者从整体模型设计流程的角度,提出几种使用不同分布,使用少量标注数据和大量未标注数据来尽可能地提升模型性能的方法,且这些方法在一些领域,如借贷风向评估等经过测试都能有着稳健的表现,因此可以考虑推广到保险领域。

  尽管笔者介绍的模型搭建流程在总体上能够提升模型的表现,但实际应用中流程越复杂,意味着训练和部署的时间、精力要求越高,这要求在实际业务中还需要综合考虑两方面的因素,即如何使用更为简单的流程得到一个保证精确度的模型,这样才能最大的提升用户体验和降低企业成本。因此,具体实施还需要保险公司在实践中有所取舍并不断完善。

  (作者单位:厦门大学经济学院金融系)

关键字: