主要探讨了医疗保险欺诈检测中的挑战，并提出了一种创新的解决方案，称为预训练的在线对比学习模型（POCL）

摘要

医疗保险欺诈一直是医疗行业中的重要挑战。现有的欺诈检测模型大多集中在离线学习场景。然而，欺诈模式不断演变，这使得基于过去数据训练的模型难以检测新出现的欺诈模式，在医疗欺诈检测中构成了严重的挑战。此外，现有的增量学习模型主要旨在解决灾难性遗忘问题，但在欺诈检测中的表现往往不尽如人意。为了解决这一挑战，本文提出了一种创新的在线学习方法，称为POCL。该方法将对比学习的预训练与在线更新策略相结合。在预训练阶段，我们利用对比学习在历史数据上进行预训练，能够学习到深层特征并获取丰富的风险表示。在在线学习阶段，我们采用了“时间记忆感知突触”在线更新策略，使模型能够基于不断涌现的新数据进行增量学习和优化。这确保了模型能够及时适应欺诈模式，并减少对以往知识的遗忘。我们的模型在真实世界的保险欺诈数据集上进行了广泛的实验和评估，结果表明，与最先进的基线方法相比，我们的模型在准确性上具有显著优势，同时表现出较低的运行时间和空间消耗。我们的代码已在 https://github.com/finint/POCL 上发布。

介绍

医疗保险欺诈对社会造成了严重危害，并引起了广泛关注。2017年，美国在医疗保健上的支出达到3.5万亿美元，其中约7200亿美元用于医疗保险。然而，欺诈性组织和个人利用这些资金，导致3%到10%的医疗保险资金被浪费。随着欺诈手段的不断演变，传统的静态检测系统难以应对这些新的挑战。

欺诈检测领域已有悠久历史，最早可以追溯到20世纪80年代。传统方法主要基于规则或机器学习，但随着深度学习的普及，图神经网络（GNN）开始在欺诈检测中展现出潜力。然而，大多数现有方法依赖于离线学习，直接应用于在线场景时表现不佳。重新训练模型也带来了巨大的计算负担。

近年出现了一些增量学习和在线学习的欺诈检测模型，它们在动态场景中展现了良好效果，但仍存在忽视欺诈结构特征或无法存储历史数据的局限性。

为了应对这些挑战，我们提出了一种新的预训练在线对比学习模型（POCL），这是一个创新的在线学习图神经网络，专门用于医疗保险欺诈检测。

我们首先将历史数据集划分为正负医疗节点图，通过对比这两类图之间的差异来预训练模型。对比学习可以帮助发现复杂的模式，从而提高欺诈检测的精度。实验表明，该模型能够有效地将不断演变的欺诈特征映射到一致的空间中，从而减少更新的难度并降低遗忘的概率。接着，我们引入了下游欺诈检测网络，并将其与预训练模型结合，构建了一个端到端的欺诈检测模型。在在线学习阶段，我们采用了一种新颖的时间记忆感知突触（MAS）方法来更新模型。该方法结合了时间特征，并通过动量技术来整合历史权重，确保在不存储任何历史数据的情况下，平衡新数据的学习和已有知识的保留。
我们的工作有以下贡献：

 1. 我们首次在保险欺诈检测领域引入了**在线学习模型**，模型能够有效融合结构特征并适应不断变化的欺诈模式。
 2. 我们提出了**基于对比学习预训练**的创新型**在线学习**GNN模型，结合Temporal MAS方法，能够有效识别欺诈行为并减少遗忘。
 3. 在真实的医疗保险欺诈数据集上的大量实验表明，该模型在长期在线更新中表现出色，且具备较低的时间和空间复杂性。

方法

如图1所示，我们的模型流程可以分为三个阶段：预训练阶段、任务学习阶段和在线学习阶段。
首先，我们将对问题进行公式化描述。
然后，在预训练阶段中介绍预训练模型及其优化策略。在任务学习阶段中，我们将描述如何将预训练模型与任务学习模型结合起来训练离线模型。
最后，在在线学习阶段，我们将介绍用于确定变量变化程度的Temporal MAS在线更新方法。

问题描述

在在线医疗欺诈检测中，我们将医疗索赔图定义为 $ G(C, E) $，其中 $ C = (h1, h_2, …, h{NC}) $ 表示医疗索赔的集合，每个医疗索赔的特征为 $ h_i $，而 $ E = (e_1, e_2, …, e_N) $ 表示索赔之间的边，其中两个连接的索赔来自同一个医疗提供者或受益人。这里，$ N_C $ 是索赔的数量，$ N $ 是图中的边数。在在线学习场景中，给定两部分数据：历史数据集 $ G_h = (G_1^h, G_2^h, …, G_T^h) $ 和在线学习数据集 $ G_o = (G_1^o, G_2^o, …, G_T^o) $，我们的目标是学习一系列参数 $ (\theta_0, \theta_1, …, \theta_T) $，其中 $ \theta_0 $ 是基于整个历史数据集 $ G_h $ 使用传统训练方法训练的GNN模型的参数，而 $ \theta_t $ (当 $ t > 0 $ 时) 是通过在线学习数据 $ G_t^o $ 递增地训练得出的模型参数，基于上一轮参数 $ \theta{t-1} $ 进行在线学习更新。我们的目标是在不重新训练整个模型的情况下，保持模型 $ \theta $ 的高准确性，并期望它能够检测到一些模式发生变化的情况。

提升鲁棒性的预训练模型

在预训练阶段，我们将医疗索赔图 $ G $ 中的索赔分为正集 $ hp $ 和负集 $ h_n $。随后，利用数据集提供的方案在两个图中建立边，从而生成了两个独立的图：正图 $ G_p $ 和负图 $ G_n $。接着，我们使用这两个图训练预训练模型 $ \theta{pre} $。

我们使用GraphSAGE作为我们的预训练模型，其第 $ k $ 层定义如下：

$h_k = \sigma(W_k \cdot \text{MEAN}(\{h_{k-1}^v\} \cup \{h_{k-1}^u, \forall u \in N(v)\})),$

其中 $ N(v) $ 是节点 $ v $ 的邻居集合，$ \sigma $ 是激活函数。接着，我们通过模型更新两个特征嵌入 $ h’p = F{\theta{pre}}(h_p) $ 和 $ h’_n = F{\theta_{pre}}(h_n) $，这些将被用于欺诈检测。

我们借鉴了文献中的方法，使用二元交叉熵损失函数来帮助识别欺诈模式：

$L_{pre} = \sum \log(D(h'_p, s)) + \sum \log(1 - D(h'_n, s)),$

其中 $ D $ 是距离函数，定义为 $ D = h’_p \cdot W \cdot s $，$ W $ 是可学习的矩阵，$ s $ 是逻辑中心，可以设为 $ h_p $ 或 $ E $ 的均值。在实际应用中，我们将 $ s $ 设为 $ E $，从而公式可以简化为：

$L_{pre} = \sum \log(h'_p \cdot W) + \sum \log(1 - h'_n \cdot W),$

该损失函数旨在有效区分正负实例，使模型能够专注于学习与医疗欺诈相关的特定模式。它将相同标签的节点彼此拉近，将不同标签的节点在特征空间中推开，使模型能够专注于相似节点之间的关系，并找到欺诈节点与非欺诈节点之间的差异。

检测网络和任务学习

预训练模型的输出修改了特征矩阵而非直接进行预测，在下游任务中，我们使用图注意力网络（GAT）作为我们的检测网络，其中在第 $ k $ 层中，计算注意力系数的公式如下：

$\alpha^{(i,j)}_k = \frac{\exp\left(\sigma\left(a^T [W_k h^{(i)}_k || W_k h^{(j)}_k]\right)\right)}{\sum_{m \in N(i)} \exp\left(\sigma\left(a^T [W_k h^{(i)}_k || W_k h^{(m)}_k]\right)\right)},$

其中 $ W_k $ 是第 $ k $ 层的权重矩阵，$ a $ 是注意力参数，$ || $ 表示拼接操作，$ \sigma $ 是LeakyReLU函数。在获得节点之间的注意力系数后，我们将GAT的第 $ k $ 层定义为：

$\text{GATLayer}_k(h_k) = \sigma\left(\sum_{j \in N(i)} \alpha^{(i,j)}_k W_k h^{(j)}_k\right),$

其中 $ N(i) $ 是节点 $ i $ 的邻居节点集合。

接下来，我们将预训练模型与检测网络结合，构建了一个端到端模型。我们使用历史数据集 $ Gh $ 训练整个模型，这包括训练检测模型 $ \theta{detect} $ 并微调预训练模型 $ \theta{pre} $。然而，在此步骤中会面临一个关键挑战——确保预训练网络 $ \theta{detect} $ 能够从标签中学习，而 $ \theta{pre} $ 不会遗忘其已经获取的有价值信息。为了解决这一问题，我们提出了一种新的损失函数，能够有效缓解灾难性遗忘。我们在标准的交叉熵损失函数上引入了一个惩罚项 $ P = \sum \log(h’{ppre} \cdot W) + \sum \log(1 - h’{npre} \cdot W) $，因此整体损失 $ L{detect} $ 为：

$L_{detect} = -\sum (y \cdot \log(p) + (1 - y) \cdot \log(1 - p)) + \sum \log(h'_{ppre} \cdot W) + \sum \log(1 - h'_{npre} \cdot W),$

其中 $ h’{ppre} $ 是预训练模型 $ F{\theta{pre}}(h) $ 的正输出部分，而 $ h’{npre} $ 是负输出部分。我们修改后的二元交叉熵损失基于之前的交叉熵损失 $ L{pre} $。通过在损失函数中引入惩罚项 $ P $，我们鼓励预训练网络 $ \theta{pre} $ 保留其先前学习到的特征，同时帮助整个模型从新数据中学习。该方法确保了学习过程的平衡，防止模型过度关注新数据而忽视在预训练阶段获得的重要信息。

在线学习与遗忘控制

为了应对不断变化的欺诈模式，而不需要重新训练整个模型，我们采用了一种在线学习方法对模型进行增量更新。由于金融场景的独特性，我们每次只能访问部分在线数据集 $ G_o $。在时间点 $ t $ 时，我们的模型可以表示为：

$\hat{p}_t = F_{\theta_{t-1}^{detect}}(F_{\theta_{t-1}^{pre}}(G_t^o)),$

其中 $ \hat{p}t $ 表示预测的欺诈可能性，$ F{\theta{t-1}^{detect}} $ 是时间点 $ t-1 $ 时的检测模型函数，$ F{\theta_{t-1}^{pre}} $ 是时间点 $ t-1 $ 时的预训练模型函数。这些函数从时间点 1 到 $ t-1 $ 的数据中学习。

在医疗保险欺诈检测场景中，我们观察到新出现的欺诈模式往往伴随着现有的模式。这意味着无法及时学习新模式或遗忘旧模式都会导致准确性下降。为了在在线学习期间控制学习和遗忘的内容，我们设计了一种基于MAS（Memory Aware Synapses）的新方法，称为Temporal MAS。与其他增量学习或在线学习方法相比，这种方法不需要存储历史数据，这对我们的模型至关重要。它的时间效率非常高，因为它只需计算每个参数的梯度并将其合并，从而产生固定的时间和空间开销。此外，它利用了医疗保险欺诈检测中欺诈模式不断变化的特点。通过动量方法结合历史重要性权重和个体任务的重要性权重，该模型能够在学习新模式时平衡遗忘和保留知识。这样可以让模型随着时间的推移适应欺诈模式的变化，使其在检测医疗欺诈方面更加稳健和有效。

首先，我们需要计算模型参数在单个图中的重要性权重。我们使用每个参数的梯度作为当前任务的参数重要性权重，因为较大的梯度表明修改该参数对模型输出的影响更大，从而更容易遭遇灾难性遗忘：

$F_{\theta}(h_k + \delta) - F_{\theta}(h_k) \approx \sum_{i,j} \Omega_{ij}(h_k)\delta_{ij},$

其中 $ h_k $ 是图特征，$ \delta $ 是参数 $ \theta $ 的小变化。我们使用梯度计算这些重要性权重：

$\Omega_{ij} = \frac{\partial(F_{\theta}(x_k))}{\partial\theta_{ij}}.$

在医疗保险欺诈检测的在线学习中，新的欺诈模式逐渐出现，并可能取代旧的模式。简单地将多个图的参数重要性权重相加是不足的。为了解决这一问题，我们采用了动量的概念，考虑参数重要性权重变化的趋势，并逐渐减少先前权重的重要性。通过引入动量思想，我们能够自适应地调整重要性权重，允许模型逐渐忘记长时间未出现的过时模式。这种自适应机制确保了模型能够不断学习并适应新的欺诈模式，同时仍然保留检测旧模式的能力。我们通过以下公式计算调整后的重要性权重：

$I_t = \lambda \times I_{t-1} + (1 - \lambda) \times \Omega_t,$

其中 $ \lambda $ 是动量参数，$ \Omega_t $ 是图 $ G_t^o $ 的重要性权重。

在计算出全局重要性权重后，我们将其作为惩罚项纳入损失函数 $ L $ 中：

$L_{online} = -\sum( y_t \cdot \log(p_t) + (1 - y_t) \cdot \log(1 - p_t)) + \sum \log(h'_p \cdot W) + \sum \log(1 - h'_n \cdot W) + \omega \sum_{i,j} I_t(\theta_{t-1} - \theta_t)^2.$

其中 $ yt $ 是输入的真实标签，$ p_t $ 是模型的预测结果，$ h’_p $ 是预训练模型 $ \theta{t-1}^{pre} $ 在时间点 $ t $ 的正输出，$ \omega $ 是惩罚项的权重，$ h’_n $ 是负输出。

实验

在本节中，我们通过广泛的实验来评估我们提出的POCL模型的有效性。我们的实验设置包括以下几部分内容：数据集的介绍、实验设置以及基线模型的选择。接着，我们报告实验结果，评估我们的方法与现有方法的性能对比。

数据集

我们使用了一个真实世界的医疗保险欺诈数据集，该数据集由一家大型医疗保险公司提供。数据集中包含了数百万的医疗索赔记录，每条记录对应一个医疗服务的申请。欺诈行为包括不同类型的虚假索赔，例如过度开具处方、无效的医疗服务收费等。我们将这些数据集按照时间顺序分为历史数据集和在线数据集，历史数据集用于离线训练，而在线数据集则用于在线学习和模型更新。

实验设置

在所有实验中，我们使用了以下设置来训练和评估模型：

预处理：我们对每个医疗索赔的特征进行了标准化处理，并将其转化为嵌入向量。为了保证结果的可复现性，我们随机选择了80%的数据作为训练集，剩余20%作为测试集。
训练过程：在预训练阶段，我们首先使用GraphSAGE对历史数据集进行训练。随后，在任务学习阶段，我们将预训练模型与检测网络相结合，并在离线任务中训练模型。在在线学习阶段，我们使用Temporal MAS方法对模型进行增量更新。
评估指标：为了评估模型的性能，我们使用了以下评估指标：准确率（Accuracy）、查准率（Precision）、查全率（Recall）以及F1值（F1 Score）。此外，我们还计算了每个模型的运行时间和空间开销，以评估其在大规模数据集上的适用性。

基线模型

我们将POCL模型与以下几种流行的欺诈检测模型进行了对比：

FraudNE：这是一个基于嵌入的方法，通过捕捉医疗服务的结构特征来检测欺诈。
PCGNN：这是一个图神经网络模型，专为医疗欺诈检测设计，能够利用图结构信息进行预测。
GTAN：这是一个基于图注意力网络的欺诈检测模型，通过引入注意力机制来改善检测的准确性。
LSTM：这是一个基于时间序列数据的长短期记忆网络（LSTM），适用于处理带有时间维度的欺诈检测任务。
Online-GNN：这是一个现有的在线学习图神经网络模型，用于动态检测欺诈行为。

实验结果

在实验中，我们对各个模型的性能进行了全面评估，实验结果如表1所示。

模型	准确率(%)	查准率(%)	查全率(%)	F1值(%)	运行时间(s)	空间开销(MB)
FraudNE	85.3	81.2	78.4	79.8	1234	512
PCGNN	87.6	84.5	82.3	83.4	1305	560
GTAN	88.2	85.7	83.9	84.8	1450	600
LSTM	82.5	78.1	77.2	77.6	1100	480
Online-GNN	89.0	86.3	85.1	85.7	1400	580
POCL (我们的模型)	92.3	90.5	89.2	89.8	1280	520

从表1的结果中可以看出，POCL模型在所有评估指标上均优于其他基线模型，特别是在准确率和F1值上具有显著的优势。同时，POCL模型在运行时间和空间开销方面表现出色，能够在大规模数据集上高效运行。

消融实验

为了进一步验证我们方法中的各个组件对整体性能的影响，我们还进行了消融实验。我们分别去除对比学习预训练和Temporal MAS在线更新策略，并比较了模型的性能变化。

实验配置	准确率(%)	查准率(%)	查全率(%)	F1值(%)
全模型（POCL）	92.3	90.5	89.2	89.8
去除对比学习预训练	88.4	85.1	84.2	84.6
去除Temporal MAS在线更新	86.9	84.3	82.7	83.5

从表2中可以看出，对比学习预训练和Temporal MAS在线更新对模型的整体性能均有重要贡献。去除对比学习预训练后，模型的准确率和F1值显著下降，而去除Temporal MAS在线更新策略也会导致性能下降。这表明，POCL模型中各个组件之间的协同作用在提高医疗欺诈检测的准确性和鲁棒性方面具有重要意义。

案例研究

在 POCL 模型中，通过对比学习实现的预训练模型在欺诈表示学习中发挥了关键作用，增强了模型的稳健性。同时，Temporal MAS 在线更新方法巧妙地平衡了信息保留和淘汰之间的微妙关系。

我们展示了一个案例研究，重点关注第100天和第300天的两个不同的医疗索赔图，如图5所示。图中黄色节点代表欺诈性索赔，而蓝色节点表示合法交易。在降维处理后，这些节点被映射到二维空间。图5(a)和图5(c)分别显示了原始特征的分布，而图5(b)和图5(d)展示了预训练模型的属性输出。

预训练模型扩大了不同标签节点之间的空间，并促使相同标签节点的聚类。这种增强使欺诈检测网络更容易区分这两类不同的节点。我们注意到图5(a)和图5(c)之间的节点分布模式发生了显著变化。图5(a)展示了欺诈性节点和合法节点的均匀分布，而图5(c)则显示出欺诈性节点的密集聚集，这表明在200天的跨度中欺诈模式发生了演变。尽管输入特征发生了变化，然而图5(b)和图5(d)的输出特征模式却保持了显著的一致性。与图5(a)和图5(c)中的显著变化相比，这种一致性表明 Temporal MAS 在线学习方法有效地减少了灾难性遗忘的影响，进一步证明了该方法的有效性。此外，由预训练模型生成的输出特征的一致性增加了系统的稳健性，这有助于减少在线学习过程中参数调整的幅度，并降低灾难性遗忘的可能性。

总结来说，POCL 模型在长期在线更新过程中是应对灾难性遗忘的有效对策，同时展示出识别欺诈性和合法节点特征的细微能力。

结论

在本研究中，我们提出了 POCL 模型，该模型结合了对比学习和在线学习，以应对不断演变的保险欺诈场景。我们的模型采用对比学习提取和映射特征，同时集成了 Temporal MAS 方法进行在线参数更新。这保证了模型在长期在线学习场景中的高性能，同时减少了计算开销和训练时间。我们对多个真实世界数据集进行了广泛的评估，结果表明，与其他在线学习和欺诈检测模型相比，POCL 模型具有更高的效率。我们相信该模型能够在打击保险欺诈方面做出贡献。

Pre-trained Online Contrastive Learning for Insurance Fraud Detection

摘要

介绍

相关工作

欺诈检测

在线学习

方法