网站地址:dgraph-web

论文地址:2207.03579

baseline:DGraphXinye/DGraphFin_baseline: This is a repository contaning baseline code for DGraphFin Dataset

DGraph

DGraph提供了来自各个领域(如金融网络和社交网络)的动态数据集的集合。DGraph 旨在帮助社区更好地探索和理解动态图的演变,以及评估动态图建模方法。

image-20250109104207679

DGraph-Fin

image-20250109105325373

标签:为了更好地了解实际的财务场景,我们将节点分为 foreground nodes (前景节点) 和 background nodes (后台节点)。前景节点是标记为正常 (Class 0) 和欺诈 (Class 1) 的节点,它们也是我们预测任务的节点。另一方面,背景节点与任务无关,但在维护图形的连接性方面发挥着重要作用。

任务:DGraph-Fin 的任务是根据节点特征和图形结构信息检测欺诈用户。这是财务场景中的常见任务。我们将节点随机分成训练/验证/测试集,比例为 70:15:15。

不断发展的模式:DGraph-Fin 中的每个边缘都包含时间信息,表示用户填写该紧急联系人的时间。为了保护隐私,使用加密的时间戳来表示时间

DGraphFin 数据文件描述

文件 dgraphfin.npz 包含以下键值(keys):

  • x:17 维节点特征。

  • y:节点标签。
    数据集中共有 四种类别,每个类别的节点数量如下:

    • 0 类:1,210,092 个节点
    • 1 类:15,509 个节点
    • 2 类:1,620,851 个节点
    • 3 类:854,098 个节点

      任务描述

    • 类 1 表示欺诈用户,类 0 表示正常用户,模型需要预测这两个类别的节点。

    • 类 2 和类 3 表示背景用户。
  • edge_index:形状为 (4300999, 2)边索引矩阵。

    • 每一行表示一条边,格式为 (id_a, id_b),其中 id_aid_bx 中节点的索引。
  • edge_type:边的类型,共有 11 种不同类型的边

  • edge_timestamp:每条边的去敏化时间戳。

  • train_mask, valid_mask, test_mask:

    • 类 0(正常用户)类 1(欺诈用户)的节点被随机划分为训练集、验证集和测试集,比例为 70% / 15% / 15%