反欺诈应用：通过地址相似度检测团伙作案痕迹-育师

反欺诈应用：通过地址相似度检测团伙作案痕迹

在互联网金融风控领域，识别多头借贷和欺诈团伙一直是个棘手的问题。最近我在一个实际项目中，尝试使用MGeo地址相似度模型来检测借款人填写的居住/工作地址相似度，效果相当不错。这篇文章将分享如何快速部署这个模型，以及它在反欺诈场景中的实际应用方法。

这类任务通常需要GPU环境支持，目前CSDN算力平台提供了包含该镜像的预置环境，可以快速部署验证。不过即便在普通CPU环境下，模型也能运行，只是速度会稍慢一些。

为什么需要地址相似度检测

互联网金融公司经常遇到这样的场景：多个借款人在不同平台申请贷款时，填写看似不同但实际关联的地址信息。传统规则引擎很难识别这类精心设计的欺诈行为：

同一团伙可能使用"XX小区1栋202"和"XX小区1号楼202室"这类变体地址
专业欺诈者会刻意调整地址表述顺序或使用同义词
不同借款人填写的地址可能指向同一实际位置但描述方式不同

MGeo模型能够理解中文地址的语义，将不同表述的地址映射到同一地理空间位置，从而发现潜在的关联关系。

快速部署MGeo地址相似度模型

MGeo是达摩院与高德联合研发的多模态地理文本预训练模型，专门针对中文地址处理优化。部署过程非常简单：

准备Python环境（推荐3.7+版本）
安装ModelScope基础库
加载MGeo地址相似度模型

以下是具体操作步骤：

# 创建Python虚拟环境（可选但推荐） conda create -n mgeo python=3.7 conda activate mgeo # 安装ModelScope和相关依赖 pip install "modelscope[nlp]" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

使用MGeo进行地址相似度比对

模型的核心功能是比较两条地址的相似程度，判断它们是否指向同一地理位置。下面是一个完整的示例代码：

from modelscope.pipelines import pipeline from modelscope.utils.constant import Tasks # 初始化地址相似度分析管道 address_matcher = pipeline( task=Tasks.sentence_similarity, model='damo/mgeo_geographic_similarity_chinese_base' ) # 待比较的地址对 address_pairs = [ ("北京市海淀区中关村大街11号", "北京海淀中关村大街11号"), ("上海市浦东新区张江高科技园区", "杭州西湖区文三路") ] # 批量比对地址相似度 results = address_matcher(address_pairs) for (addr1, addr2), result in zip(address_pairs, results): print(f"地址1: {addr1}") print(f"地址2: {addr2}") print(f"相似度: {result['score']:.4f}") print(f"判断: {'相同位置' if result['label'] == 'exact_match' else '不同位置'}") print("-" * 50)

输出结果会包含相似度分数(0-1)和分类标签(exact_match/partial_match/no_match)，风控团队可以根据业务需求设定阈值。

批量处理Excel中的地址数据

实际业务中，我们通常需要处理大量Excel格式的借款人信息。以下代码展示了如何批量处理Excel文件中的地址列：

import pandas as pd from tqdm import tqdm def batch_compare_addresses(df, address_col1, address_col2): """批量比较两列地址的相似度""" results = [] for _, row in tqdm(df.iterrows(), total=len(df)): res = address_matcher([[row[address_col1], row[address_col2]]]) results.append({ 'address1': row[address_col1], 'address2': row[address_col2], 'similarity': res[0]['score'], 'match_type': res[0]['label'] }) return pd.DataFrame(results) # 读取Excel文件 df = pd.read_excel('loan_applications.xlsx') # 批量比较居住地址和工作地址 result_df = batch_compare_addresses(df, 'home_address', 'work_address') # 保存结果 result_df.to_excel('address_similarity_results.xlsx', index=False)

识别欺诈团伙的实用技巧

在实际风控工作中，我们发现这些策略特别有效：

同设备多账户检测：结合设备ID和相似地址分析，准确率提升明显
地址聚类分析：将相似度高于阈值的地址归为同一簇
时间序列分析：短时间内同一地址出现多次申请需特别关注

以下是一个简单的地址聚类示例：

from sklearn.cluster import DBSCAN import numpy as np # 假设addresses是待分析的地址列表 addresses = ["地址1", "地址2", "地址3", ...] # 计算地址相似度矩阵 n = len(addresses) sim_matrix = np.ones((n, n)) for i in range(n): for j in range(i+1, n): res = address_matcher([[addresses[i], addresses[j]]]) sim_matrix[i,j] = sim_matrix[j,i] = res[0]['score'] # 使用DBSCAN聚类(参数需根据业务调整) clustering = DBSCAN(eps=0.9, min_samples=2, metric='precomputed').fit(1-sim_matrix)