双剑合璧,“智御”反诈大模型护民生

发布时间:2024-03-22 作者:中兴通讯 黄小兵,王巍

        据国家反诈中心的公开资料显示,近年来电信网络诈骗已经成为发案最多、上升最快、涉及面最广的犯罪类型。截至2022年底,公安部门共破获电信网络诈骗案件115.6万起,抓获犯罪嫌疑人155.3万名,止付冻结涉案资金9165亿余元。电信网络诈骗态势日益严峻,严重威胁大众人身安全与财产安全。

 

短信诈骗监控难点与挑战

 

        诈骗短信作为电诈最常见的手段之一,其内容不断变异和升级,以穿透电信运营商的短信监控系统处理策略:

        - 通过组合变异、转义字符、谐音、形近等种种手段突破关键词规则;

        - 通过汉字、字符、数字的变异组合来表达标准URL和号码,突破现网正则监控策略;

        - 通过海量号码池规避流量和关键字门限;

        - 通过拨测等方法,一点突破,海量发送。

        传统治理方案升级周期长,面临巨大挑战,策略过松拦截效率低,策略过严影响用户正常通信需求。

 

AI大模型开启新技术革命

 

        2022年11月30日,OpenAI公司发布ChatGPT,其成为有史以来最短时间用户量突破1亿的应用。ChatGPT基于Transformer神经网络架构,在大规模自然语言、序列数据和目标检测等多个深度学习领域取得重大突破,并可通过大量的语料库来训练模型,使得大模型具备泛化知识,能深刻理解语言和对话;此外,可针对性训练解决特定领域的问题,迅速适应新的任务和场景。

        对于诈骗短信的精准识别,首先需要能深刻理解自然语言;其次,需要对敏感信息进行分类,并识别内容真正的意图;第三,对于不停变换的诈骗短信内容,需要能对样本学习,完成知识和模型的动态升级。这些正是Transformer架构大模型擅长的技术,基于大模型研发新型短信反诈技术和产品,非常值得快速技术穿刺和尝试。

 

快速技术穿刺,攻关难点

 

        项目初期,我们在AI大模型选用方面面临几大困难:

        - 模型不确定:如何选择最合适的大模型,并确保合法合规;

        - 语料及训练方案不确定:语料质量、数量、格式、提示词要求不了解,训练、推理方案从零开始;

        - GPU和服务器成本高:中期推理性能低,大业务量下GPU数量和成本过高。

        我们基于快速穿刺,敢于试错,及时调整方案逐个解决难点。模型选择方面,最初摸索阶段,从小于1亿参数规模,到3.4亿,再到70亿和130亿,尝试了包括国内和国外多种大模型,总计4种参数规模、6种国内外模型及自研模型、20多种组合,进行了大量穿刺比较。

        语料和精调方面,获取一手高质量、合规语料,尝试多种精调方案,最终设计出“专用提示词+样本微调”最佳方式,识别准确率和召回率效果均大幅提升。

        针对GPU数量和成本过高问题,设计多层架构,将缓存加速作为前置,以小模型与大模型叠加结合的方案来解决,并通过推理加速达到最优。

        最终基于模型评估效果和成本两项指标,选取综合最优方案完成选型,并通过法务合规评审。

 

通信与AI完美结合,双剑合璧

 

        经过不断创新,中兴通讯成功发布业界第一个“智御”反诈大模型系统(见图1)。该系统无需策略配置,开箱即用,自动识别非法短信,大幅降低现场策略运维的复杂度和工作量的同时,提升了非法短信识别的查准率与召回率,实现垃圾/诈骗短信的识、防、管、打一体化治理。

        该系统目前已在A、B两个运营商样板局点开展业界首个基于大模型的短信反诈治理试点,达成目标,并快速转商用。

        A运营商成果:系统在省公司上线后,诈骗短信拦截率得到显著提升,境外垃圾短信发送量从日均50万~60万条断崖式下跌为日均2万~3万条,预测准确成功率和拦截准确率最高可达99%;与此同时,有效减少了涉诈案件数量,2023年8月,境外涉诈案件环比下降64%;局点上线后得到客户及该省反诈中心的高度认可。

        B运营商成果:国内终端发起短信(MO)总量400万条/天,全部进入“智御”系统。日均拦截11万条左右垃圾和诈骗消息,拦截准确率从57.25%提升到93.60%;误拦截比例从42.75%降低到6.4%。

        此外,智御反诈技术成果荣获工业和信息化部反诈专班《防范治理电信网络诈骗创新技术遴选应用》一等奖,并全面向全国推广。

 

未来演进与展望

 

        反诈大模型是通信大模型应用的一个开端,“智御”系列大模型将在服务范围、媒体能力和行业应用等多个方向深入发展、演进和应用。

        - 领域拓展和能力开放

        实现能力复制和开放能力,进一步深拓反诈治理领域到5G新通信领域、IT领域和内容发布等领域应用。

        - 媒体CV大模型

        除了短信文本内容反诈,多媒体内容是一种上升很快的电信诈骗形式,为保障5G新通信时代媒体内容可信、安全、可靠,“智御”大模型未来必须支持多媒体内容的高效识别和反诈。

        - 行业大模型

        5G新通信行业客户有广泛的智能对话、行业知识服务和企业应用需求,“智御”大模型可以通过支持L0/L1/L2大模型,在5G消息平台等新通信网络侧平台集成和升级,来快速满足和实现5G行业通信AI能力需求,服务政企客户。