平安科技前沿技术部门负责人王磊大规模预训练模型在垂直领域应用的缺陷与改进
作者 王磊
整理 维克多
这些模型的实际应用情况如何?它们能解决哪些实际问题?还有哪些不足?
2021年12月,平安科技前沿技术部门负责人王磊在 CNCC 2021“产业共话:大型预训练模型的商业应用及技术发展方向”论坛上,做了《大规模预训练模型金融领域应用中面临的主要问题与应对技术探讨》的报告。在报告中,他指出了当前大规模预训练模型在垂直领域的“致命”问题,针对这些问题提出了平安科技的解决方案。
例如,他认为大规模预训练模型在垂直领域性能达不到要求的原因可能是:“大规模预训练模型的训练语料库规模很大,既包含了该领域的关键信息也包含了其他无关信息,使得模型缺少对关键信息的关注”,“当前大规模预训练模型的机制改进也也很少涉及对关键信息的提取”。
基于此,王磊认为,大规模预训练模型本质上都是在处理信号,但只要是信号,就可能进行分解,将背景信息和垂直领域的信息分离开来,从而有效贴合下游场景。
另外,金融客户对上线模型的精度要求很高,不少场景直接使用预加载模型往往很难满足需求。王磊提出置信度评估方法,利用强化学习和Bagging思想评估模型靠谱程度。
以下是演讲全文,AI科技评论做了不改变原意的整理。
本次分享的主题是《大规模预训练模型金融领域应用中面临的主要问题与应对技术探讨》,主要以中国平安为案例,从问题背景、语义空间分解技术、置信度评估方法以及应用等几个方面介绍。
在平安公司场景下,大规模预训练模型在金融业务上的应用主要集中在风控与投资。同时,这两个领域近些年的建模在因子层面会比较依赖大数据,例如文本信息,使用预训练模型进行处理能够形成一些特征因子,从而方便分析理解。
大规模预训练模型已经在几十个任务上刷榜,在医疗领域的表现更是令人瞠目结舌。但是深入到金融领域,其性能仍然无法满足要求。以选股为例,传统方法在信息获取阶段会人工从研报、雪球、知乎等论坛找寻一家公司的信息以及风评,然后结合基金经理或投资人自己的判断获得对这家公司的洞察,从而决定是否买进。
由于金融领域的容错性特别低,而且要求模型对专业知识有很深的理解。如果达不到一定的理解水平,从业者宁可不用AI模型。
一般而言,对于单任务,一个模型的性能能达到90%,但如果需要理解一段话或者一段专业评语,则需要三层模型才能形成一定的特征,这时模型性能就会下降为70%左右的水平。因此,在投资等要求严格的场景下,预训练模型很难应用。
为什么会出现这种问题?个人认为,大规模预训练模型的语料库是大型文本,它注重广度和背景,对于深度和细节较少关注。
以国内企业研发的一些预训练模型为例,其早期改进的方式都集中在Mask层面,而Msak机制更倾向于集中学习信息的广度。而当模型应用到法律、医学等领域时,更需要的是“深度”理解。
如何解决?目前有很多思路,例如加入专家知识,知识增强、混合训练等等。目前,中国平安在探索语义空间分解技术和置信度评估方法。
大规模预训练模型涵盖了很多背景信息,那么能否进行再一次的分解,将背景信息和垂直领域的知识体系分离开来?分解不能没有标准和依据,而大规模语言模型实际上是在处理信号,当模型理解信号的时候,虽然信息和语义仍然在,但却在中间发生了各种形式的变换。因此,无论是哪种大模型,其本质都是将信息或语义重新转述为信号。
那么,既然是信号,就能够进行分解。我们已经尝试了多种方式,其中一种做法是:基于国内机构提出的大规模预训练模型,加入高中低滤波器,然后用自适应频谱机制进行处理,可以理解为一个Attention机制,最后进入下游任务训练。
经过实验表明,我们提出的频谱分解网络结构(Filter-Loss和Filter-layer ) ,结合经典语言模型训练神经网络,在各类型任务中均可显著提升语言模型能力。
更为具体,不仅是在垂直领域,改进后的语言模型在11个国际公开数据集上测试结果较BERT模型提升3-20%。这也证明,将语义空间进行分离,然后和下游任务结合的做法具有通用性。
在金融领域,无论模型达到什么样的水准,其上限永远是客户需求。例如客户的标准是95%的性能,而模型只能达到92%,仅仅差3个百分点,就会让模型很难上线。这类问题在金融企业非常容易遇到。
为了解决上述问题,平安科技提出了基于置信度评估的方法,通过这种方法,模型可以评估其“靠谱程度”。如果靠谱程度高,就通过,如果低,那么就需要人类接手,或者直接放弃。因为很多场景并不是信息越多越好,信息冗余已经成为了不可忽视的现象。
而且,还需要解决围绕各类复杂经济主体的多源异构大数据难以统一表述、信息难以整体耦合和关联的问题。平安通过对数据标签化提取的置信度技术研究,提升金融数据标签化提取精度,提升流程自动化水平;通过对多尺度度融合语义关联的经济主体表达技术的研究,构建金融领域知识图谱。
信度评估方法采用的是强化学习构建置信度框架。主要分为三个部分:
1.用BERT等语言模型等抽取语义向量
2.利用双向长短期记忆方式组合全局向量
3. 强化学习模块根据人工打分拟合相关标准,输出置信度分数。
此外,还可以尝试通过Bagging思想构建置信度框架。模型pipeline有4个阶段:
1.利用Bagging思想,从数据中抽样5份,训练出5套模型参数;
2. 在少量测试集上测试各套参数性能,根据性能例如F1值,分配各模型置信度权重;
3. 各套参数选择某个标签后,在结果统计中累加对应参数权重;
4. 最终输出累加置信度最高标签。
经过实验证明,改进后的语言模型在语义相似度、多分类、语义蕴含等多类型国际公开数据集上测试精度较BERT模型的提升大多在10%-20%,但召回率下降20%-50%;在实际项目中从舆情中提取公司标签的模型精度提升11个百分点,达到93%。
这在商业上非常有价值,例如虽然召回率降低了50个百分点,但意味着只有一半的模型需要人工干预,另一半的模型完全可以交给自动化,这远比模型无法上线要好的多。
在金融领域,例如选股,模型的精准度是首先需要考虑的,其他指标可以稍差。例如从1000只备选股票中模型只选出了50只良好股票,可能会错过50只良好股票。但这种错过也是允许的,毕竟模型会“保证”选出来的50只股票大概率能够赚钱或有超额收益。