简单来说,可解释性是指一个人能够理解一个决定的原因的程度。
模型可解释性
也称可解释机器学习,是指对模型内部机制的解释以及对模型结果的解释。而更广泛定义认为:模型能用通俗易懂的语言进行表达,是一种被人类理解的能力,即能够将模型的预测过程转化为具备逻辑关系的规则的能力。
作为数据科学家,我们在运用模型过程中,不仅要防止模型偏见问题的发生,还要能解释模型是如何正确的产出结果的,进而正确的使用模型,越是重要严苛的应用场景,越需要说明模型是如何运作的,并且展示避免偏见和错误的证据。
可解释性人工智能分类(Explainable AI, XAI)
- 建模前可解释性,也称基于数据的可解释性:
- 目标是可解释的数据探索、基于统计分析的辅助决策。
- 特点是数据分析和可视化。
- 技术栈包括数据可视化技术、可解释的特征工程、聚类、降维和统计数据分析等,在sklearn开源机器学习库中,很多模型中有importance接口(Permutation feature importance),通过查看模型特征的重要性,来体现模型的可解释性。
- 内在可解释模型,也称基于模型内在的可解释性(Intrinsic Interpretability):
- 目标是使用和开发内在可解释的模型
- 特点使模型本身变得可解释,模型本身就可以告知为什么这么做,模型不只给答案,还要给出得到这个答案的原因。
内在可解释模型技术栈:
包括explanation generation、prototype netwrok, explanatory graph,使用可解释性的机器学习方法。优化模型增强可解释性(如优化后的深度神经网络)、基于图的可解释性(知识图谱等)等,其中:
explanation generation典型方法VQA explanation:在训练模型的同时也训练一个模型对应的语言解释器。这样既得到Answer,也得到了Explanation。详细方法可以看这个论文:Faithful Multimodal Explanation for Visual Question Answering
prototype netwrok典型方法:在模型设计的时候,按照仿生学的方法,让模型构造出的数据加工方式和人类自身思考方式类似,在产生结果结合工作方式,进而理解结果产生的原因。详细方法可以看这个论文:This Looks Like That: Deep Learning for Interpretable Image Recognition
广义加性可解释神经网络模型(GAMxNN模型,Explainable Neural Network based on Generalized Additive Model),该模型提供整体和局部可解释性,并用数据可视化的方式呈现。
基于具有结构化交互作用的广义加性可解释神经网络模型(GAMINET模型,An explainable neural network based on generalized additive models with structured interactions):张军爱教授团队提出,在GAMxNN模型基础上结合特征交互项的研究,对GAMxNN模型做进一步改良和优化。其数学形式如下:
$$
g(E(y|x)) = \mu + \sum_{j \in S_{1}} h_{j}(x_{j}) + \sum_{(j, k) \in S_{2}} f_{jk}(x_{j}, x_{k})
$$
其中$\mu$表示截距项,$S_{1}$表示主效应集合, $S_{2}$表示交互效应集合,表示式右边第二项为单个特征拟合岭函数加和,右边第三项为交互特征拟合函数加和,这里假设每个主效应和成对交互效应的平均值为零。详情请看论文:GAMI-Net: An explainable neural network based on generalized additive models with structured interactions,模型源码请看:https://github.com/ZebinYang/gaminet 。可解释增强机(EBM模型, Explainable Boosting Machine):是可解释性高的广义加法模型(GAM)中的一种,其和GAMINET模型的重要差别在于,其抓取特征的函数关系,使用的boosting方法,而非神经网络。其数学形式如下:
$$
g(E[y]) =\beta_0 + \sum f_{j}(x_{j})
$$
其中$g$是使广义加法模型(GAM)适应不同设置(例如回归或分类)的链接函数建模后可解释性,也称基于结果或者事后的可解释性(Post-hoc Interpretability):
- 目标是通过假设检验,去估计、推断和验证模型决策的流程
- 特点是和模型无关和黑盒分析,通过观测模型的行为,去判断为什么产生这样的结果,进而建模其可解释性。
- 技术栈包括:Surrogate model、additive feature、attribution methods、Saliency map、局部依赖图、特征归因方法和代理模型等。其中,Surrogate model(代理模型)典型方法:在模型局部采用一种简单可解释的模型去近似原有的黑盒模型,当精度足够逼近的时候,在用代理模型来解释原黑盒模型。典型算法是VI(变量重要性,Variable Importance)、PDP(Partial Dependence Plot,部分依赖图)、ICE(Individual Conditional Expectation Plot,个体条件期望图)、ALE(累积局部效应图,Accumulated Local Effects plot)、LIME(Local Interpretable Model-Agnostic Explanations)算法(github码源:https://github.com/marcotcr/lime)和[SHAP(Shapley Additive Explanations)](https://arxiv.org/abs/1705.07874)算法。
根据是否是局部还是全局,也可以分为:
- 局部可解释性(Local Interpretable):当一个样本或者一组样本的输入值发生变化时,需要解释其预测结果发生的变化原因。
- 全局可解释性(Global Interpretable):在基于完整数据集的整个模型从输入到输出的理解解释,可以从中得到普遍规律和统计判断,理解每个特征对模型的影响。
一般认为模型可解释性和模型准确性不可兼得:简单的模型容易解释,但拟合效果不好;复杂的模型效果好,但是却不容易解释。
当前模型可解释性方法的挑战和问题
- 算法成熟度:基于模型内在的可解释性和模型、场景绑定,通用性受限。基于结果或者事后的可解释性使用的算法本身是模型的近似,存在对采样的依赖,结果不一定稳定的问题。
- 算力成本:基于结果或者事后的可解释性的算法,其算法复杂度太高,算力成本现对较高。其中KernelSHAP算法就比较慢,特别是涉及多实例计算Shapley值的过程中。、
- 数据匮乏:基于模型内在的可解释性训练出解释器的过程,是有监督的训练过程,依赖样本和标准数据,而这类数据比较稀缺。
AI模型在应用场景的典型使用问题
- 无法挖掘因果关系或者是因果关系错判:黑盒模型内部结构复杂,使用黑盒模型做预测时,我们会根据一些模型的评价指标(如AUC)去评估模型的好坏,但即使AUC很高,我们也依然不清楚黑盒模型的判断依据是否正确。如果模型无法给出合理的因果关系,那么模型的结果也将很难使人信服。
- 模型安全问题:模型安全问题是指人工智能模型在训练、部署和使用过程中面临的各种安全风险,包括数据泄露、模型被滥用(如用于欺诈、虚假信息生成)、输出错误(如模型幻觉)、数据投毒、以及系统漏洞等。这些风险可能导致商业机密失窃、用户隐私受损、产生偏见歧视,甚至引发社会混乱。这些问题导致模型大范围应用在敏感领域应用举步维艰。
- 模型偏见问题:要是指模型在生成内容或做出决策时存在的某种偏好或倾向,这些偏好或倾向往往是由于训练数据的不平衡、不完整性或社会文化背景等因素导致的。这些问题的出现也导致模型在应用过程中,对模型结果的怀疑。
模型可解释性价值
根据Gartner2019企业年度调查报告《人工智能治理三基石:可信、透明和多样性》可知,人工智能系统存在三难点:选择训练数据集带来的机器学习困局(多样性问题)、决策精度差异(结果是否可解释并可信)和恰到好处的可接受结果。可解释就是回答“why”的问题
可解释性对模型应用的价值,从模型的生产周期来看,可以分为模型开发、模型运行和模型推广阶段:
- 在模型开发阶段,模型问题定位和使用安全。由于数据和应用场景的限制和变化,模型无法做到绝对精准,因而无法保证结果的绝对安全性,而对复杂模型结构和参数调优,犹如玄学炼丹。模型可解释性有助于在新场景和新数据样本进入时,判断模型的使用条件和依据,也有助于模型发生错误时,可以及时定位问题,采取针对性的优化措施。
- 在模型运行阶段:建立信任,坚定信心。模型可解释性最大价值在于建立信任,使用者通常不会简单地要求模型表现好,更在于能有理有据的给出推理依据,再给出模型结论,这样说服力更强,结论更容易接受,使人类相信模型的判断,提升模型可信度,实现业务的推广。
- 在模型推广阶段:探索因果关系。当前模型拟合绝大多数依据误差最小化标准,模型本身更加擅长挖掘相关关系,而非因果关系,模型可解释性可以通过解读相关关系,对其中的特征重要性评估,探索出相关关系下深层次的因果规律,避免因为数据分布不均导致的“辛普森悖论”问题,进而定位出真正的根因原因,确保模型学习到合理知识,同时给具体的业务带来指导。避免偏见和法律合规。模型的结果需要符合业务合规标准,而仅仅依靠训练样本数据得到的结果可能是存在偏见。另一方面,欧盟GDPR条例等法律法规要求,模型做出解释,让使用者知道模型的决策是如何影响他们的。模型可解释性可以辅助用户判断模型结果是否合规,是否符合预期,进而决定是否接受模型使用和模型结论,使得模型所学能反哺人类。
模型可解释性工具:lnterpretML
- 介绍:开源,模型可解释Python框架
- 作者:微软研究院
- 授权协议:MIT
- 来源论文:InterpretML: A Unified Framework for Machine Learning Interpretability
- github仓库:https://github.com/interpretml/interpret
- 功能:提供机器学习可解释性算法,供研究者使用.InterpretML 能提供两种类型的可解释性:
- 白盒(glassbox),这是针对可解释性设计的机器学习模型(比如线性模型、决策规则、决策树、可解释增强机、广义加性模型)。
- 黑箱(blackbox)可解释技术,用于解释已有的系统(比如部分依赖图、LIME解释器、SHAP解释模型、莫里斯敏感性分析)。
- 优点:
- 模型可解释性:帮助数据科学家等业务相关者了解机器学习模型。
- 易用性:提供统一API接口和丰富可视化的可解释性技术。
- 灵活可定制:通过解释器和交互式视觉技术来理解模型。
- 综合能力:可探索模型属性,在操作数据时可以查看对模型的影响,进行假设检验分析。
参考文献
[1] 可解释人工智能
[2] 可解释机器学习:黑盒模型可解释性理解指南(第2版) 【德】 Christoph Molnar著,郭涛译.电子工业出版社
[3] 可解释机器学习(模型、方法与实践) 邵平等著.机械工业出版社
[4] 可解释人工智能导论 杨强等著.电子工业出版社
[5] AI可解释性(Python语言版) 列奥尼达·詹法纳(Leonida Gianfagna) / 安东尼奥·迪·塞科(Antonio Di Cecco)著.清华大学出版社
[6] 可解释AI实战(PyTorch版) 阿杰伊·塔姆佩(Ajay Thampi)著.清华大学出版社
[7] Feng, T., Zhou, Z., Tarun, J., & Nair, V. N. (2022). Comparing Baseline Shapley and Integrated Gradients for Local Explanation: Some Additional Insights. arXiv preprint arXiv:2208.06096.
[8] Python可解释AI(XAI)实战 丹尼斯·罗斯曼(Denis Rothman)著.清华大学出版社
[9] Sundararajan, M., & Najmi, A. (2020, November). The many Shapley values for model explanation. In International conference on machine learning (pp. 9269-9278). PMLR.
[10] 面向从业者的可解释人工智能 Michael Munn著,陈志鸿译.东南大学出版社
[11] 夏普利值:看诺奖获得者提出的广告效果归因分析新思路
[12] 能不能形象的介绍一下 shapley 值法
[13] 博弈论归因:您可能从未听说过的模型
[14] 可解释性:完善Shapley value理论体系,建模并学习基准值
[15] Shapley值法
[16] SHAP 文档
[17] 打开 AI 的黑盒子:模型可解释性的现状、应用前景与挑战
[18] Jialin Wu and Raymond J. Mooney.Faithful Multimodal Explanation for Visual Question AnsweringarXiv preprint arXiv:1809.02805
[19] 事后模型归因解析Part 1
[20] A, Z. Y. , B, A. Z. , & B, A. S. . (2021). Gami-net: an explainable neural network based on generalized additive models with structured interactions. #i{Pattern Recognition}.
[21] Explainable Boosting Machine
[22] Trevor Hastie and Robert Tibshirani. Generalized additive models: some applications. Journal of the American Statistical Association, 82(398):371–386, 1987.
[23] 机器学习模型可解释性的综述
[24] 机器学习的可解释性综述
[25]机器学习的挑战:黑盒模型正面临这3个问题