原创 | 一文读懂机器学习中的shapley值方法 - 行业动态 -

当前位置:首页  >  行业动态  > 正文

原创 | 一文读懂机器学习中的shapley值方法

原创 | 一文读懂机器学习中的shapley值方法
2023-01-17 15:50:25 来源:程序员客栈

作者:贾恩东本文约2000字,建议阅读9分钟本文为你介绍更公平分配利益权重的一种算法——Shapley值方法。

本篇文章是数据派一文读懂系列的新年第一篇原创,在这里祝贺大家新年学业有新成就,生活有新气象!这次带大家了解一种有趣的从数学角度计算合作博弈贡献从而更公平分配利益权重的算法——Shapley值方法。

相信大家在日常生活中都接触过这样一个现象,那就是1+1不等于2。好了,不开玩笑,作者想说的是,很多时候多个主体分别产生的影响和共同产生的影响是不具备严格加性的。有句俗语,一个和尚挑水吃,两个和尚抬水吃,三个和尚没水吃。分开的三个和尚每个每天都挑水,但放在一起“协作”反而就没有水产出了。这里是一个关于协作的负面例子,但更多的是协作的正面例子,就是1+1大于2的效应。以下用一个案例具体来说明。


(资料图片)

某公司有三个程序猿,分别是屌丝A,大佬B,美女C,如果大家不合作,A每个季度可以完成3个项目,B每个季度可以完成10个项目,C每个季度只能完成1个项目。但是老板小王为了充分挖掘员工潜力,合理配置公司资源,让A,B,C尝试了各种合作模式。王老板观察发现,屌丝都是潜力股,美女都是催化剂:屌丝A和大佬B合作每个季度可以完成15个项目,合作效果提升还行;屌丝A和美女C合作每个季度可以完成50个项目,合作效果爆炸;大佬B和美女C合作每个季度仅完成了12个项目,看来对大佬来说不影响拔刀的速度就不错了;ABC一起合作每个季度可以完成70个项目。最终王老板拍板让ABC以后就一起工作,按照小组完成的项目数额外发放项目奖金。请问聪明的读者,按照最公平正义的分配方法,哪位员工获得的奖金是最多的呢?

说A的同学:明显屌丝是潜力股,虽然单独工作表现一般,但是和美女一起合作,大大激发了工作热情,肯定是A贡献最多!说B的同学:应该是大佬贡献最大,因为单独来看,大佬本身能力是最强的!说C的同学:应该是美女贡献最大,虽然美女单独工作没什么效率,但显然对团队的影响无法替代!

请先别急,我们接下来使用理性的数学思维分析这个问题,可以顺便推导出shapley值的公式。

设想我们顺序将ABC放到合作队伍中(合作队伍一开始为空),那么合作的组合会有3!=6 种,如下表:

加入顺序

A加入的贡献B加入的贡献C加入的贡献
A+B+C3-0=315-3=1270-15=55
A+C+B3-0=370-50=2050-3=47
B+A+C

15-10=5

10-0=1070-15=55
B+C+A70-12=5810-0=1012-10=2
C+A+B50-1=4970-50=201-0=1
C+B+A70-12=5812-1=111-0=1

表中的贡献计算方法可以举个例子来说明,B+C+A的顺序组合中,A的贡献是ABC的合作扣除BC的合作,即70-12=58;B的贡献就是B加入空的贡献,即10-0=10。其他类推。

但最终的加入顺序只有一种,而各个顺序都是等可能的。因此, A的贡献可以计算期望:(3+3+5+58+49+58)/6=176/6 B的贡献可以计算期望:(12+20+10+10+20+11)/6=83/6 C的贡献可以计算期望:(55+47+55+2+1+1)/6=161/6

这些贡献期望加在一起,(176+83+161)/6=70也恰是ABC的整体合作效果,验证了我们计算的合理性。做个简单除法,得出最终A的贡献占比是29.33%,B的贡献占比是13.83%,C的贡献占比是26.83%。A的贡献是最多的,C也很多,B最少。同学你猜对了吗?

我们接下来把问题抽象化。假设有n 位合作人,任何一种合作组合例如第1位和第2位合作组合记为{1,2},是一个有序集合的概念,对于组合 s 来说,它的收益表现记作 v(s)。假如某集合 s 包含 第 i 位合作人,则第 i 位 合作人在这种情形下的贡献为 v(s)−v(s\textbackslash{i}),解释为集合 s 的效益减去 集合 s 扣除第 i 位合作人后的新集合的效益。

因此我们可以得到第i 位合作人的贡献期望为:

这里Si 是所有包含 i 的所有子集的集合, P(s)是对应合作顺序组合 s 的出现概率。可以这样计算该概率,首先 s 中 前|s|−1 合作人顺序进入合作集合,然后是合作人 i 加入集合,最后是后 n−|s|个合作人加入合作集合。这样构成了该种顺序组合,这样有(|s|−1)!×1×(n−|s|)! 种,一共则有 n! 种顺序组合,所以有:

最终的shapley值公式即:

到这里,关于shapley值方法的公式就已经推导完毕了。

值得一提的是,Shapley值方法是有严格的公理化体系支持的,感兴趣的同学可以自行检索学习。Shapley值方法很公平,在经济、金融、管理、政治中都有不少的推广应用。比如多方金融投资合作如何分配利润;不同人数的党派团体如何更科学地设置投票通过票数;安全管理团队中按照重要性对事故中的不同责任方进行责任判定等等。在机器学习中,也可以使用Shapley值方法对不同的特征进行重要性评价,进行特征的筛选工作,即使是深度神经网络这种黑盒模型也可以获悉不同特征对于整个算法的贡献分布。

在文章的最后,需要多提一句,Shapley值方法虽然很好,但对于n 值很大的情况,计算很不友好,因为需要获悉所有组合集合的获益,这种组合集合一共有 2^n 种,不论是数据获得还是后续计算,都有不小的成本开销,所以有几种补救办法,有的是将合伙人分成若干组,按照组为最小合作单位进行计算;有的则是只考虑 n−1 大小的组合上增加合伙人带来的边际贡献等。无论是何种方法,本质上都和本文核心内容类似。

编辑:黄继彦

数据派研究部介绍

数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享和实践项目规划,又各具特色:

算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;

调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;

系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;

自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;

制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;

数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;

网络爬虫组:爬取网络信息,配合其他各组开发创意项目。

点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”加入组织~

标签: 机器学习 这个问题

(责任编辑:news01)
全球快资讯:太龙药业董秘回复:近期公司主要产品价格稳定

全球快资讯:太龙药业董秘回复:近期公司主要产品价格稳定

太龙药业(600222)12月30日在投资者关系平台上答复了投资者关心的问题。
12-30 15:23:30
长宁这个展览入选“中博热搜榜”十大热搜展览!_环球热闻

长宁这个展览入选“中博热搜榜”十大热搜展览!_环球热闻

“中博热搜榜”日前发布了最新一期“十大热搜展览推介”,上海有四家美术馆的5场大展入选,其中位于长宁...
12-30 09:20:24
12月29日基金净值:易方达悦信一年持有混合A最新净值0.9962,涨0.05%

12月29日基金净值:易方达悦信一年持有混合A最新净值0.9962,涨0.05%

12月29日,易方达悦信一年持有混合A最新单位净值为0 9962元,累计净值为0 9962元,较前一交易日上涨0...
12-30 00:57:50
2022华中科技大学同济医学院附属同济医院招聘7人 今日播报

2022华中科技大学同济医学院附属同济医院招聘7人 今日播报

一、医院简介同济医院1900年由德国医师埃里希・宝隆创建于上海。1955年迁至武汉。经过120年的建设与发展...
12-29 19:10:13
每日速读!直击驻闽武警部队实战化军事训练

每日速读!直击驻闽武警部队实战化军事训练

图为特战队员穿越山林地。 黄永峰摄近日,武警福建总队福州支队组织特战队员以“城市反恐怖训练”为主...
12-29 17:24:30
2023苏州跨年火把节活动汇总|焦点速读

2023苏州跨年火把节活动汇总|焦点速读

2023苏州跨年火把节活动汇总最新消息:经活动主办方审慎研究,原定于2022年12月31日-2023年1月2日举办的...
12-29 15:30:02
玖富万卡借款逾期八年还不起会上征信系统吗

玖富万卡借款逾期八年还不起会上征信系统吗

网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天...
12-29 13:18:32
这个圣诞节,美国人能源账单最高x6500%|焦点消息

这个圣诞节,美国人能源账单最高x6500%|焦点消息

极端寒冷的天气和不断飙升的能源账单,正让普通美国民众遭遇一个艰难的圣诞季。美国多地12月22日开始持...
12-29 11:14:17
翡翠用水泡过会坏吗?这5点需要避免

翡翠用水泡过会坏吗?这5点需要避免

翡翠用水泡过会坏吗1翡翠是不能拿开水泡的。拿开水泡的话会破坏它的稳定性。翡翠是不适合用开水浸泡的,...
12-28 19:39:28
2022苏州吴江高新区(盛泽镇)三个国企招聘9人报名时间+报名方式:当前速读

2022苏州吴江高新区(盛泽镇)三个国企招聘9人报名时间+报名方式:当前速读

三、报名本人自愿,并符合本简章的招聘范围和条件者,均可报名。1 报名方式:采取网上报名方式,考生以...
12-28 16:51:05
热点!22株国投SCP002票面利率为4.5000%

热点!22株国投SCP002票面利率为4.5000%

22株国投SCP002票面利率为4 5000%
12-28 14:00:36
快速读懂《中国城市养老服务需求报告2022》

快速读懂《中国城市养老服务需求报告2022》

12月23日,中央广播电视总台央视网、中央广播电视总台上海总站、上海保险交易所主办的2022首届中国保险...
12-28 10:16:21
2022-2023年哈尔滨冰雪大世界微信官网购票预订须知(取票+退订+使用时间)|世界今头条

2022-2023年哈尔滨冰雪大世界微信官网购票预订须知(取票+退订+使用时间)|世界今头条

哈尔滨冰雪大世界微信官网购票须知:温馨提示:最晚需在使用当天21:00前购买,预订成功后立即生效【无需...
12-28 02:32:15
优信巴士借款逾期15个月不还征信有什么影响_今头条

优信巴士借款逾期15个月不还征信有什么影响_今头条

网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天...
12-27 18:17:06
生物谷于北京新设预防医学研究子公司|焦点讯息

生物谷于北京新设预防医学研究子公司|焦点讯息

(原标题:生物谷于北京新设预防医学研究子公司)企查查APP显示,近日,北京生物谷预防医学研究有限公司...
12-27 14:24:11
内蒙古30个风光项目竞争优选结果公示!

内蒙古30个风光项目竞争优选结果公示!

内蒙古30个风光项目竞争优选结果公示!北极星风力发电网讯:12月22日,内蒙古2022年巴彦淖尔市分散式风...
12-27 09:23:44
天华超净(300390.SZ)拟新设核心人员持股平台 参与投资重要子公司

天华超净(300390.SZ)拟新设核心人员持股平台 参与投资重要子公司

智通财经APP讯,天华超净(300390 SZ)公告,公司全资子公司苏州天华新能源投资管理有限公司(“天华新能...
12-26 21:28:23
环球热文:《苍兰诀》小兰花为爱死了是哪一集 小兰花心里还有长珩吗

环球热文:《苍兰诀》小兰花为爱死了是哪一集 小兰花心里还有长珩吗

小兰花在第32集自戕而死。在东方青苍爱上小兰花的那一刻开始对业火的掌控就在一点点消失。水云天和月族...
12-26 15:37:31
天力锂能董秘回复:公司主导产品是锂电正极材料,正在研发钠离子电池正极材料,公司暂不会涉足钠离子电池生产,谢谢

天力锂能董秘回复:公司主导产品是锂电正极材料,正在研发钠离子电池正极材料,公司暂不会涉足钠离子电池生产,谢谢

天力锂能(301152)12月26日在投资者关系平台上答复了投资者关心的问题。投资者:你好董秘请问贵公司有没...
12-26 10:31:55
曝光:德国1900家养猪场倒闭,生猪数降到2130万头?

曝光:德国1900家养猪场倒闭,生猪数降到2130万头?

(更多国际财经新闻,请及时关注微信公众号王爷说财经↑↑↑)王爷说财经讯数据公布。德国,生猪数出现...
12-25 21:21:28
使用PyTorch 2.0 加速Hugging Face和TIMM库的模型

使用PyTorch 2.0 加速Hugging Face和TIMM库的模型

点蓝色字关注“机器学习算法工程师”设为星标,干货直达!​PyTorch2 0引入了**torch compile()**来加...
12-25 06:20:56
菲仕兰发布美素佳儿源悦 守护宝宝肠道健康 当前热点

菲仕兰发布美素佳儿源悦 守护宝宝肠道健康 当前热点

美素佳儿源悦新品上市  根据尼尔森零售数据,今年1-10月,美素佳儿整体实现市场份额6 6%,最新10月的...
12-24 09:02:45
每日焦点!生物医药等两个领域53项有融资需求和待转化技术成果集中路演发布

每日焦点!生物医药等两个领域53项有融资需求和待转化技术成果集中路演发布

今日,由科学技术部主办,科技部成果转化与区域创新司及河北省科学技术厅承办的国家科技计划成果路演行...
12-23 18:26:52
支持开票 | Python实证指标构建与文本分析

支持开票 | Python实证指标构建与文本分析

LovelyPlots库|格式化科学论文、论文和演示文稿的可视化图形付费课程|支持开票|购前咨询微信372335839概...
12-23 14:16:33
天天视讯!润达医疗:12月22日融券卖出金额46.43万元,占当日流出金额的1.26%

天天视讯!润达医疗:12月22日融券卖出金额46.43万元,占当日流出金额的1.26%

同花顺数据中心显示,润达医疗12月22日获融资买入641 57万元,占当日买入金额的28 55%,当前融资余额2...
12-23 08:18:20
环球关注:北京电子营业执照使用量居全国首位,如何申办,一图读懂

环球关注:北京电子营业执照使用量居全国首位,如何申办,一图读懂

北京日报客户端|记者张楠美编赵凯峰为加速全市社会生活迈向正常化,北京市市场监管局聚焦数字化智能化服...
12-22 18:49:38
惠强新材科创板IPO:过半收入来自比亚迪,降价保市占率毛利率减少10%

惠强新材科创板IPO:过半收入来自比亚迪,降价保市占率毛利率减少10%

(原标题:惠强新材科创板IPO:过半收入来自比亚迪,降价保市占率毛利率减少10%)本文系基于公开资料撰...
12-22 13:46:22
今日最新!纽约WTI原油期货周三收高2.7% 创三周来最高收盘价

今日最新!纽约WTI原油期货周三收高2.7% 创三周来最高收盘价

北京时间22日凌晨,美国WTI原油期货周三收高,并创近三周来的最高收盘价。尽管今年华盛顿一直都在出售战...
12-22 07:28:55
公牛集团: 公牛集团股份有限公司关于变更注册资本、住所、修改经营范围、修订《公司章程》及《股东大会议事规则》的公告-环球今头条

公牛集团: 公牛集团股份有限公司关于变更注册资本、住所、修改经营范围、修订《公司章程》及《股东大会议事规则》的公告-环球今头条

证券代码:603195          证券简称:公牛集团                公告编号:2...
12-21 17:33:31
世界今亮点!智动力:截至2022年12月20日,公司股东总户数为15,787户

世界今亮点!智动力:截至2022年12月20日,公司股东总户数为15,787户

智动力(300686)12月21日在投资者关系平台上答复了投资者关心的问题。
12-21 11:39:38

为您推荐

精彩推送