Python 分析“水泊梁山”,108 将年薪相差竟有 1176 万元!
由108位精兵强将组成的水泊梁山互联网有限公司内部高效运转,经营包括酒店、武馆、寺庙等多项产业,我们今天来探秘其内部员工的社交网络。获得数据作为上市公司,财报需要定期对公...
由108位精兵强将组成的水泊梁山互联网有限公司内部高效运转,经营包括酒店、武馆、寺庙等多项产业,我们今天来探秘其内部员工的社交网络。
获得数据
作为上市公司,财报需要定期对公众披露,所以此次数据无需爬虫获得,直接可以从最新“财报“《水浒传》中获得,我们从中获取员工的有效信息,以CEO宋江为例。
with open("水浒传全文.txt", encoding='gb18030') as file:
shuihu = file.read()
shuihu = shuihu.replace('\n','')
shuihu_set = shuihu.split(' ')
shuihu_set=[k for k in shuihu_set if k!='']
songjiang_set=[k for k in shuihu_set if '宋江' in k]
haohan = pd.read_excel('水浒人物.xlsx')
haohan['出场段落']=0
员工收入情况
作为能够长期运作的互联网公司,在员工收入分配方面始终与员工KPI(出场段落数量)相挂钩,我们来看一下年薪TOP10和BOTTOM10。
最高如宋江的年收入达 1191 万元,最低的彭玘仅有 15 万,相差 1176 万元!看来水泊梁山大家的年收入差距两头分化比较严重,比较符合目前互联网公司发展趋势,杜绝“吃大锅饭”的发展思路。
代码如下:
haohan.sort_values('出场段落',ascending=False,inplace=True)
attr = haohan['姓名'][0:10]
v1 = haohan['出场段落'][0:10]
bar = Bar("水泊梁山年收入TOP10")
bar.add("年收入(万)", attr, v1, is_stack=True,is_label_show=True)
bar.render('水泊梁山年收入TOP10.html')
haohan.sort_values('出场段落',ascending=True,inplace=True)
attr = haohan['姓名'][0:10]
v1 = haohan['出场段落'][0:10]
bar = Bar("水泊梁山年收入BOTTOM10")
bar.add("年收入(万)", attr, v1, is_stack=True,is_label_show=True)
bar.render('水泊梁山年收入BOTTOM10.html')
员工社交网络
我们调取了员工的聊天记录(即原著中同时出现的段落),每出现一次聊天记录,我们将员工之间的关联权重加一,统计代码如下:
net_df = pd.DataFrame(columns=['Source','Target','Weight','Source_Ratio','Target_Ratio'])
for i in range(0,107):
for j in range(i+1,108):
this_weight = len([k for k in shuihu_set if haohan['使用名'][i] in k and haohan['使用名'][j] in k])
net_df=net_df.append({'Source':haohan['姓名'][i],'Target':haohan['姓名'][j],
'Weight':this_weight,
'Source_Ratio':this_weight/haohan['出场段落'][i],
'Target_Ratio':this_weight/haohan['出场段落'][j]},
ignore_index=True)
print(str(i)+':'+str(j))
我们在去除一些社交网络节点数据(聊天总数较少或聊天数量占一方数量比例过少)的情况后,用Gephi软件绘制出了整体的社交网络图如下:
可以看出的社交网络是围绕着总裁宋江展开,其他的一些总裁办成员如吴用、李逵等也在社交网络中占据重要位置。林冲、鲁智深、李俊等高级领导则起到连接高层与基层员工的作用。
值得一提的是副总裁卢俊义虽然职级很高,但是在公司的话语权似乎不是强,毕竟卢俊义也是作为空降兵来到的公司。
员工社区发现
Gephi软件自带社区发现函数,我们实现后用不同颜色划分出不同的社群,整体效果如下:
我们下面逐一来看一下各个社区的成员,首先是CEO宋江、CTO吴用等人所在的总裁办:
下面来看一下花荣、林冲等日常工作与代马(码)这件事情息息相关的开发组:
之后是由鲁智深、孙二娘等人组成的数据组,需要日常分析梁山酒店等产业运营状况:
产品、运营团队则分别由精通水性,能够协调好各个部门的李俊和执行力极强、善于推动项目进行的李逵带领:
最后看一下一些人数较少的社群:
这些社群基本上都是由夫妻、亲兄弟、铁哥们组成,具有很强的亲密度,水泊梁山的HR在招人时显然是考虑了这点。通过招聘具有亲密关系的应聘者,提高员工工作幸福感,有效降低离职率。
作者:徐麟,知乎同名专栏作者,目前就职于上海唯品会产品技术中心,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据。个人公众号:数据森麟(ID:shujusenlin)。
声明:本文为作者投稿,版权归对方所有。
“ 征稿啦 ”
CSDN 公众号秉持着「与千万技术人共成长」理念,不仅以「极客头条」、「畅言」栏目在第一时间以技术人的独特视角描述技术人关心的行业焦点事件,更有「技术头条」专栏,深度解读行业内的热门技术与场景应用,让所有的开发者紧跟技术潮流,保持警醒的技术嗅觉,对行业趋势、技术有更为全面的认知。
如果你有优质的文章,或是行业热点事件、技术趋势的真知灼见,或是深度的应用实践、场景方案等的新见解,欢迎联系 CSDN 投稿,联系方式:微信(guorui_1118,请备注投稿+姓名+公司职位),邮箱(guorui@csdn.net)。
————— 推荐阅读 —————
更多推荐
所有评论(0)