Crossin的编程教室
标题:
平心而论,这波虎扑diss吴亦凡属于什么水平?
[打印本页]
作者:
江水滔滔
时间:
2018-9-14 21:04
标题:
平心而论,这波虎扑diss吴亦凡属于什么水平?
我绝对是个不合格的专栏作者,面对热门话题就像个过客。(双押x2)人家写文章热点蹭不停,跑得比香港记者还快。我非觉得不行,选角度、写代码,折腾到现在。跟风的人逃不开过气的宿命,(双押x3 跳押)我的文章却反复被人山寨。(双押x3 跳押)
(押韵支持来自我们去年的文章
Python有嘻哈:Crossin教你用代码写出押韵的verse
)
在我这儿,热点只是吸引你们点进来的引子,实际内容则是不那么讨喜但确实有用的信息(为了让你们学点知识我容易么……)。比如这篇文章,五年之后再翻出来,一样对很多人有价值。
今天要说的就是前阵子的一个小热点:
虎扑大战吴亦凡
作为半个从步行街上走出来的公众号和半个伪嘻哈爱好者,尘埃落定之后,出来打个圆场。
顺便也给各位演示下,怎样对一个事件/网站做数据(舆情)分析。
相关代码已上传,获取代码请在公众号(Crossin的编程教室)回复 虎扑
由于篇幅所限,本文只展示结论和思路。如果想听详细的代码分析,请点个赞,人多的话我就另开一篇详细说明。
事件的前因后果我不想多啰嗦(之前微信上有一篇来龙去脉的文章已被举报)。简单来说就是因为一段无伴奏音轨,虎扑上的用户和吴亦凡的粉丝们在步行街掐上了。
对此次掐架进行的分析数据来源:
因为虎扑无法查看太早的帖子,所以此案例的数据截取了步行街栏目 7月25日下午3点 到 8月2日下午四点半 左右的帖子。根据标题中包含的关键字(包含吴、凡、skr、diss等),筛选出 4370 个主题贴,共 260241 个回帖,主题总浏览量 125523319 次。由于相关回帖数和参与用户太多,案例中的后续分析只抽样了部分主题进行。选取了回帖数最高的 100 个主题帖加随机 100 个主题帖,共包含 136964 个回帖,并随机选取了其中 5279 个用户。
数据采集的思路:
从步行街页面上一页页抓取文章列表,抓取主题的标题和链接,并记录回帖数和浏览量。对于抽样选中的主题,抓取主题内所有回帖(可能需要抓多页),记录下每个回帖的内容、时间、作者ID。根据作者ID,从用户资料页抓取等级、卡路里、喜爱的运动/队伍等信息。
发帖行为:
按时间把回帖量以折线图绘制出来。可以很明显地看到2个高峰:25号晚上和30号晚上,分别是事件爆发当晚和吴亦凡发歌反击的那晚。
如果把发帖量以一天24小时的分布来衡量,发帖高峰期还是在晚饭后,正应了“茶余饭后”这词。
用户画像:
用户最高等级 231,最高卡路里 561278
1级的用户占比遥遥领先,估计有很多都是刚注册的小号吧。6级以下用户占了将近一半。
大多数用户的卡路里在 10~20 左右,但也有极个别的大神数据逆天。
将两项数据以点状图绘制出来,能比较直观的看出用户的分布。
(看不清的点击图片查看大图)并不是所有用户都填写了喜欢的运动和队伍。在填写的人中,篮球占了绝对优势。毕竟虎扑起步于篮球社区。比较意外的是运动装备占到了第三位。
湖人的支持者最多,不怪湖人总冠军。皇马是排名最高的非NBA球队,广东华南虎和广州恒大是排名最高的国内篮/足球队。法拉利是跻身此图中的唯一非篮/足球队。
有一个很重要的用户信息我没有统计:性别。因为我觉得对于可能是最好的直男网站来说,这根本没有必要啊。
话题内容:
从词频来看,虎扑、吴亦凡平分秋色,skr 无疑成最大赢家。
随机挑了 1000 个回帖进行情感分析,结果出乎我意料:除去一半多的中性内容(为了显示效果,图上有做过处理),正面和负面情绪竟然在数量上差不多,甚至正面情绪还多一点点。细细对照具体内容看了下,虽是互掐,但言语上还是以调侃、戏谑为主,粗暴过激的语言并不多。所以这种事情嘛,认真你就输了。
以上就是对虎扑此次热点的粗浅分析。不算很细致很精确,但足够给练习数据分析的同学参考。
用到的外部库:
peeweerequestBeautifulSouppyechartsjiebawordcloud
想要再进一步,还有不少值得挖掘的信息。比如说:
1. 标题/内容关键字与阅读数的关系。你想发一个被热议的帖子,该写什么?
2. 根据参与话题的关键字对用户进行分类。平台方可以由此了解用户兴趣所在,推送推荐内容。
3. 用户活跃度(发/回帖数、在线时长等)与用户兴趣(运动、队伍、关键字)及用户行为(上线时间、访问设备)、用户属性(性别、年龄、职业)之间的关联性。
互联网上的热点层出不穷,总是能给广大围观群众送上吃不完的瓜。把有限的注意力和时间花费在什么事情上,是每个人的自由,不做评判。我个人的态度在以前的文章
全菊变量和菊部变量
里说过,借热点说点有用的东西。以及,关注一些真正需要更多关注的事件
他花了14个小时找了一下长春长生们究竟卖到了哪里去
。
获取文中案例源代码,请在公众号(Crossin的编程教室)回复 虎扑
════
其他文章及回答:
如何自学Python
|
新手引导
|
精选
Python
问答
|
Python单词表
|
人工智能
|
嘻哈
|
爬虫
|
我用Python
|
高考
|
requests
|
AI平台
欢迎搜索及关注:Crossin的编程教室
作者:
明月松间照
时间:
2019-8-6 15:41
感谢楼主分享
欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/)
Powered by Discuz! X2.5