设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 7540|回复: 1
打印 上一主题 下一主题

平心而论,这波虎扑diss吴亦凡属于什么水平?

[复制链接]

169

主题

1

好友

733

积分

版主

Rank: 7Rank: 7Rank: 7

跳转到指定楼层
楼主
发表于 2018-9-14 21:04:18 |只看该作者 |倒序浏览
我绝对是个不合格的专栏作者,面对热门话题就像个过客。(双押x2)人家写文章热点蹭不停,跑得比香港记者还快。我非觉得不行,选角度、写代码,折腾到现在。跟风的人逃不开过气的宿命,(双押x3 跳押)我的文章却反复被人山寨。(双押x3 跳押)
(押韵支持来自我们去年的文章 Python有嘻哈:Crossin教你用代码写出押韵的verse

在我这儿,热点只是吸引你们点进来的引子,实际内容则是不那么讨喜但确实有用的信息(为了让你们学点知识我容易么……)。比如这篇文章,五年之后再翻出来,一样对很多人有价值。

今天要说的就是前阵子的一个小热点:

虎扑大战吴亦凡

作为半个从步行街上走出来的公众号和半个伪嘻哈爱好者,尘埃落定之后,出来打个圆场。

顺便也给各位演示下,怎样对一个事件/网站做数据(舆情)分析。

相关代码已上传,获取代码请在公众号(Crossin的编程教室)回复 虎扑

由于篇幅所限,本文只展示结论和思路。如果想听详细的代码分析,请点个赞,人多的话我就另开一篇详细说明。

事件的前因后果我不想多啰嗦(之前微信上有一篇来龙去脉的文章已被举报)。简单来说就是因为一段无伴奏音轨,虎扑上的用户和吴亦凡的粉丝们在步行街掐上了。

对此次掐架进行的分析数据来源:
因为虎扑无法查看太早的帖子,所以此案例的数据截取了步行街栏目 7月25日下午3点 到 8月2日下午四点半 左右的帖子。根据标题中包含的关键字(包含吴、凡、skr、diss等),筛选出 4370 个主题贴,共 260241 个回帖,主题总浏览量 125523319 次。由于相关回帖数和参与用户太多,案例中的后续分析只抽样了部分主题进行。选取了回帖数最高的 100 个主题帖加随机 100 个主题帖,共包含 136964 个回帖,并随机选取了其中 5279 个用户。
数据采集的思路:
从步行街页面上一页页抓取文章列表,抓取主题的标题和链接,并记录回帖数和浏览量。对于抽样选中的主题,抓取主题内所有回帖(可能需要抓多页),记录下每个回帖的内容、时间、作者ID。根据作者ID,从用户资料页抓取等级、卡路里、喜爱的运动/队伍等信息。
发帖行为:

按时间把回帖量以折线图绘制出来。可以很明显地看到2个高峰:25号晚上和30号晚上,分别是事件爆发当晚和吴亦凡发歌反击的那晚。

如果把发帖量以一天24小时的分布来衡量,发帖高峰期还是在晚饭后,正应了“茶余饭后”这词。

用户画像:

用户最高等级 231,最高卡路里 561278

1级的用户占比遥遥领先,估计有很多都是刚注册的小号吧。6级以下用户占了将近一半。

大多数用户的卡路里在 10~20 左右,但也有极个别的大神数据逆天。

将两项数据以点状图绘制出来,能比较直观的看出用户的分布。

(看不清的点击图片查看大图)并不是所有用户都填写了喜欢的运动和队伍。在填写的人中,篮球占了绝对优势。毕竟虎扑起步于篮球社区。比较意外的是运动装备占到了第三位。

湖人的支持者最多,不怪湖人总冠军。皇马是排名最高的非NBA球队,广东华南虎和广州恒大是排名最高的国内篮/足球队。法拉利是跻身此图中的唯一非篮/足球队。

有一个很重要的用户信息我没有统计:性别。因为我觉得对于可能是最好的直男网站来说,这根本没有必要啊。

话题内容:

从词频来看,虎扑、吴亦凡平分秋色,skr 无疑成最大赢家。

随机挑了 1000 个回帖进行情感分析,结果出乎我意料:除去一半多的中性内容(为了显示效果,图上有做过处理),正面和负面情绪竟然在数量上差不多,甚至正面情绪还多一点点。细细对照具体内容看了下,虽是互掐,但言语上还是以调侃、戏谑为主,粗暴过激的语言并不多。所以这种事情嘛,认真你就输了。



以上就是对虎扑此次热点的粗浅分析。不算很细致很精确,但足够给练习数据分析的同学参考。



用到的外部库:
peeweerequestBeautifulSouppyechartsjiebawordcloud
想要再进一步,还有不少值得挖掘的信息。比如说:

1. 标题/内容关键字与阅读数的关系。你想发一个被热议的帖子,该写什么?

2. 根据参与话题的关键字对用户进行分类。平台方可以由此了解用户兴趣所在,推送推荐内容。

3. 用户活跃度(发/回帖数、在线时长等)与用户兴趣(运动、队伍、关键字)及用户行为(上线时间、访问设备)、用户属性(性别、年龄、职业)之间的关联性。



互联网上的热点层出不穷,总是能给广大围观群众送上吃不完的瓜。把有限的注意力和时间花费在什么事情上,是每个人的自由,不做评判。我个人的态度在以前的文章 全菊变量和菊部变量 里说过,借热点说点有用的东西。以及,关注一些真正需要更多关注的事件 他花了14个小时找了一下长春长生们究竟卖到了哪里去


获取文中案例源代码,请在公众号(Crossin的编程教室)回复 虎扑
════

其他文章及回答:

如何自学Python | 新手引导 | 精选Python问答 | Python单词表 | 人工智能 | 嘻哈 | 爬虫 | 我用Python | 高考 | requests | AI平台

欢迎搜索及关注:Crossin的编程教室

回复

使用道具 举报

0

主题

0

好友

34

积分

新手上路

Rank: 1

沙发
发表于 2019-8-6 15:41:37 |只看该作者
感谢楼主分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-12-4 00:38 , Processed in 0.018134 second(s), 22 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部