大数据文摘出品
作者:蒋宝尚、曹培信
你见过自带荧光棒、中途大合唱、放完不离场的电影观众么?
如果你去电影院看了《五月天人生无限公司》,那么,你一定明白文摘菌在说什么。
如果你还没有看过,文摘菌这里弱剧透一下,电影的情节是,呃——5位平均年龄超过四十岁的中年男人,靠唱歌打败了怪兽。
这样的狗血桥段,你一般会打几分?然而就靠着这样的剧情,华丽的演唱会真实画面也让五迷们把豆瓣的评分刷到了8.7!五星的超过一半,同时还有八千多条短评和两百多条影评。(职业病,习惯性码数据)
文摘菌看完之后也是果断反手就是一个五星,好吧,摊牌了,文摘菌也是铁杆五迷!
从1999年发布第一张创作专辑,到2019年《五月天人生无限公司》收获了大批眼泪尖叫,这五位大男孩不仅创造了华人摇滚乐团的奇迹,也成为了无数人心目中的“青春”。
五月天也从此成为了一种文化的代名词,不管是歌词还是曲风,或者每一位乐队成员,都有着自己浓浓的特色。
在五月天最新电影发布的这个契机,文摘菌想用数据试着去分析一下这个不老的乐队,看看这些年陪伴我们的这五月天,到底在唱些什么?
数据介绍
首先,先来看看我们的数据。
从Github上,我们发现了林永佳先生在2017年做的一个五月天歌词分析项目,他爬取了截止到2017年3月五月天所有的歌的歌词,并且做了分词和词频的词云。文摘菌在和他沟通后,在他的基础上更新了数据集,一共107首歌。
当然,林永佳也用Python对歌词做了初步的统计,包括词频、词云等,文摘菌在此基础上进一步处理了数据,并做了数据可视化以及情感分析。
此次数据分析经过了严谨的数据清洗,同一个词汇如果在一首歌中出现多次,词频统计只计入一次。另外,删除了“的”、“我”等停用词。
数据集链接:
https://github.com/YogaLin/mayday_lyric_analyze
另外我们还从维基百科爬取了五月天演唱会的信息。
https://zh.wikipedia.org/wiki/五月天演唱會列表#人生無限公司世界巡迴演唱會_MAYDAY_LIFE_TOUR(2017年-2019年)(122場)
陪我们的这些年,五月天都在唱什么?