数盟说 | 用文本发掘找出50年以来最风行的音乐
副问题[/!--empirenews.page--]
【数盟致力于成为最卓越的数据科学社区,聚焦于大数据、说明发掘、数据可视化规模,营业范畴:线下勾当、在线课程、猎头处事、项目对接】 本文为数盟原创译文,转载请注明出处,并务必保存本文底部二维码。 从1958年开始每年十二月Billboard城市宣布一个年度百首风行曲金榜。这个图表涵盖了美国整年的风行单曲示意。 通过R说话,我已经把50年的(1965-2015)?年度风行金榜百首的歌词归并到一个数据集举办说明。你可以在我的Github库中下载该数据集。 获取歌词 用于说明的歌曲是来自于对维基百科中每个Billboard年度风行金榜百首(如2014年)的抓取。这是整个年度的图表,而不是每周的排名。很多艺术家做过周图表,但没有做过年度图表。年度图表是通过周Billboard的逆点体系来举办计较的。 我行使XML和RCurl从每个维基百科词条中抓取歌曲和艺术家的名字。然后我用这个列表从有可预见的URL字符串的网站上抓取歌词(譬喻,metrolyrics.com就行使metrolyrics.com/SONG-NAME-lyrics-ARTIST-NAME.html)。假如第一个站点抓取失败了,就转向第二个,依此类推。约莫78.9%的歌词是从metrolyics.com上抓取的,15.7%是从songlyrics.com上,1.8%是从lyricsmode.com上。其它约莫3.6%(187/5100)没有找到。 该数据集对5100个视察工具按照歌曲、艺术家、年份、歌词和来历举办了1-100的特性品级分别。归功于维基百科艺术家特性是相等尺度化的,但当涉及到与艺术家的相助时就存在一些题目。假如在抓取的歌词中存在错误,如拼写错误或其它的像把“night”写成了“nite”,这些并没有获得更正。 打点数据 最常见的歌词 58%一单首征象 呈此刻年度图表上的1989名中的1154名艺术家(约占58%)都仅仅只有一首知名曲目。右边的数据是通过把艺术家的歌曲举办汇总而计较出来的;其它把“精选”艺术家都单独列出来。这意味着只有位列第一的艺术家才气获得对其歌曲的完全信赖。 我们惊奇地发明一些位居表格顶端的艺术家反而有相对较短的职业生活(Rihanna在10年时刻内有28个入表的歌曲),以是我调查了一下歌手职业生活的长度和入榜歌曲的均匀数目之间的相关,并发明这两者之间是呈负相干的。职业生活跨度每增进一年,每年歌曲入榜均匀数目就会镌汰94%。 *数据集不包罗1964年披头士乐队第一年入选年度榜单,以是现实上他们的职业生活跨度是12年。 随时刻增添歌词的变革 词汇和曲长不绝增添 数据齐集的歌曲均匀总长332个单词,114种词汇。均匀字数(包罗种类和数目)跟着时刻的推移不绝增进。字数的变革量也有所增进,也许是因为跟着时刻的推移进入榜单排名的歌曲文体越发多样。可变方差通过字数统计的转换日记举办校正,并和两个线性模子拟合,最后发生总系数0.01873和单词种类系数0.0136。在每年的增进量上,总字数均匀每年增进1.87%,字数种类增进1.36%。 从Boogie到Bitch:十年间最具特色的歌词 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |