求教大家在乐器排行行业里听过PG Spark音箱吗？

科学教育 | 学习帮助 | 出国/留学 | 工程技术科学 | 教育/科学 | 英语听力 | 梦幻西游电脑版 | 视频会议 | 口臭 | 暗黑破坏神3（游戏） | 面相 | 赛尔号 | linux | 山西省 | Xbox One | 思修 | 易经 | solidworks | 钢铁雄心4 | 休闲游戏 | 魔兽争霸3混乱之治 | 显卡 | 武汉大学 | 塞尔达传说（游戏） | 校服 | 剑侠情缘网络版叁 | 脱发 | 日本文化 | 数学建模 | 二次元 | 部落冲突（游戏） | 肖战 | 街机游戏 | 拳皇 | 马鞍山市 | 扑克 | 完美世界（游戏） | 三国志（游戏） | 热血传奇（游戏） | 意大利 | 跆拳道 | 东莞市 | 糖尿病 | 古琴 | 三国 | 电视节目 | 百度 | qq音乐 | 配音 | 电视 | 任天堂 | 科幻小说 | 虚拟专用服务器 | QQ游戏 | 大熊猫 | 微电影 | Android | 竞技游戏 | 动画制作 | QQ炫舞 | 电源 | 日语 | 魔兽争霸3冰封王座 | 产业 | ios开发 | 百度云 | 动画电影 | nba篮球 | 羽生结弦 | iOS应用 | galgame | 电吉他 | 平板电脑 | 周星驰（人物） | 离婚 | 后宫·甄嬛传（书籍） | 牙科 | 游戏开发 | 网络直播 | ios游戏 | 电子邮件 | SNH48 | 民国 | 美容 | 舰队 Collection | 心理 | Mac | 羽毛球技术 | 互联网公司 | 大学生兼职 | 烘焙 | 诸葛亮 | 跑跑卡丁车 | 武侠小说 | 微博 | 骨折 | 掌上游戏机 | 玉米 | 中国足球 | 电脑配置 | 洛奇英雄传 | 硬盘 | 张璐 | akb48 | 炉石传说 | 韩国 | 蓄电池 | QQ空间 | 房贷 | 麦克风 | 相声演员 | 抑郁 | 天下2（游戏） | 农业科学 | 神话 | 农历 | 中国足球协会超级联赛（CSL） | 流星花园 | 易烊千玺 | 火影忍者 | 日语歌曲 | 巴西 | 红酒 | 化疗 | 占地 | 网络小说 | 香烟 | 传奇世界 | 名字 | 日本电影 | 表演 | 西藏自治区 | 英雄传说：闪之轨迹（游戏） | 足球彩票 | 摩尔庄园 | 中国工商银行 | 游戏手柄 | 陈奕迅 | 联赛 | 天体物理学 | 英格兰足球超级联赛 | 超级机器人大战 | 命令与征服：红色警戒2（游戏） | 郭富城 | 一级方程式赛车（f1） | Adobe Photoshop | 英文歌曲 | 玄幻小说 | 猫和老鼠 | 杨凡 | 书籍改编电影 | 俄罗斯 | 网络赚钱 | 罗玉凤 | 刺客信条2 | 角色扮演 | 食物 | 药物 | 杨洋（演员） | 信息安全 | 胡歌（演员） | 张子枫 | 古典音乐 | 时尚 | 大片 | 电脑游戏 | 签证 | 徐佳莹 | 耽美 | 游戏攻略 | 音乐剧 | 前女友 | 男性 | 肠胃 | 刺客信条起源 | 剧场版 | 国际足联世界杯 | 彩虹六号（游戏） | 赵丽颖（演员） | 天体生物学 | 战神（游戏） | 吉他学习 | 飞机 | 三菱商事 | 关节炎 | 斗鱼直播 | 发电 | 张继科 | 华语流行音乐 | 搏击项目 | 主题曲 | 李信 | 刘德华（演员） | 即时战略游戏（RTS） | 欧阳娜娜 | 网址导航 | 海贼王 | 山地车 | 豆瓣电影 | 广场舞 |

你的位置：网站首页 >> 频道首页 >>音乐 >>求教大家在乐器排行行业里听过PG Spark音箱吗？

求教大家在乐器排行行业里听过PG Spark音箱吗？

来源：蜘蛛抓取(WebSpider) 时间：2024-05-21 15:47 标签：乐器排行

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。作者：厦门大学信息学院计算机科学系2018级研究生沈琳指导老师：厦门大学数据库实验室林子雨博士/副教授相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》（访问教材官网）相关案例：基于Python语言的Spark数据处理分析案例集锦（PySpark）本实验采用Python语言，使用大数据处理框架Spark对音乐专辑数据进行处理分析，并对分析结果进行可视化。一、实验环境（1）Linux： Ubuntu 16.04（2）Python: 3.6（3）Hadoop：3.1.3（查看安装教程）（4）Spark: 2.4.0 （查看安装教程）（5）Web框架：flask 1.0.3（6）可视化工具：Echarts（7）开发工具：Visual Studio Code安装完上述环境以后，为了支持Python可视化分析，还需要执行如下命令安装Flask组件：sudo apt-get install python3-pip pip3 install flask 本实验涉及到的所有数据集和代码，可以从百度网盘下载（下载地址，提取码：jp0j）。二、实验数据集1.数据集说明在Kaggle数据平台上下载了数据集albums.csv。其中包含了10万条音乐专辑的数据。主要字段说明如下：1) album_title：音乐专辑名称2) genre：专辑类型3) year_of_pub：专辑发行年份4) num_of_tracks：每张专辑中单曲数量5) num_of_sales：专辑销量6) rolling_stone_critic：滚石网站的评分7) mtv_critic：全球最大音乐电视网MTV的评分8) music_maniac_critic：音乐达人的评分2.将数据集存放在分布式文件系统HDFS中A. 启动Hadoop中的HDFS组件，在命令行运行下面命令：/usr/local/hadoop/sbin/start-dfs.sh B. 在hadoop上登录用户创建目录，在命令行运行下面命令：hdfs dfs -mkdir -p /user/hadoop C. 把本地文件系统中的数据集albums.csv上传到分布式文件系统HDFS中：hdfs dfs -put albums.csv 三、pyspark的简单分析1.建立工程文件A. 创建文件夹code。B. 在code下创建main.py文件。C. 在code下创建static文件夹，存放静态文件。D. 在code/static文件夹下面创建data目录，存放分析生成的json数据。2.进行数据分析本文对音乐专辑数据集albums.csv进行了一系列的分析，包括：1) 统计各类型专辑的数量；2) 统计各类型专辑的销量总数；3) 统计近20年每年发行的专辑数量和单曲数量；4) 分析总销量前五的专辑类型的各年份销量；5) 分析总销量前五的专辑类型，在不同评分体系中的平均评分。3.具体代码在main.py中复制以下代码：from pyspark import SparkContext from pyspark.sql import SparkSession import json #统计各类型专辑的数量（只显示总数量大于2000的十种专辑类型） def genre(sc, spark, df): #按照genre字段统计每个类型的专辑总数，过滤出其中数量大于2000的记录 #并取出10种类型用于显示 j = df.groupBy('genre').count().filter('count > 2000').take(10) #把list数据转换成json字符串，并写入到static/data目录下的json文件中 f = open('static/data/genre.json', 'w') f.write(json.dumps(j)) f.close() #统计各个类型专辑的销量总数 def genreSales(sc, spark, df): j = df.select('genre', 'num_of_sales').rdd\ .map(lambda v: (v.genre, int(v.num_of_sales)))\ .reduceByKey(lambda x, y: x + y).collect() f = open('static/data/genre-sales.json', 'w') f.write(json.dumps(j)) f.close() #统计每年发行的专辑数量和单曲数量 def yearTracksAndSales(sc, spark, df): #把相同年份的专辑数和单曲数量相加，并按照年份排序 result = df.select('year_of_pub', 'num_of_tracks').rdd\ .map(lambda v: (int(v.year_of_pub), [int(v.num_of_tracks), 1]))\ .reduceByKey(lambda x, y: [x[0] + y[0], x[1] + y[1]])\ .sortByKey()\ .collect() #为了方便可视化实现，将列表中的每一个字段分别存储 ans = {} ans['years'] = list(map(lambda v: v[0], result)) ans['tracks'] = list(map(lambda v: v[1][0], result)) ans['albums'] = list(map(lambda v: v[1][1], result)) f = open('static/data/year-tracks-and-sales.json', 'w') f.write(json.dumps(ans)) f.close() #取出总销量排名前五的专辑类型 def GenreList(sc, spark, df): genre_list = df.groupBy('genre').count()\ .orderBy('count',ascending = False).rdd.map(lambda v: v.genre).take(5) return genre_list #分析总销量前五的类型的专辑各年份销量 def GenreYearSales(sc, spark, df, genre_list): #过滤出类型为总销量前五的专辑，将相同类型、相同年份的专辑的销量相加，并进行排序。 result = df.select('genre', 'year_of_pub', 'num_of_sales').rdd\ .filter(lambda v: v.genre in genre_list)\ .map(lambda v: ((v.genre, int(v.year_of_pub)), int(v.num_of_sales)))\ .reduceByKey(lambda x, y: x + y)\ .sortByKey().collect() #为了方便可视化数据提取，将数据存储为适配可视化的格式 result = list(map(lambda v: [v[0][0], v[0][1], v[1]], result)) ans = {} for genre in genre_list: ans[genre] = list(filter(lambda v: v[0] == genre, result)) f = open('static/data/genre-year-sales.json', 'w') f.write(json.dumps(ans)) f.close() #总销量前五的专辑类型，在不同评分体系中的平均评分 def GenreCritic(sc, spark, df, genre_list): #过滤出类型为总销量前五的专辑，将同样类型的专辑的滚石评分、mtv评分，音乐达人评分分别取平均 result = df.select('genre', 'rolling_stone_critic', 'mtv_critic', 'music_maniac_critic').rdd\ .filter(lambda v: v.genre in genre_list)\ .map(lambda v: (v.genre, (float(v.rolling_stone_critic), float(v.mtv_critic), float(v.music_maniac_critic), 1)))\ .reduceByKey(lambda x, y : (x[0] + y[0], x[1] + y[1], x[2] + y[2], x[3] + y[3]))\ .map(lambda v: (v[0], v[1][0]/v[1][3], v[1][1]/v[1][3], v[1][2]/v[1][3])).collect() f = open('static/data/genre-critic.json', 'w') f.write(json.dumps(result)) f.close() #代码入口 if __name__ == "__main__": sc = SparkContext( 'local', 'test') sc.setLogLevel("WARN") spark = SparkSession.builder.getOrCreate() file = "albums.csv" df = spark.read.csv(file, header=True) #dataframe genre_list = GenreList(sc, spark, df) genre(sc, spark, df) genreSales(sc, spark, df) yearTracksAndSales(sc, spark, df) GenreYearSales(sc, spark, df, genre_list) GenreCritic(sc, spark, df, genre_list) 由于代码中已有详细注释，在此不多加解释。4.代码运行A. 在Ubuntu终端窗口中，用 hadoop 用户登录，在命令行运行su hadoop，并输入用户密码。B. 进入代码所在目录。C. 为了能够读取HDFS中的albums.csv文件，在命令行运行：/usr/local/hadoop/sbin/start-dfs.sh D. 在命令行运行：spark-submit main.py 四、可视化实现本实验的可视化基于Echarts实现，实现的可视化页面部署在基于flask框架的web服务器上。1. 相关代码结构1) 在code目录下新建SparkFlask.py文件，存放Flask 应用。2) 在code目录下新建一个名为templates的文件夹，存放html文件。3) 在code/static目录下新建一个名为js的文件夹，存放js文件。最后的代码结构如下图所示：2. 建立Flask应用在SparkFlask.py文件中复制以下代码：from flask import render_template from flask import Flask # from livereload import Server app = Flask(__name__) @app.route('/') def index(): #使用 render_template() 方法来渲染模板 return render_template('index.html') @app.route('/') def req_file(filename): return render_template(filename) if __name__ == '__main__': app.DEBUG=True#代码调试立即生效 app.jinja_env.auto_reload = True#模板调试立即生效 app.run()#用 run() 函数来让应用运行在本地服务器上代码中已有详细注释，在此不多加解释。3.下载js文件1) 在网站上下载jQuery（下载），将其另存为jquery.min.js文件，保存在code/static/js目录下。2) 在官网下载界面下载Echarts（下载），将其另存echarts-gl.min.js文件，保存在code/static/js目录下。4.Echarts画图（1）在code/templates目录下新建index.html文件。复制以下代码： Music

音乐专辑分析

index.html为主页面，显示每一个统计分析图所在页面的链接。点击任意一个链接，即可跳转到相应页面。（2）在code/templates目录下新建genre.html文件。复制以下代码： ECharts Return

这个通过读取code/static/data/genre.json中的数据，画出玫瑰图，显示各类型专辑的数量。（3）在code/templates目录下新建genre-sales.html文件。复制以下代码： ECharts Return

这个通过读取code/static/data/genre-sales.json中的数据，画出柱状图，显示各类型专辑的销量总数。（4）在code/templates目录下新建year-tracks-and-sales.html文件。复制以下代码： ECharts Return

这个通过读取code/static/data/ year-tracks-and-sales.json中的数据，画出柱状图，显示近20年每年发行的专辑数量和单曲数量。（5）在code/templates目录下新建genre-year-sales.html文件。复制以下代码： ECharts Return

这个通过读取code/static/data/ genre-year-sales.json中的数据，画出扇形图和折线图，分别显示不同年份各类型专辑的销量占总销量的比例，和总销量前五的专辑类型的各年份销量变化。（6）在code/templates目录下新建genre-critic.html文件。复制以下代码： ECharts Return

这个通过读取code/static/data/ genre-critic.json中的数据，画出柱形图，显示总销量前五的专辑类型，在不同评分体系中的平均评分。5. 启动程序A. 在另一个Ubuntu终端窗口中，用 hadoop 用户登录，在命令行运行su hadoop，并输入用户密码。B. 进入代码所在目录。C. 在命令行运行如下命令：spark-submit SparkFlask.py D. 在浏览器打开http://127.0.0.1:5000/，可看到如下界面：1) 各类型专辑的数量统计图2) 各类型专辑的销量统计图3) 近20年每年发行的专辑数量和单曲数量统计图4) 总销量前五的专辑类型的各年份销量分析图5) 总销量前五的专辑类型的评分分析图