Python爬虫 -- 喜马拉雅爬虫
一、思路设计
(1)分析网页
在喜马拉雅主页到自己想要的音频,得到目标
通过分析页面的网络抓包,最终的到一个比较有用的json数据包
通过分析,得到了发送json数据包的一个有用的API接口:https://www.ximalaya/revision/play/album?albumId=
一、思路设计
(1)分析网页
在喜马拉雅主页到自己想要的音频,得到目标
通过分析页面的网络抓包,最终的到一个比较有用的json数据包
通过分析,得到了发送json数据包的一个有用的API接口:https://www.ximalaya/revision/play/album?albumId=21787&pageum=2
其中album为主播的ID在页面url中有显示,pageum为json数据包的“页数”。每个json数据包有0个json数据
(2)设计代码
向服务器发送请求 ----> 得到json数据包 ----> 分析json数据包 ----> 提取json数据包中的有用数据 ----> 存储到本地MongoDB数据库
二、代码实例
代码共分为两部分,执行脚本(ximalaya.py)和配置文件(config_ximalaya.py)
ximalaya.py
1 # -\*- coding:utf-8; -\*-
2 # Author : Bingnan Huo
# Create : 2018-12-06
4 import os 5 import time 6 import json 7 import requests 8
9 from threading import Thread
10 from datetime import datetime
11 from pymongo import MongoClient
12 from config\_xiamalaya import \*
1
14 def getWorkTimeow():
15 '''Acquire work time '''
16 t = ()
17 year = t.year
18 month =
19 day = t.day
20 hour = t.hour
21 minute =
22 time\_str = "\[%s-%s-%s-%s:%s\]"%(str(year),
2 str(month),
24 str(day),
25 str(hour),
26 str(minute)
27 )
28 return time\_str
29
0 def getJsonData(userID,page):
1 '''Get target server json data'''
2 count = 0
pa = {&
#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格
上传时间: 2025-07-16 12:32:00
推荐阅读
留言与评论(共有 20 条评论) |
本站网友 act5 | 15分钟前 发表 |
//www.ximalaya/revision/play/album?albumId=21787&pageum=2 其中album为主播的ID在页面url中有显示 | |
本站网友 西京医院网上挂号 | 1分钟前 发表 |
1 '''Get target server json data''' 2 count = 0 pa = {& | |
本站网友 高安租房 | 0秒前 发表 |
25 str(hour) | |
本站网友 潜江二手房 | 5分钟前 发表 |
最终的到一个比较有用的json数据包 通过分析 | |
本站网友 鸡掰 | 11分钟前 发表 |
1 '''Get target server json data''' 2 count = 0 pa = {& | |
本站网友 火麻仁怎么吃 | 8分钟前 发表 |
utf-8; -\*- 2 # Author | |
本站网友 陶然亭地铁 | 12分钟前 发表 |
代码实例 代码共分为两部分 | |
本站网友 重庆电信宽带管家 | 12分钟前 发表 |
//www.ximalaya/revision/play/album?albumId=21787&pageum=2 其中album为主播的ID在页面url中有显示 | |
本站网友 吸引力婚纱摄影 | 26分钟前 发表 |
2 str(month) | |
本站网友 联泰香域滨江 | 24分钟前 发表 |
%s\]"%(str(year) | |
本站网友 溶脂针价格 | 6分钟前 发表 |
%s\]"%(str(year) | |
本站网友 banacast | 26分钟前 发表 |
2018-12-06 4 import os 5 import time 6 import json 7 import requests 8 9 from threading import Thread 10 from datetime import datetime 11 from pymongo import MongoClient 12 from config\_xiamalaya import \* 1 14 def getWorkTimeow() | |
本站网友 北京新地铁 | 10分钟前 发表 |
得到了发送json数据包的一个有用的API接口:https | |
本站网友 大学生就业形势 | 27分钟前 发表 |
代码实例 代码共分为两部分 | |
本站网友 急性结膜炎 | 9分钟前 发表 |
得到目标 通过分析页面的网络抓包 | |
本站网友 钢铁大使怎么出装 | 2分钟前 发表 |
得到目标 通过分析页面的网络抓包 | |
本站网友 广州点评网 | 18分钟前 发表 |
%s\]"%(str(year) | |
本站网友 亚运村房价 | 0秒前 发表 |
utf-8; -\*- 2 # Author | |
本站网友 杨舒婷 | 28分钟前 发表 |
最终的到一个比较有用的json数据包 通过分析 |