您现在的位置是:首页 > 编程 > 

Python爬虫 -- 喜马拉雅爬虫

2025-07-17 22:22:14
一、思路设计 (1)分析网页 在喜马拉雅主页到自己想要的音频,得到目标 通过分析页面的网络抓包,最终的到一个比较有用的json数据包 通过分析,得到了发送json数据包的一个有用的API接口:https://www.ximalaya/revision/play/album?albumId=

一、思路设计

(1)分析网页

在喜马拉雅主页到自己想要的音频,得到目标

通过分析页面的网络抓包,最终的到一个比较有用的json数据包

通过分析,得到了发送json数据包的一个有用的API接口:https://www.ximalaya/revision/play/album?albumId=21787&pageum=2

其中album为主播的ID在页面url中有显示,pageum为json数据包的“页数”。每个json数据包有0个json数据

(2)设计代码

向服务器发送请求 ----> 得到json数据包 ----> 分析json数据包 ----> 提取json数据包中的有用数据 ----> 存储到本地MongoDB数据库

二、代码实例

代码共分为两部分,执行脚本(ximalaya.py)和配置文件(config_ximalaya.py)

ximalaya.py

 1 # -\*- coding:utf-8; -\*-
 2 # Author : Bingnan Huo
  # Create : 2018-12-06
 4 import os 5 import time 6 import json 7 import requests 8 
 9 from threading import Thread
10 from datetime import datetime
11 from pymongo import MongoClient
12 from config\_xiamalaya import \*
1 
14 def getWorkTimeow(): 
15     '''Acquire work time '''
16     t = ()
17     year = t.year
18     month = 
19     day = t.day
20     hour = t.hour
21     minute = 
22     time\_str = "\[%s-%s-%s-%s:%s\]"%(str(year),
2 str(month),
24 str(day),
25 str(hour),
26 str(minute)
27 )
28     return time\_str
29 
0 def getJsonData(userID,page):
1     '''Get target server json data'''
2     count = 0
     pa = {&

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址:http://www.dnpztj.cn/biancheng/1108836.html

相关标签:无
上传时间: 2025-07-16 12:32:00
留言与评论(共有 20 条评论)
本站网友 act5
15分钟前 发表
//www.ximalaya/revision/play/album?albumId=21787&pageum=2 其中album为主播的ID在页面url中有显示
本站网友 西京医院网上挂号
1分钟前 发表
1 '''Get target server json data''' 2 count = 0 pa = {&
本站网友 高安租房
0秒前 发表
25 str(hour)
本站网友 潜江二手房
5分钟前 发表
最终的到一个比较有用的json数据包 通过分析
本站网友 鸡掰
11分钟前 发表
1 '''Get target server json data''' 2 count = 0 pa = {&
本站网友 火麻仁怎么吃
8分钟前 发表
utf-8; -\*- 2 # Author
本站网友 陶然亭地铁
12分钟前 发表
代码实例 代码共分为两部分
本站网友 重庆电信宽带管家
12分钟前 发表
//www.ximalaya/revision/play/album?albumId=21787&pageum=2 其中album为主播的ID在页面url中有显示
本站网友 吸引力婚纱摄影
26分钟前 发表
2 str(month)
本站网友 联泰香域滨江
24分钟前 发表
%s\]"%(str(year)
本站网友 溶脂针价格
6分钟前 发表
%s\]"%(str(year)
本站网友 banacast
26分钟前 发表
2018-12-06 4 import os 5 import time 6 import json 7 import requests 8 9 from threading import Thread 10 from datetime import datetime 11 from pymongo import MongoClient 12 from config\_xiamalaya import \* 1 14 def getWorkTimeow()
本站网友 北京新地铁
10分钟前 发表
得到了发送json数据包的一个有用的API接口:https
本站网友 大学生就业形势
27分钟前 发表
代码实例 代码共分为两部分
本站网友 急性结膜炎
9分钟前 发表
得到目标 通过分析页面的网络抓包
本站网友 钢铁大使怎么出装
2分钟前 发表
得到目标 通过分析页面的网络抓包
本站网友 广州点评网
18分钟前 发表
%s\]"%(str(year)
本站网友 亚运村房价
0秒前 发表
utf-8; -\*- 2 # Author
本站网友 杨舒婷
28分钟前 发表
最终的到一个比较有用的json数据包 通过分析