您现在的位置是:首页 > 编程 > 

python爬取付费漫画_Python爬虫---爬取腾讯动漫全站漫画

2025-07-25 08:22:03
标签,我猜测每部漫画的地址信息就存储在这些标签里面 随便打开一个《li》标签,点击里面包裹的链接地址会跳转到一个新的网页,这个网页正是我想要的漫画地址,可以见得我的猜测是正确的,等到实际操作的时候再用表达式提取信息就非常容易了 提取漫画章节地址 进入漫画的目录页,发现一页最多可以展示20章的漫画目录,要想更换显示还需要点击章节名上面的选项卡来显示其他章节的地址 接下来就需要我们来

标签,我猜测每部漫画的地址信息就存储在这些标签里面

随便打开一个《li》标签,点击里面包裹的链接地址会跳转到一个新的网页,这个网页正是我想要的漫画地址,可以见得我的猜测是正确的,等到实际操作的时候再用表达式提取信息就非常容易了

提取漫画章节地址

进入漫画的目录页,发现一页最多可以展示20章的漫画目录,要想更换显示还需要点击章节名上面的选项卡来显示其他章节的地址

接下来就需要我们来检查网页元素想办法来获取章节地址了,同样右击检查元素

在看到了源代码后,我发现了一个非常惊喜的事情,这个源码里面包含这所有的章节链接,而不是通过动态加载来展示的,这就省去了我们提取其他章节链接的功夫,只需要花心思提取漫画图片就可以了

这里每个《p》标签下包含了五个《a》标签,每个《li》标签下包含了四个《p》标签,而每个漫画的链接就存在每个《a》标签中,可以轻松通过语法来提取到每页的链接信息

提取漫画图片

怎么将漫画的图片地址提取出来并保存到本地,这是这个代码的难点和核心

先是打开漫画,这个漫画页应该是被加上了某些措施,所以它没办法使用右键查看网页源代码,但是使用快捷键[ctrl + shift +i]是可以看到的

按下[ctrl + shift + i],检查元素

通过第一次检查,可以发现网页的元素中只有前几张图片的地址信息,后面的信息都为后缀.gif的文件表示,这些gif文件就是图片的加载动画

接着向下滑动到底部,等待图片全部显示出来再次检查元素

现在所有的漫画图片全部显示出来,下方并无.gif 的文件,由此可知,腾讯动漫是以js异步加载来显示图片的,要想获取页面的全部图片,就必须要滑动滚动条,将全部的图片加载完成再进行提取,这里我选择selenium模块和chromedriver来帮助我完成这些操作。下面开始进行代码的编写。

编写代码

导入需要的模块

import requests

from lxml import etree

from selenium import webdriver #selenium模拟操作

from time import sleep

from bs4 import BeautifulSoup

from selenium. import Opti #谷歌无头浏览器

import os

获取漫画地址

这里我使用的是xpath提取漫画地址信息,在谷歌浏览器中使用xpath helper插件辅助编写xpath表达式

#打开腾讯动漫首页

url = 'https://ac.qq/'

#给网页发送请求

data = requests.get(url).text

#将网页信息转换成xpath可识别的类型

html = etree.HTML(data)

#提取到每个漫画的目录页地址

comic_list = html.xpath('//a[@]/@href')

print(comic_list)

print一下输出的comic_lis

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址:http://www.dnpztj.cn/biancheng/1116570.html

相关标签:无
上传时间: 2025-07-17 13:07:31
留言与评论(共有 17 条评论)
本站网友 自然流产
11分钟前 发表
将全部的图片加载完成再进行提取
本站网友 北京华信医院
30分钟前 发表
等待图片全部显示出来再次检查元素 现在所有的漫画图片全部显示出来
本站网友 都要好好的简谱
18分钟前 发表
所以它没办法使用右键查看网页源代码
本站网友 核桃的功效
17分钟前 发表
腾讯动漫是以js异步加载来显示图片的
本站网友 电脑瘦身
27分钟前 发表
//ac.qq/' #给网页发送请求 data = requests.get(url).text #将网页信息转换成xpath可识别的类型 html = etree.HTML(data) #提取到每个漫画的目录页地址 comic_list = html.xpath('//a[@]/@href') print(comic_list) print一下输出的comic_lis
本站网友 帕瓦尔
9分钟前 发表
就必须要滑动滚动条
本站网友 罗阳租房
6分钟前 发表
同样右击检查元素 在看到了源代码后
本站网友 黑头是什么
0秒前 发表
点击里面包裹的链接地址会跳转到一个新的网页
本站网友 儿童哮喘医院
22分钟前 发表
发现一页最多可以展示20章的漫画目录
本站网友 王敬
9分钟前 发表
可以见得我的猜测是正确的
本站网友 怡之航场站
18分钟前 发表
要想更换显示还需要点击章节名上面的选项卡来显示其他章节的地址 接下来就需要我们来检查网页元素想办法来获取章节地址了
本站网友 优山美地
21分钟前 发表
这是这个代码的难点和核心 先是打开漫画
本站网友 查询公司注册信息
15分钟前 发表
下面开始进行代码的编写
本站网友 芳村租房
13分钟前 发表
下方并无.gif 的文件
本站网友 全盘加密
22分钟前 发表
发现一页最多可以展示20章的漫画目录
本站网友 书房效果图
1分钟前 发表
但是使用快捷键[ctrl + shift +i]是可以看到的 按下[ctrl + shift + i]