AI批量下载播客转录的文本
AI批量下载播客转录的文本
有些播客会在上放出已经转录好的文本,比如MIT Technology Review:
/
怎么批量下载这些播客文本呢?
在deepseek中输入提示词:
你是一个Python编程专家,要完成一个批量爬取网页的任务,具体步骤如下:
打开网页:/
定位所有class="postGrid__wrapper--a74dc2e1bf8f2f117f0bf0cdde74"的div标签;
在div标签中定位第1个a标签,提取其href属性值,这个一个网页URL;
打开这个网页,保存到文件夹F:\in-machines-we-trust,网页格式为html;
注意:每一步都要输出信息到屏幕上
标题:class="contentArticleHeader__title--4ba85d49e1a485c0496cbbb5900641b"
源代码:
import requests
from bs4 import BeautifulSoup
import os
# 定义目标网页的URL
url = "/"
# 定义保存文件的文件夹路径
save_folder = "F:\\in-machines-we-trust"
# 确保保存文件的文件夹存在
if not os.(save_folder):
(save_folder)
print(f"Created folder: {save_folder}")
# 第一步:打开网页
print(f"Opening webpage: {url}")
respe = requests.get(url)
respe.raise_for_status() # 检查请求是否成功
# 第二步:解析HTML
print("Parsing HTML...")
soup = BeautifulSoup(, 'html.parser')
# 第三步:定位所有class="postGrid__wrapper--a74dc2e1bf8f2f117f0bf0cdde74"的div标签
divs = soup.find_all('div', class_="postGrid__wrapper--a74dc2e1bf8f2f117f0bf0cdde74")
print(f"Found {len(divs)} divs with the specified class.")
# 第四步:在每个div标签中定位第1个a标签,提取其href属性值
for i, div in enumerate(divs):
a_tag = div.find('a')
if a_tag:
href = a_tag.get('href')
print(f"Extracted URL {i+1}: {href}")
# 第五步:打开这个网页,保存到文件夹
article_respe = requests.get(href)
article_respe.raise_for_status()
# 生成保存文件的文件名
filename = os.path.join(save_folder, f"article_{i+1}.html")
# 保存网页内容到文件
with open(filename, 'wb') as file:
file.write(article_)
print(f"Saved article {i+1} to {filename}")
else:
print(f"o 'a' tag found in div {i+1}")
print("Task completed.")
代码解释:
打开网页:使用requests.get(url)发送HTTP GET请求,获取网页内容。
解析HTML:使用BeautifulSoup解析获取到的HTML内容。
定位div标签:使用soup.find_all('div', class_="postGrid__wrapper--a74dc2e1bf8f2f117f0bf0cdde74")到所有符合条件的div标签。
提取href属性:在每个div标签中到第一个a标签,并提取其href属性值。
保存网页:使用requests.get(href)获取目标网页的内容,并将其保存到指定文件夹中。
注意事项:
确保目标网页的结构没有变化,否则可能需要调整选择器。
如果目标网页需要登录或使用JavaScript动态加载内容,可能需要使用Selenium等工具。
如果目标网页有反爬虫机制,可能需要添加请求头或使用代理。
运行这个脚本后,你会在F:\in-machines-we-trust文件夹中看到保存的HTML文件。
#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格
推荐阅读
留言与评论(共有 9 条评论) |
本站网友 如何护肤 | 27分钟前 发表 |
class_="postGrid__wrapper--a74dc2e1bf8f2f117f0bf0cdde74")print(f"Found {len(divs)} divs with the specified class.")# 第四步:在每个div标签中定位第1个a标签 | |
本站网友 恒生指数期货 | 23分钟前 发表 |
要完成一个批量爬取网页的任务 | |
本站网友 温州大学城 | 8分钟前 发表 |
网页格式为html;注意:每一步都要输出信息到屏幕上标题:class="contentArticleHeader__title--4ba85d49e1a485c0496cbbb5900641b"源代码:import requestsfrom bs4 import BeautifulSoupimport os# 定义目标网页的URLurl = "/"# 定义保存文件的文件夹路径save_folder = "F | |
本站网友 道指跌幅超1千点 | 21分钟前 发表 |
print(f"o 'a' tag found in div {i+1}")print("Task completed.")代码解释:打开网页:使用requests.get(url)发送HTTP GET请求 | |
本站网友 北京中医药大学东直门医院 | 3分钟前 发表 |
并提取其href属性值 | |
本站网友 乐视讨债 | 8分钟前 发表 |
'wb') as file | |
本站网友 速递 | 18分钟前 发表 |
并提取其href属性值 | |
本站网友 杭州老年大学 | 15分钟前 发表 |
分享自 |