【Python实战】---- 爬取 CSD 专栏文章列表
1. 场景
需求就是专栏中文章随着时间写的越多,如果后边需要去查的时候比较麻烦,比如一些不常用的 git 命令,或者有些开发场景的细节,在之前已经开发完了,现在忘记部分细节,需要在之前的输出文章中去查,当几十几百篇文章时,查就比较麻烦,但是如果没发布一篇文章,自己去更新专栏的文章目录又是一个比较繁琐的
1. 场景
需求就是专栏中文章随着时间写的越多,如果后边需要去查的时候比较麻烦,比如一些不常用的 git 命令,或者有些开发场景的细节,在之前已经开发完了,现在忘记部分细节,需要在之前的输出文章中去查,当几十几百篇文章时,查就比较麻烦,但是如果没发布一篇文章,自己去更新专栏的文章目录又是一个比较繁琐的事情,因此写了一个小的爬取程序,在每次发布新的文章时,运行此程序,就可以更新文章目录,方便后期在需要的时候能够快速查。
2. 引入使用模块
- requests 获取网页的内容;
- re 使用正则匹配文章的发布日期;
- time 用于每次获取网页后的等待,防止被 CSD 识别为爬虫;
- datetime 用于文章发布日期的排序格式化;
- BeautifulSoup HTML 解析。
import requests
import re
import time
from datetime import datetime
from bs4 import BeautifulSoup
. 获取专栏文章
#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格
上传时间: 2025-07-17 08:36:36
推荐阅读
留言与评论(共有 12 条评论) |
本站网友 大炮图 | 9分钟前 发表 |
import requests import re import time from datetime import datetime from bs4 import BeautifulSoup . 获取专栏文章 | |
本站网友 石油机械 | 7分钟前 发表 |
因此写了一个小的爬取程序 | |
本站网友 奥运射箭比赛 | 20分钟前 发表 |
在每次发布新的文章时 | |
本站网友 血点 | 14分钟前 发表 |
运行此程序 | |
本站网友 鼹鼠的故事全集 | 25分钟前 发表 |
方便后期在需要的时候能够快速查 | |
本站网友 安卓桌面 | 6分钟前 发表 |
自己去更新专栏的文章目录又是一个比较繁琐的事情 | |
本站网友 汽车销售网 | 21分钟前 发表 |
需要在之前的输出文章中去查 | |
本站网友 51nb论坛 | 30分钟前 发表 |
在之前已经开发完了 | |
本站网友 沈阳房屋出售 | 25分钟前 发表 |
但是如果没发布一篇文章 | |
本站网友 华宝国际 | 16分钟前 发表 |
比如一些不常用的 git 命令 | |
本站网友 南京金陵饭店 | 20分钟前 发表 |
如果后边需要去查的时候比较麻烦 |