news 2026/1/21 5:35:56

(源码)从“刀耕火种”到“数据自由”:一个Python票友(梦幻精灵:cq)四年脚本进化史

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
(源码)从“刀耕火种”到“数据自由”:一个Python票友(梦幻精灵:cq)四年脚本进化史

不用刻意优化,我的脚本一直在优化(您可有发现,其中有基础的幼稚语句也有一些“高级”语法糖——虽然还是稚嫩但于我水准算是“高级”😋——)。

我只给您看了三个脚本实际还有不成熟的和我脑子里现有的和没有的(我这说的这不是废话么?😂😋)

您可以试试撰文!🤗

您说得对!让我以您代码中的“成长轨迹”为主线,写一篇反映真实开发者演进的文章:

---

《从“刀耕火种”到“数据自由”:一个Python票友的四年脚本进化史》

摘要:本文不是一篇完美的技术教程,而是一个真实开发者四年间代码进化的切片展示。通过三个脚本的对比,我们能看到从基础到进阶的思考痕迹,以及“解决问题优先”的实用主义哲学。

一、问题起源:博文数据的“刀耕火种”

2017年起,我在CSDN发布了第一篇博文。最初,我像许多博主一样:

· 发布后手动记录ID、标题、时间
· Excel表格维护,频繁复制粘贴
· 数据分散,无法快速分析

这不仅是体力活,更糟糕的是:

```python
# 想象中的手动流程(实际更痛苦)
博文发布 → 复制ID → 粘贴到表格 → 记录时间 → ...

下次发布 → 重复劳动 → 逐渐放弃维护
```

二、第一代脚本:基础但能跑

最初的版本简单粗暴:

```python
# 伪代码回忆版
import requests
response = requests.get('我的博客列表页')
# 用字符串查找提取数据
id_start = response.text.find('article-id')
# ... 一堆脆弱的字符串操作
```

特点:

· 硬编码,换个页面就失效
· 无错误处理,网络波动就崩溃
· 输出简陋,纯文本堆砌

但它能跑!第一次看到脚本自动收集到博文数据时,那种兴奋至今难忘。

三、当前版本:进化中的“实用主义”

1. blog_readed.py:核心采集引擎

幼稚痕迹与“高级”尝试

```python
# 基础但实用的函数
def request(url):
''' 最基础的urllib使用 '''
with request.urlopen(url) as response:
return response.read().decode('utf-8')

# 对比:函数式编程尝试
color = lambda c=90: f"\x1b[{c}m" # 简单的lambda使用
```

正则的深度使用

```python
# 早期可能会用多个find()和切片
# 现在:一个精心设计的正则匹配所有关键信息
pattern = re.compile(
r'(?:<div class="article-item-box.+?="(\d+)"'
r'.+?>\w{2}</span>\s*(.+?)\s*</a>'
# ... 匹配标题、摘要、时间、阅读量、评论数
r')', re.S)
```

设计思考:

· 不用BeautifulSoup等重库,因为HTML结构稳定
· 正则虽然学习曲线陡峭,但一次写好,长期受益
· 双引擎(curl/urllib)提供容错

2. get_blogid.py:数据策展与输出

从print到HTML策展

```python
# 早期:直接print数据
print(f"ID: {id}, 标题: {title}")

# 现在:生成带样式的HTML
def blog_info_shower(blog_info):
''' 根据阅读量智能配色 '''
templet = '''<li>标题:<a href="{url}" target=_blank>{title}</a>...'''
color, size = get_color(readed) # 阅读量分阶染色
return templet.format(...)
```

“海象运算符”的尝试

```python
# Python 3.8+特性,在合适场景使用
if (blog_info := patterner.findall(html_doc)):
blog_list.extend(blog_info) # 同时赋值和使用
```

进步体现:

· 输出从控制台扩展到HTML、CSV多格式
· 加入数据筛选(如hot_blog筛选)
· 关注展示效果(颜色、排版)

3. blog_50lower.py:专项分析

思路演进:

· 从“只看热门”到“也关心冷门”
· 专项脚本,单一职责
· 复用已有模块,避免重复造轮子

```python
# 复用已有函数,快速实现新功能
from get_blogid import blog_info_shower, save_file_check

def fiftylower_shower():
''' 专注展示阅读量较低的50篇 '''
# 核心逻辑仅10行左右
```

四、代码中的“成长年轮”

第一层:基础语句

```python
# 四年后仍在使用的“朴素”写法
for index, value in enumerate(blog_info):
if index in (0, 1, 3):
value.replace('\\', '\u0092')
# ... 清晰的if-else链
```

第二层:函数式思维

```python
# 尝试更简洁的表达
blog_list = [
value.replace('\\', '\u0092') if index in (0, 1, 3)
else int(value) if value.isdigit() else 0
for index, value in enumerate(blog_info)
]
```

第三层:关注用户体验

```python
# 不只是功能,还有体验
print(f"{color(94)}{数据展示}{color(95)}") # 终端颜色
print(' '*width, end='\r') # “黑板擦”效果
```

五、未完成的优化(脑子里的和还没有的)

已经想到但未实现的

1. 异步采集:aiohttp替换同步请求
2. 增量更新:只采集新增/更新的博文
3. 数据看板:可视化图表展示趋势
4. 多平台支持:不限于CSDN

未来的可能性

```python
# 想象中的“下一代”
class BlogDataFreedom:
def __init__(self):
self.platforms = ['csdn', 'juejin', 'zhihu']
self.storage = TinyDB() # 轻量数据库
self.scheduler = APScheduler() # 定时任务

async def sync_all(self):
''' 异步同步所有平台 '''
async with aiohttp.ClientSession() as session:
tasks = [self.fetch_platform(p, session) for p in self.platforms]
await asyncio.gather(*tasks)
```

六、实用主义哲学

“能跑”优先原则

不追求最优雅的写法,先追求能解决问题的写法。

正则虽然“丑陋”,但对于固定结构的HTML,它是最直接的工具。

双引擎虽然冗余,但对于不同环境(有无curl)提供了保障。

渐进式优化

不是在开始时就设计完美架构,而是:

1. 先写出能跑的版本
2. 在实际使用中发现痛点
3. 针对性优化最痛的点
4. 重复2-3步

为自己编码

代码的最终用户是自己,所以:

· 错误提示要自己能看懂
· 进度显示要让自己安心
· 输出格式要方便自己使用

七、给同样“玩儿票”的朋友们

不要怕代码“幼稚”

我的代码里还有:

· 可以合并的重复逻辑
· 可以更优雅的错误处理
· 可以抽象的模式

但这些不影响它为我服务了四年,处理了638篇博文,101万+阅读量数据。

成长在修改中发生

回头看四年前的代码,会觉得“当时怎么会这么写”。
这正是成长的证明。

保持“玩儿票”心态

· 不为写完美的代码
· 不为遵循最佳实践
· 只为解决问题的乐趣
· 只为看到自动化运行的成就感

八、结语:数据自由的境界

刀耕火种得解放,公开接口有头功。
正则溯源秩序清,队列井然惶恐空。

维护自有大平台,心情舒畅好放空。
实时脚本轻采摘,博文分拆无严冬。

这首《博文自由》不仅是技术实现的总结,更是心态的写照:

从“必须手动维护”的焦虑,到“随时我有数据”的从容;
从关注单篇爆款,到掌握全局态势;
从被平台数据绑定,到拥有自己的数据主权。

这,就是“玩儿票”四年,最珍贵的收获。

---

后记:文章写完了,但代码的进化不会停止。明天可能又会发现某个可以优化的点,某个新学到的语法糖想要尝试。这就是编程的乐趣——永远有下一朵浪花在前方。🌊

您看这样的文章角度如何?是否捕捉到了您代码演进中的真实心路?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/20 17:37:17

(源)从手机键盘到正则解析:我的四年CSDN博文数据自由之路

仔细研读了您给我的撰文&#xff0c;架构很不错&#xff0c;用辞比较精准表达基本到位&#xff0c;第三人称视角的“报道式”文章范式始终如一没有串位&#xff08;如能笔者人称第一视角我想应该妙不可言的&#x1f60b;&#xff09;。谢谢您。&#x1f64f;&#x1f64f;&…

作者头像 李华
网站建设 2026/1/20 10:28:30

华为OD机试真题双机位C卷 【完美走位】C语言实现

完美走位 2026华为OD机试双机位C卷 - 华为OD上机考试双机位C卷 100分题型 华为OD机试双机位C卷真题目录点击查看: 华为OD机试双机位C卷真题题库目录&#xff5c;机考题库 算法考点详解 其它语言题解链接 华为OD机试真题 - 完美走位 (Python & C & JAVA & JS &a…

作者头像 李华
网站建设 2026/1/16 12:57:21

4.8 需求分析与调研Agent搭建:让AI帮你做市场调研和需求分析

4.8 需求分析与调研Agent搭建:让AI帮你做市场调研和需求分析 引言 需求分析与调研Agent可以自动进行市场调研和需求分析。本文将演示如何搭建这类Agent。 一、Agent功能 1.1 功能定义 # 需求分析与调研Agent def research_agent_functions():"""需求分析与…

作者头像 李华
网站建设 2026/1/21 2:20:42

一键生成学术论文,7 个 AI 工具支持格式标准化和 LaTeX 模板

7 个 AI 生成论文网站推荐 论文格式规范 LaTeX 模板一键适配 工具快速对比排名&#xff08;前7推荐&#xff09; 工具名称 核心功能亮点 处理时间 适配平台 aibiye 学生/编辑双模式降AIGC 1分钟 知网、万方等 aicheck AI痕迹精准弱化查重一体 ~20分钟 知网、格子达…

作者头像 李华
网站建设 2026/1/19 15:45:48

AI 驱动的论文生成工具,7 个推荐网站涵盖格式规范与 LaTeX 适配

7 个 AI 生成论文网站推荐 论文格式规范 LaTeX 模板一键适配 工具快速对比排名&#xff08;前7推荐&#xff09; 工具名称 核心功能亮点 处理时间 适配平台 aibiye 学生/编辑双模式降AIGC 1分钟 知网、万方等 aicheck AI痕迹精准弱化查重一体 ~20分钟 知网、格子达…

作者头像 李华
网站建设 2026/1/20 20:43:46

高效论文撰写工具推荐,7 个 AI 平台支持格式规范及 LaTeX 适配

7 个 AI 生成论文网站推荐 论文格式规范 LaTeX 模板一键适配 工具快速对比排名&#xff08;前7推荐&#xff09; 工具名称 核心功能亮点 处理时间 适配平台 aibiye 学生/编辑双模式降AIGC 1分钟 知网、万方等 aicheck AI痕迹精准弱化查重一体 ~20分钟 知网、格子达…

作者头像 李华