yiniuyun的专栏 - 博客中国

敏敏张的博客

y yiniuyun

全部

(175)

2025 共18篇文章
07月共2篇文章
Python爬虫案例：Scrapy+XPath解析当当网网页结构

引言在当今大数据时代，网络爬虫已成为获取互联网信息的重要工具。作为Python生态中最强大的爬虫框架之一，Scrapy凭借其高性能、易扩展的特性受到开发者广泛青睐。本文将详细介绍如何利用Scrapy框架结合XPath技术解析当当网的商品页面结构，实现一个完整的电商数据爬取案例。一、Scrapy框架概述Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架，可以广泛应用于数据挖掘、监测和自动化测试等领域。其架构设计基于Twi...

1

0

0

0

2025.07.24 16:48
解决Python爬虫访问HTTPS资源时Cookie超时问题

一、问题背景：Cookie 15 秒就失效了？很多互联网图片站为了防止盗链，会把图片地址放在 HTTPS 接口里，并且给访问者下发一个带 Path=/ 的 Cookie，有效期极短（15 s～60 s）。常规 Requests 脚本在下载第二张图时就会 401 或 403。本文以某壁纸站 https://example-pics.com 为例，演示如何：1. 自动化获取并刷新 Cookie；2. 在下载高并发图片时维持 Cookie 活性；3. 把方案工程化到 Scrapy / Celery / Lambda 等场景。二、技术原...

2

0

0

0

2025.07.17 16:43
06月共3篇文章

05月共3篇文章

04月共3篇文章

03月共4篇文章

02月共2篇文章

01月共1篇文章
2024 共31篇文章

12月共3篇文章

11月共4篇文章

10月共4篇文章

09月共3篇文章

08月共2篇文章

07月共3篇文章

06月共2篇文章

05月共3篇文章

04月共2篇文章

03月共1篇文章

02月共1篇文章

01月共3篇文章
2023 共22篇文章

12月共2篇文章

11月共3篇文章

10月共1篇文章

09月共2篇文章

08月共2篇文章

07月共2篇文章

06月共2篇文章

05月共2篇文章

04月共2篇文章

03月共1篇文章

02月共1篇文章

01月共2篇文章
2022 共29篇文章

12月共3篇文章

11月共3篇文章

10月共3篇文章

09月共4篇文章

08月共2篇文章

07月共3篇文章

06月共2篇文章

05月共3篇文章

04月共2篇文章

03月共2篇文章

02月共1篇文章

01月共1篇文章
2021 共36篇文章

12月共3篇文章

11月共4篇文章

10月共3篇文章

09月共3篇文章

08月共3篇文章

07月共3篇文章

06月共2篇文章

05月共4篇文章

04月共2篇文章

03月共5篇文章

02月共2篇文章

01月共2篇文章
2020 共27篇文章

12月共3篇文章

11月共4篇文章

10月共1篇文章

09月共2篇文章

08月共4篇文章

07月共3篇文章

06月共2篇文章

05月共4篇文章

04月共1篇文章

03月共1篇文章

02月共1篇文章

01月共1篇文章
2019 共12篇文章

12月共1篇文章

09月共1篇文章

08月共1篇文章

07月共4篇文章

06月共1篇文章

04月共1篇文章

03月共3篇文章

© Copyright 2001 - 2025 blogchina.com, All Rights Reserved
京ICP备12023361号-1　京公网安备 11010802020321号
声明：文章内容纯属作者个人观点，不代表博客中国立场
违法和不良信息举报（涉未成年、网络暴力、历史虚无主义、有害信息举报）电话：15110263473
违法和不良信息举报（涉未成年、网络暴力、历史虚无主义、有害信息举报）邮箱：help@blogchina.com
客户服务热线：15110263473　客服邮箱：help@blogchina.com

Python爬虫案例：Scrapy+XPath解析当当网网页结构

解决Python爬虫访问HTTPS资源时Cookie超时问题