11月10日,《福布斯》发布2022中国内地富豪榜。本次上榜者的财富总额从去年的1.48万亿美元下降至9071亿美元,跌幅达到39%,并创下了《福布斯》调查中国内地富豪20多年以来的最大跌幅。据中新经纬,在今年的100位上榜者中,有79人的财富出现下跌、12人重回榜单、4人对财富进行了分割、3人首次上榜,仅2人实现了财富增长。这两人均来自新能源行业。这和全球富豪榜的走势颇为类似,全球富豪榜也只有2个人实现了财富增长,并且也是来自于新能源行业。
生活中新能源比较火的行业估计就是汽车行业了,今天我们就使用python爬虫技术来访问汽车之家,了解下电动汽车的销量还有车主们驾驶感受数据。我们就利用python简单的演示一下采集过程,大家可以根据自己的兴趣进行拓展,比如采集自己喜欢的品牌汽车数据进行统计分析等等。在进行数据请求前我们进行了简单的测试,发现网站有存在反爬的风险,所以为了顺利的拿到数据,在爬取过程中增加了反爬措施,最主要的就爬虫代理IP的辅助。关于爬虫代理IP的选择之前有做过详细的介绍,大家有需要的可以直接选择亿牛云,数据获取的简单爬虫代码如下:
#! -*- encoding:utf-8 -*-
import requests
import random
# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"
# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text
整个爬虫过程比较简单,采集下来的数据也比较规范,分析的数据下次会分享出来。但是从获取的数据可以看出大家在电动汽车使用优势和劣势的评价上都比较真实,对需要购买电动汽车的朋友来说很有参考价值。