Python 100天-從新手到大師學習筆記Day67:數據採集和解析

通过《网络爬虫和相关工具》一文,我们已经了解到了开发一个爬虫需要做的工作以及一些常见的问题,至此我们可以对爬虫开发需要做的工作以及相关的技术做一个简单的汇总,这其中可能会有一些我们之前没有使用过的第三方库,不过别担心,这些内容我们稍后都会一一讲到。

  1. 下载数据 — urllib / requests / aiohttp。
  2. 解析数据 — re / lxml / beautifulsoup4(bs4)/ pyquery。
  3. 缓存和持久化 — pymysql / sqlalchemy / peewee/ redis / pymongo。
  4. 生成数字签名 — hashlib。
  5. 序列化和压缩 — pickle / json / zlib。
  6. 调度器 — 进程(multiprocessing) / 线程(threading) / 协程(coroutine)。

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store