# spider_python **Repository Path**: tzx_0614/spider_python ## Basic Information - **Project Name**: spider_python - **Description**: python编写spider,单个脚本爬取,scrapy框架爬取,分布式爬取,解析方式有:re、xpath、json、beautifulsoup,保存格式:csv、json、mysql、mongo、redis,非结构化爬取保存...... - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-01-20 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #### 01_gov ```python 1、单个文件,增量爬取最新县以上行政区划代码,re、xpath查找实现,并保存为csv文件和mysql数据库 2、scrapy框架爬取 ``` #### 02_maoyan ```python 1、单个脚本爬取猫眼电影数据,并保存为json格式文件 2、scrapy框架爬取猫眼电影,并保存csv文件、json文件、mongo数据库 ``` #### 03_filmparadise ```python 1、单个脚本增量爬取电影天堂,存入mysql ``` #### 04_jd ```python 1、单个脚本爬取京东商品(辣条),csv保存 ``` #### 05_tencent ```python 1、scrapy爬取腾讯招聘信息,存入mysql 2、scrapy_redis分布式爬取腾讯招聘信息,redis存储爬取指纹,去重,保存到mysql 3、单个脚本多线程爬取数据,保存为json文件 ``` #### 06_soImage ```python 1、单个脚本爬取so.com图片,re、json解析 ``` #### 07_baidutieba ```python 1、单个脚本爬取百度贴吧中的图片,beautifulsoup查找实现 ``` #### 08_lianjia ```python 1、单个脚本爬取链家二手房信息,BeautifulSoup解析 2、scrapy爬取链家二手房信息,BeautifulSoup解析,redis去重,mysql、csv、json保存 ``` #### 09_youdao ```python 1、单个脚本实现有道翻译 ``` #### 10_douban ```python 1、scrapy爬取豆瓣电影,json解析,mongo保存 ``` #### 11_baiduImage ```python 1、scrapy爬取百度图片,并保存 ``` #### 12_getProxy ``` 1、IP池建设 ``` #### 13_xiaomi ``` 1、小米应用商城数据爬取 ```