# doc-crawler **Repository Path**: somenzz/doc-crawler ## Basic Information - **Project Name**: doc-crawler - **Description**: No description available - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-08-10 - **Last Updated**: 2021-02-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## django 项目 目录树如下: ```sh ├── README.md └── cbrc_crawler ├── cbrc_crawler │   ├── __init__.py │   ├── asgi.py │   ├── settings.py │   ├── urls.py │   └── wsgi.py ├── crawler_tasks └── manage.py ``` 每个爬虫脚本请放在 /cbrc_crawler/crawler_tasks 目录下,命名方式为 crawler_xxx.py xxx 为网站的编号。 ## 功能说明: 程序启动后会持续运行,每隔指定的时间间隔去爬取目标网站最新的文档信息并下载,同时发送邮件至相关人员邮箱(附件就是已爬取的文档)。前端界面可以看到每个爬虫的运行情况,也可以下载最新文档或全部文档。程序具体流程如下: 1. 每隔一段时间(如 3 小时)爬取目标网站,查看是否有新的文档,没有则什么也不做。 2. 如有则尝试进行下载,下载成功则发送通知邮件及附件。由于这些网站极不稳定,会出现下载超时或失败,如果下载失败执行步骤 3 3. 每 5 分钟进行一次重试,共重试 10 次,如果重试过程中下载成功,则发送通知邮件及附件,10 次重试仍下载失败则仅发送通知邮件,提示下载失败。如果比较急的话,可以手动下载,或者使用专有的 VPN 下载。 4. 程序在 3 小时后会继续进行下载之前失败的文档,直至下载成功。