# doc-crawler

**Repository Path**: somenzz/doc-crawler

## Basic Information

- **Project Name**: doc-crawler
- **Description**: No description available
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-08-10
- **Last Updated**: 2021-02-04

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## django 项目

目录树如下：

```sh
├── README.md
└── cbrc_crawler
    ├── cbrc_crawler
    │   ├── __init__.py
    │   ├── asgi.py
    │   ├── settings.py
    │   ├── urls.py
    │   └── wsgi.py
    ├── crawler_tasks
    └── manage.py

```

每个爬虫脚本请放在 /cbrc_crawler/crawler_tasks 目录下，命名方式为 crawler_xxx.py xxx 为网站的编号。

## 功能说明：

程序启动后会持续运行，每隔指定的时间间隔去爬取目标网站最新的文档信息并下载，同时发送邮件至相关人员邮箱（附件就是已爬取的文档）。前端界面可以看到每个爬虫的运行情况，也可以下载最新文档或全部文档。程序具体流程如下：

1. 每隔一段时间（如 3 小时）爬取目标网站，查看是否有新的文档，没有则什么也不做。
2. 如有则尝试进行下载，下载成功则发送通知邮件及附件。由于这些网站极不稳定，会出现下载超时或失败，如果下载失败执行步骤 3
3. 每 5 分钟进行一次重试，共重试 10 次，如果重试过程中下载成功，则发送通知邮件及附件，10 次重试仍下载失败则仅发送通知邮件，提示下载失败。如果比较急的话，可以手动下载，或者使用专有的 VPN 下载。
4. 程序在 3 小时后会继续进行下载之前失败的文档，直至下载成功。