# doc-spider **Repository Path**: ofix/doc-spider ## Basic Information - **Project Name**: doc-spider - **Description**: 基于 node.js 18+ 实现的在线文档网站爬虫 - **Primary Language**: JavaScript - **License**: BSD-3-Clause - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-03-06 - **Last Updated**: 2024-03-08 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # doc-spider #### 介绍 基于 node.js 18+ 实现的在线文档网站爬虫 #### 使用说明 ``` node doc_spider.js https://:API文档网站入口 ``` #### 爬虫特点 1. 爬取页面自动保存到本地对应路径,可以本地访问 2. 爬取过程中自动页面去重 3. 支持 iframe 文档下载 4. 只爬取同一个文档网站的所有相关文档 5. 支持页面爬取超时设置 6. 支持文本页面和二进制文件的下载 7. 支持CSS样式文件中引用的字体文件和SVG图片文件提取