# tieba-spider **Repository Path**: berry233/tieba-spider ## Basic Information - **Project Name**: tieba-spider - **Description**: 百度贴吧爬虫,可以爬取单个帖子,包括楼中楼 - **Primary Language**: C++ - **License**: GPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 6 - **Forks**: 2 - **Created**: 2020-05-04 - **Last Updated**: 2024-11-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Tieba-spider ## __百度贴吧爬虫,用于爬取单个帖子__ __使用了RapidJson库,有关的版权声明与开源协议见[RapidJson](http://github.com/Tencent/rapidjson/blob/master/license.txt)__ ### 简介 这是一个功能比较简陋的爬虫,目前只支持单帖子爬取(写个脚本爬多帖子也不是不行233)输出为markdown文档 一开始是为了备份自己喜欢的帖子才做的这个爬虫(我没有找到带楼中楼爬取的,可能是我太菜了QAQ)然后接下来的目标是提高效率,顺便学下面向对象(因为是为了算法竞赛学的编程就只会面向过程),估计会重写很多次吧,会一直 ~~持续~~ 随缘更新 *** ### 关于settings.json "path":保存文件的路径 "path_to_python":python3的路径 "is_local":是否使用本地模式,这个是DEBUG的时候节省下载文件的时间用的 "local_files_page_number":本地模式要分析的页数 "tid":帖子编号,就是链接/p/后面的数字 "name":用于保存帖子的文件夹名,应作为path的子文件夹并包含lzl和source文件夹 *** 使用GPLv3协议开源。