# ai_browser **Repository Path**: simplecoder-1/ai_browser ## Basic Information - **Project Name**: ai_browser - **Description**: AI API 控制浏览器 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-02-19 - **Last Updated**: 2026-02-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 🤖 AI Browser Controller 一个使用 AI API 控制浏览器的强大工具。通过自然语言指令,AI 可以自动执行各种浏览器操作。 ## ✨ 功能特性 - 🌐 **智能导航** - 用自然语言打开任意网站 - 👆 **自动交互** - AI 自动分析页面并执行点击、输入等操作 - 📜 **智能滚动** - 自动滚动页面 - 📸 **截图功能** - 截取页面截图 - 🔍 **内容提取** - 从页面提取所需信息 - ⚡ **JavaScript 执行** - 执行自定义 JavaScript 代码 - 🎯 **对话式交互** - 支持交互式 CLI 界面 ## 📋 环境要求 - Python 3.9+ - Windows / macOS / Linux ## 🚀 快速开始 ### 1. 安装依赖 ```bash cd ai_browser pip install -r requirements.txt playwright install chromium ``` ### 2. 配置 API Key 复制 `.env.example` 为 `.env` 并填入你的 API Key: ```bash cp .env.example .env ``` 编辑 `.env` 文件: ``` OPENAI_API_KEY=your-api-key-here ``` 或者直接在 `config.yaml` 中设置: ```yaml api_key: "your-api-key-here" ``` ### 3. 运行程序 **交互模式:** ```bash python main.py ``` **命令模式:** ```bash python main.py "打开百度并搜索 Python 教程" ``` **无头模式:** ```bash python main.py --headless "打开 https://www.google.com" ``` ## 💬 使用示例 ``` 👤 你: 打开 https://www.baidu.com 🤖 AI: [执行导航到百度] ⚡ 执行: goto https://www.baidu.com 👤 你: 在搜索框输入 Python 教程 🤖 AI: [执行输入并搜索] ⚡ 执行: type #kw Python 教程 ⚡ 执行: click #su 👤 你: 向下滚动页面 🤖 AI: [执行滚动] ⚡ 执行: scroll down 500 👤 你: 截取当前页面 🤖 AI: [执行截图] ⚡ 执行: screenshot screenshot.png ✅ 成功: 截图已保存到 screenshot.png ``` ## 📖 命令说明 | 命令 | 说明 | |------|------| | 打开 \ | 导航到指定 URL | | 点击 \<元素\> | 点击页面元素 | | 输入 \<文本\> | 在输入框输入文本 | | 滚动 \<方向\> | 滚动页面 (up/down/top/bottom) | | 截图 | 截取当前页面 | | 提取 \<选择器\> | 提取元素内容 | | help | 显示帮助 | | exit/quit | 退出程序 | ## 🛠️ 配置文件 编辑 `config.yaml` 自定义配置: ```yaml api_key: "" # API Key api_base: "https://api.openai.com/v1" # API 地址 model: "gpt-4" # 使用的模型 headless: false # 无头模式 browser_type: "chromium" # 浏览器类型 timeout: 30000 # 超时时间(毫秒) ``` ## 🔧 支持的 AI API - OpenAI GPT-4 / GPT-3.5 - Azure OpenAI Service - 任何兼容 OpenAI API 的服务 修改 `config.yaml` 中的 `api_base` 即可切换: ```yaml # OpenAI api_base: "https://api.openai.com/v1" # Azure OpenAI api_base: "https://your-resource.openai.azure.com/openai/deployments/your-deployment" # 其他兼容 API api_base: "https://your-api-endpoint/v1" ``` ## 📁 项目结构 ``` ai_browser/ ├── main.py # 主程序入口 ├── ai_client.py # AI API 客户端 ├── browser_controller.py # 浏览器控制器 ├── command_parser.py # 命令解析器 ├── console_ui.py # 控制台 UI ├── config.yaml # 配置文件 ├── requirements.txt # Python 依赖 └── .env.example # 环境变量示例 ``` ## ⚠️ 注意事项 1. 请确保已安装 Playwright 浏览器驱动 2. 首次运行可能需要下载浏览器 3. 使用无头模式时无法截图(全页面) 4. 建议使用 GPT-4 以获得更好的页面理解能力 ## 📄 许可证 MIT License