我最近在尝试做一个“网页 LLM 代理”的 side project ,纯技术练习。
流程:
- server 暴露一个 POST /chat
- 后端用 Puppeteer 维护一个常驻浏览器,会登录豆包的网页端
- 把 API 传来的 prompt 输入到网页的聊天框
- 监听页面返回的流式输出(类似 SSE/WS )
- 再把 token 实时写回 API response
基本上就是用浏览器网页的 LLM 模型,封装成一个自己的 HTTP 接口。
我遇到的问题:
- 风控问题:登录同一个账号,多次请求,还是 Puppeteer ,有封号风险?
- 页面回复通常是流式的:大家一般怎么稳定 hook ? WebSocket ?还是直接监听 DOM ?
- Puppeteer 长时间保持登录态,有什么 best practice ?
- 是否需要做队列避免并发导致页面状态错乱?
有没有做过 RPA / web automation 的朋友给点经验?
只是玩具项目,不商用。
