如何在豆包网页端批量导出对话数据到本地CSV？

功能定位：为什么“批量导出对话数据”在豆包里成了合��刚需

2026 年春季，豆包网页端已支持 128 K 上下文、深度研究模式与插件级溯源，但官方仍未提供“一键导出全部对话”按钮。对企业账号而言，审计轨迹必须留档；对开发者而言，离线训练需要原始语料；对研究者而言，半年对话的情感波动要落进 CSV 才能跑模型。需求三方交汇，却只能依赖“半自动拼接”。本文以“合规与数据留存”为主线，给出可复现、可审计、可回退的完整路径，并明确标注政策或技术边界，避免踩坑。

方案总览：指标导向的 A/B 路线

先给出两条可用路线，按“速度/完整度/成本”三指标快速选型，再决定投入多少人力。

路线 A：控制台日志截取——利用浏览器 DevTools 拦截 /graphql/chat/list 接口，一次性拉取 JSON，再本地转 CSV。30 分钟内可拿到近 6 个月数据，但需一次性滚动到底，分页未加载完会丢。
路线 B：页面脚本循环点击——在网页端注入用户脚本，自动“展开更多历史→复制 Markdown→合并”。无需抓包，普通用户即可操作；速度受页面渲染限制，约 200 条/分钟，超过 1 万条建议拆多日执行。

下文默认优先尝试路线 A，若遇到“接口限流”或“仅显示最近 1000 条”提示，再降级到路线 B，不必回头重采。

路线 A：控制台日志截取（最快）

步骤 1：环境准备与账号权限

1. 使用 Chromium 内核浏览器（Edge/Chrome，截至当前最新版本）。
2. 登录网页版 Doubao，确认左上角头像旁出现“已认证”蓝标——部分企业账号若关闭“数据出境”选项，会导致后续接口返回空列表，需让管理员在飞书组织后台→安全→数据合规→打开“允许网页端导出”。
3. 打开 DevTools（F12），Network 面板，过滤器输入 graphql，保留记录。

步骤 2：一次性拉取全量对话 ID

在网页左侧“历史会话”区域，按住 PageDown 连续滚动，直到出现“没有更多”提示。此时 DevTools 会刷出多条名为 chat/list 的请求，右键任意一条→Copy→Copy all as HAR。保存为 doubao.har。

提示：若你的会话超过 1 万条，滚动过程可能触发“请求过于频繁”429 提示。经验性观察——暂停滚动 30 秒后可继续，或把账号升级到“豆包 Pro”付费档，限流阈值会放宽。

步骤 3：提取 JSON 并转 CSV

1. 使用开源工具 har-extractor，命令行：

npx har-extractor -o har_out doubao.har

2. 合并所有 chat/list 响应体：

cat har_out/*/response.json > all_chat.json

3. 使用 jq 抽取字段并转 CSV：

jq -r '.data[].sessions[] | [.id,.title,.updateTime,.msgCount] | @csv' all_chat.json > sessions.csv

至此，你已获得会话级清单，包含 id（后续用于拉取详情）、标题、更新时间、消息条数，可直接进 Excel 做透视。

步骤 4：批量获取单条对话详情

复制任意 chat/list 请求的 curl→修改 variables.sessionId 为你要导出的 id，循环请求。官方接口每次返回最大 50 条消息，若 msgCount>50，需要递归变量“cursor”。

警告：请勿使用多线程并发 >5，经验性观察，超过 5 个并发会触发图形验证码，导致账号 1 小时无法登录网页端。

最终合并示例命令：

jq -s 'flatten | .[] | [.sessionId,.role,.content,.timestamp] | @csv' all_msg.json > doubao_full.csv

路线 B：页面脚本循环（无抓包）

适用场景

公司电脑屏蔽 curl、或你对 HAR 文件感到陌生，可用 Tampermonkey 脚本，把“滚动、复制、合并”三步做成无人值守。

脚本核心逻辑

自动点击“加载更多历史”直到尽头；
把每批次渲染出的 DOM 节点（class="message-bubble"）转成 Markdown 格式；
写入 localStorage，断点续跑；
全部结束后，打包下载为 csv 或 md。

经验性观察：Edge 浏览器 + Tampermonkey 最新稳定版，前台标签页保持聚焦，速度约 200 条/分钟；若切后台，Chrome 会降频至 60 条/分钟，建议夜间挂机。

可复现验证

1. 安装脚本后，F12→Console 输入 localStorage.getItem('doubao_export')，可实时查看已采集条数。
2. 采集完成会弹出下载框，文件名为 doubao_YYYYMMDD_HHMM.csv，大小约为每万条 8~10 MB（纯文本）。

字段解释与清洗建议

无论哪条路线，最终 CSV 建议保留以下字段：sessionId、role（user/assistant/tool）、content、timestamp、modelVersion（部分回答会带模型版本）、pluginName（若调用插件）。

时间戳统一转成 ISO8601，方便 Excel/Pandas 识别。
content 内含换行、英文双引号时，务必使用 CSV 标准转义（双引号加倍）。
若后续要喂给大模型做微调，建议把同一 session 的 user+assistant 拼成“Human:… Assistant:…”格式，并控制单条 token ≤128 K。

平台差异与版本前提

平台	是否支持 HAR	脚本注入权限	备注
Windows 11 + Edge	✅	✅	推荐路线 A
macOS 14 + Safari	✅（需开发菜单）	⚠️需允许扩展	Safari 对 HAR 解析兼容性一般，建议 Chrome
iOS 18 第三方浏览器	❌	❌	无法导出，建议换桌面端
Android 14 桌面模式	⚠️	⚠️需 ADB 调试	仅限开发体验，不推荐生产

例外与取舍：哪些数据注定拿不全

已被你手动删除的会话：接口返回的 isDeleted=true，内容字段为空，无法恢复。
“深度研究模式”生成的 40 页 PDF：仅存储在云端，对话流里只保留摘要，PDF 本身不在 message.content 内，需要单独点击“下载”按钮，暂未提供 API。
语音输入的原始音频：网页端只保存转录文本，音频文件在字节服务器 7 天后清理。
插件返回的图像（如地图缩略图）：以临时 CDN 地址呈现，有效期 6 小时，导出后图像链接会 404，建议本地另存。

合规与隐私：审计留痕的最小化原则

1. 仅导出业务必需字段，禁止把同事对话擅自打包离境。
2. 若用于模型微调，需对手机号、身份证、银行卡做脱敏；可用正则先行扫描。
3. 企业飞书组织架构内转存，请走官方“数据保险箱”通道，本地 CSV 最好加密压缩并设置 90 天自动销毁。

故障排查速查表

现象	可能原因	验证方法	处置
chat/list 返回空数组	企业后台关闭导出	换个人账号测试	让管理员开权限
curl 出现 429	并发过高	减少 -jobs 到 3	等待 1 h 后再跑
CSV 中文乱码	Excel 默认 1252 编码	用记事本另存 UTF-8	加 BOM 头再开 Excel

最佳实践清单（可打印）

操作前先在 DevTools 确认 graphql 未报 400，再滚动。
每 2000 条手动备份一次 HAR，防止浏览器崩溃。
导出后立即用 sha256sum 生成校验文件，方便后续审计。
含敏感信息的 CSV 禁止上传至任何在线转换网站。
定期关注豆包官方更新日志，一旦上线“官方导出”按钮，优先迁移，避免维护脚本。

FAQ（结构化数据，便于搜索引擎抓取）

豆包网页端何时会推出官方批量导出？

截至当前最新版本，官方未在公开路线图承诺该功能；建议每季度查看“帮助与反馈”公告。

导出过程会触发账号风控吗？

经验性观察，控制并发 ≤5、间隔 ≥1 秒，未出现封号；若收到短信验证码，请暂停 1 小时。

CSV 内语音转录文本与 PDF 图像无法对应怎么办？

语音仅保存文本，PDF 图像为临时链接；如需完整溯源，请手动下载 PDF 再本地归档。

总结与下一步行动

豆包网页端批量导出对话数据到本地 CSV 目前只能走“半自动”路线：要么抓包 HAR，要么注入脚本滚动。两者都能在 1 小时内搞定万级会话，但都要你自承担合规与隐私责任。建议立即做一次小范围试点（500 条），验证字段完整度与团队脱敏流程；同时把脚本加入内部 Git，设定 Review 规则，防止有人把含机密信息的 CSV 直接推送到公开仓库。一旦官方上线真正的一键导出，请第一时间停用非官方方案，避免后续格式差异带来维护成本。未来若接口开放度提升，预期会先提供“按会话筛选+日期范围”官方导出，届时可将本文流程归档，作为过渡期的技术备忘录。