📚

本地文档 (PDF/Word)

上传 PDF / Word / Markdown / TXT 让 AI 直接读, 个人夫妻店"知识库"

难度: easy见效: 3min更新: 2026-05-16
✅ 适合
  • · 跨境 B2B 卖家 (月签 ≥ 2 份英文合同)
  • · 工厂老板 (有 SOP / 培训手册 Word)
  • · 跨境客服 (维护多语言 Markdown 模板)
  • · 任何需要 AI 反复读同一份文档的人
❌ 不适合
  • · 一次性问问 (用首页对话框加号更快, 问完即丢)
  • · 文档巨大 (>5MB) 或扫描版 PDF (无 OCR)

这是什么

sheets-local 对称, 但针对非结构化文档:

  • PDF — 合同 / 产品说明书 / 行业报告
  • Word (.docx) — SOP / 培训手册 / 退货政策
  • Markdown / TXT — 客服模板 / FAQ / 笔记
  • 也支持 Excel/CSV (跟 sheets-local 重复, 推荐用 sheets-local 更精细)

上传后 AI 在对话中自动调工具读, 引用具体原文段落.

W12 新功能, 已在真测中 6.6 秒完成 "列文件 → 读全文 → 引用 SKU" 完整链路.

5 步上手

1. 进上传页

侧栏 "我的数据" → 找 📚 本地文档 (PDF/Word) → 点进, 或直接打开 /dashboard/integrations/connect/files-local.

2. 上传文档

"选择文件" → 选 .pdf / .docx / .md / .txt (≤5MB).

Server 端自动用 pdf-parse / mammoth 等工具抽出纯文本入库.

3. 激活 MCP 连接

第一次上传后点 "一键激活 MCP 连接".

4. 回工作台提问

例如:

  • "我刚传的合同有什么风险条款?"
  • "把我们的退货 SOP 改成英文给海外客户看"
  • "在所有 SOP 里搜 '尺码不对怎么办'"
  • "把这份产品说明书的核心卖点提炼 5 条"

5. AI 调 4 个工具

  • list_files 看你都传了什么
  • search_files({query}) 跨所有文档搜关键词
  • read_file({fileId}) 读全文 (默认前 8000 字符)
  • read_section({fileId, charFrom, charTo}) 读指定片段

完整链路 < 10 秒.

真实例子

Case 07 王姐的合同包 (ROI 32x)

跨境女装 B2B 老板, 月签 3-5 份英文合同. 接入 files-local 后:

  • 单份合同审查 4-6 小时 → 25 分钟 (↓93%)
  • 律师费用一年省 ¥12,800
  • 避免合同雷损失估算 ¥60,000/年
  • 净 ROI ¥75,212/年

Case 09 张厂长 SOP (ROI 4.7x)

浙江女装小厂, 18 工人, 上传 8 份 SOP Word/PDF 作"机器人师傅":

  • 新员工头周问厂长问题数 30+ → 5 (↓83%)
  • 厂长培训时间 8h/周 → 1.5h/周 (↓81%)
  • 净 ROI ¥88,672/年

Case 10 Lucy 客服模板 (ROI 51x ⭐)

自由职业 7 国语言客服, 维护 13 份 Markdown 模板:

  • 单条邮件回复 8 分钟 → 30-45 秒 (↓92%)
  • 多接 2 个新客户, 月入 +¥10,000
  • 净 ROI ¥121,112/年

完整故事见 business/w12_growth/02_case_studies_v2/.

AI 能调的 4 个工具

工具描述用法举例
list_files()列我所有上传的文档"我都传了什么 PDF"
read_file({fileId, maxChars?})读全文 (默认 8000 chars, 上限 50,000)"把这份合同读出来"
search_files({query, maxResults?})跨所有文档全文搜 keyword"在 SOP 里搜 '尺码偏差'"
read_section({fileId, charFrom, charTo})按字符位置读片段 (省 token)"继续读第 8000-16000 字符"

限制

  • 单文件 ≤ 5 MB
  • 抽出文本超 50K 字符自动截断 (约 100 页 PDF)
  • 每用户最多 20 个文档, 30 天自动清理
  • 不支持扫描 PDF (无 OCR) — 必须是有文字层的 PDF
  • 不支持图片 / 表格图 / 复杂排版

FAQ

Q: PDF 抽不出来文字怎么办? A: 大概率是扫描版 (图片型 PDF). 用工具如 ABBYY FineReader / Adobe Acrobat 先 OCR, 再上传.

Q: Word 文档里的图片 / 表格能读吗? A: 文字部分能读, 图片会被忽略, 表格转 markdown 格式保留结构.

Q: 30 天到期了我反复用的文档怎么办? A: 上传时点击右上角"延长 90 天" (TBD, 当前需要重传). 或者升级 elite 套餐, 可以申请延长到 1 年.

Q: 跟首页加号有什么区别? A:

  • 首页加号 = 一次性附件, 不入库, 问完即丢
  • files-local = 持久化, 入库 30 天, AI 反复读

Q: 用了多少 token? A: 典型 "搜文档 + 读片段" 一次 1500-3000 token. 完整读 30 页 PDF (~8K 字符) 约 4000 token.

隐私 / 安全

  • 抽出的文本加密存 Postgres (AES-256-GCM)
  • 仅你账号能读, 30 天过期自动删
  • LLM 调用走 zero-retention 模式
  • 不卖, 不训练
  • 合同涉及客户隐私可先脱敏再上传 (例: 把公司名替换成 X 公司)

跟其他文档工具的区别

files-local首页加号 (一次性)Google Drive MCP
持久化30 天不入库实时同步
适合反复读的文档一次性问已有 Drive 体系
需要凭证OAuth 麻烦
文件大小≤5MB≤5MBDrive 上限
国内可用❌ 翻墙

推荐: 反复用的文档(SOP/合同/产品手册)用 files-local; 临时问一次用首页加号.

下一步

真实用户案例
Case 07 王姐合同包 / Case 09 张厂长 SOP / Case 10 Lucy 客服模板
这份文档对你有用吗?