段落级重复检测 + 文档元数据取证。检测 docx/doc 文件中重复段落,提取作者/编辑人/创建日期等元数据,生成含摘要页的查重报告。
逐段比对文档内重复内容,基于语义相似度算法,支持自定义相似度阈值。
自动提取作者、编辑人、创建日期、修改日期、版本号等文档属性信息。
含摘要页的完整查重报告,清晰展示重复段落位置、相似度和原文对照。
同时支持 .docx 和 .doc 格式文档,自动识别并选择最优解析策略。
深度分析文档编辑历史,识别所有编辑人员及其修改时间线。
总体重复率、各章节重复率分布、重复类型分类汇总等多维度统计。
段落提取
文本清洗
结构索引构建
段落指纹生成
语义相似度比对
重复对识别
文档属性读取
编辑人解析
时间线重建
重复段落列表
摘要统计页
可视化对比
| # | 指标 | 说明 |
|---|---|---|
| 01 | 总体重复率 | 存在重复的段落数 / 总段落数,反映文档整体重复程度 |
| 02 | 高度重复段落 | 相似度 ≥ 90% 的段落对,几乎完全相同的内容 |
| 03 | 中度重复段落 | 相似度 70%-90% 的段落对,可能为模板化改写 |
| 04 | 跨章重复分布 | 各章节内重复率和跨章节重复分布热力图 |
| 05 | 重复类型分类 | 完全照搬/微调改写/结构重复等分类统计 |
| 06 | 编辑人信息 | 作者/最后编辑人/创建时间/修改历史等完整元数据 |
| 场景 | 建议 |
|---|---|
| 标书自检 | 送审前对技术标做一次全面查重,避免因重复雷同导致废标 |
| 多人协作文档 | 检测不同章节之间是否存在模板化重复粘贴 |
| 文档来源追溯 | 通过编辑人信息了解文档编辑历史和主要贡献者 |
| 多文档对比 | 同时加载多个文档,检测跨文档的重复内容 |
| 阈值调节 | 根据审查严格程度调整相似度阈值(默认 80%) |
| 配合审查使用 | 查重结果可输入 boo-bid-review 作为审查参考维度 |
在 Claude Code 中输入 /boo-check-review 或直接说「检查这个文档有没有重复」。
支持 .docx 和 .doc 双格式。