第 45 课：DOCX 高级排版与自动化

🎯 核心实操目标

本课目标：把 Word 从"手动调格式的画图工具"升级为"样式系统驱动的文档引擎"。你将掌握 Word 样式体系、自动目录、交叉引用三大核心机制，理解它们"改一处、全文同步"的原理；学会用 python-docx + AI 协作实现批量格式修改，用几行脚本替代几十次手动格式刷；并了解 OS 级助手这一面向非技术用户的替代路径。

本课位于技术进阶轨的"文档工程"一段：上承纯文本与版本控制的工具链理念，把同一套"集中定义、可复现、自动化"的思路落到 DOCX 排版上。需要先记住贯穿全课的一条底线：自动化只允许作用于版式（样式、字号、编号、格式转换），绝不允许动到正文里的图表、数据与结论——这条在本课【学术红线】里会专门展开。

📋 课前准备（5 分钟自检）

工具/环境

[ ] Microsoft Word 2019+ 或 WPS Office（需含完整样式面板与目录功能）
[ ] Python 3.10+ + pip install python-docx（自动化部分用）
[ ] VS Code（编辑 Python 脚本，可选 Jupyter 也行）

数据/素材

[ ] 自己之前的任意一份学术 DOCX 草稿（用于练习样式重构）
[ ] 目标投稿期刊的 DOCX 模板（用于对比格式要求）

配置验证

bash

python -c "from docx import Document; print('docx OK')"
# 应输出: docx OK

应急通道

Mac 用户 Word 样式面板较隐蔽 → 用"格式"菜单 → 样式
WPS 用户 → 样式功能在"开始"标签的"样式"区，与 Word 一致
python-docx 安装失败 → 试 pip install --upgrade pip 后重试，或用 python3 -m pip install python-docx

场景导入：手动格式刷为什么会陷入重复劳动

答辩前一晚，导师通知你：学校最新排版规格变了，所有小标题不能再用"加粗的蓝色"，必须全部改成"宋体、斜体、四号"。如果手动改，你需要逐个标题拖动鼠标点格式刷，几十个标题点几十次，期间极易漏改或改错。改完一遍，导师又说"是小四号不是四号"——前面的几十次操作全部作废，得从头再来一遍。

这种"改一处规格、全文逐段重做"的循环，根源不在工作量大，而在格式信息的存放方式错了。手动逐段设置时，每一段的字号、字体、颜色都是就地写死、彼此独立的副本：文档里没有任何一个地方"知道"这些段落同属一类，于是规格一变，只能一段一段去找、去改。

DOCX 高级排版要解决的正是这件事，其精髓只有一句话：把所有格式定义集中在"样式（style）"里，正文段落只标注"我属于哪个样式"，不再各自携带格式。 这样一来，改样式定义一次 = 引用该样式的全文段落一键同步更新。本课先讲清这套样式系统的原理与手动建模板的方法（实战 A），再进阶到用 python-docx 脚本批量处理样式无法覆盖的"跨文档、按条件"的清洗任务（实战 B/C），最后给出面向非技术用户的工具替代方案。

🗺️ 架构重组：样式系统驱动的文档

原理：样式系统与脚本自动化各自解决什么问题

动手之前，先弄清两件事：为什么"样式"能把全文格式收成一个开关，以及当样式也搞不定时，脚本自动化补上了哪一块。理解了这两层，你就不会再把 Word 当画图工具用。

第一层：样式（style）把"格式"从"内容"里分离出来。 一份 DOCX 文档在底层是一棵 XML 树（解压一个 .docx 文件，里面 word/document.xml 就是正文、word/styles.xml 就是样式表）。每个段落有两种获得格式的途径：一是段落样式——只记一个样式名（如 Heading 2），具体字号字体存在样式表里；二是直接格式（direct formatting）——把字号字体就地写死在这一段上。手动用格式刷，本质是在到处写直接格式：N 个标题就是 N 份互相独立的格式副本，没有任何"共同来源"。改用样式后，N 个标题共享同一个定义，改定义即改全体。这就是"改样式一次 = 全文同步"的全部原理——不是 Word 有什么魔法，而是格式信息从"分散 N 份副本"变成了"集中 1 份定义 + N 个引用"。这也解释了一个常见困惑：明明改了样式，某些段落却没变——因为那些段落被人手动加过直接格式，而直接格式的优先级高于样式，会盖住样式的设定（排查办法见实战 A 的"清除直接格式"）。

第二层：自动目录与交叉引用，是样式分离后才可能的"联动"。 自动目录（table of contents）之所以能自动生成，正是因为它靠样式识别标题——Word 扫描全文，把标注了 Heading 1/2/3 的段落收集起来生成目录项。如果标题是手动调大字号假装出来的（没用标题样式），自动目录根本认不出它。交叉引用（cross-reference）同理：它指向的是 Word 内部维护的"图表编号域（field）"，而非你手打的"图 3"这三个字；编号一变，所有引用域 F9 刷新即同步。域（field）是这里的关键机制——目录、编号、引用都不是静态文本，而是一段"按规则实时计算"的动态内容，这正是它们能联动的根本。

第三层：脚本自动化，补上样式覆盖不到的"跨文档、按条件"操作。 样式很强，但它的作用域是"一份打开的文档、统一改一个样式的定义"。有三类任务样式天然做不了，必须靠脚本（python-docx）：①批量跨文档——把 50 份学生作业统一套同一规格，不可能手动逐份开；②按条件差异化——"凡是斜体段落里的英文期刊名改成非斜体""仅删除空段落"这类带判断的操作，样式面板没有"条件"概念；③可复现、可留痕——脚本是纯文本，能进 Git、能被审阅、能一字不差地重跑，而"我当时手动点了哪些"无法复现。一句话：样式负责"一份文档内的格式归一"，脚本负责"跨文档、带条件、可复现的批处理"，二者互补，不是替代关系。

为什么科研场景特别需要这套机制。 学术写作的格式要求高频变动（换期刊、改模板、导师临时调规格），且同一规格要施加到大量重复结构（几十个小标题、上百条参考文献）。手动维护的成本随文档长度线性增长，而样式 + 脚本把它压成常数级——改一次定义、跑一次脚本即可。更重要的是可复现性（reproducibility）：审稿返修往往隔数周乃至数月，脚本让"上次到底怎么排的"有据可查、可一键重放，这与本模块 Git、纯文本工具链一以贯之的理念是同一条。

📘 关键术语（首次出现，先对齐定义）

样式（style）：DOCX 中一组具名的、可复用的格式定义（字体、字号、行距、缩进、对齐等），存放在文档的样式表里。段落只需引用样式名即可获得其全部格式；改样式定义，所有引用它的段落同步更新。分段落样式（paragraph style）（作用于整段，如 Heading 1、Normal）与字符样式（character style）（作用于选中文字，如 Emphasis）。
直接格式（direct formatting）：不经样式、直接施加在某段或某些文字上的格式（如选中后手动改字号）。其优先级高于样式，会覆盖样式设定，是"改了样式却不生效"的常见原因；清除直接格式可让段落回归样式定义。
域（field）：Word 中一段按规则实时计算、而非静态键入的动态内容，如自动目录、图表自动编号、交叉引用、页码。按 Ctrl+A 全选后按 F9 可刷新全文域。
自动目录（table of contents, TOC）：靠识别标题样式（Heading 1/2/3）自动收集生成的目录域；只有用标题样式标注的标题才会被收录，手动调大字号的"假标题"不会。
交叉引用（cross-reference）：正文中指向某图、表、标题、公式编号的引用域，如"如图 3 所示"。它绑定的是 Word 内部编号而非手打数字，编号变动后刷新即同步。
python-docx：用于读写 .docx 文件的 Python 库（pip install python-docx，导入名为 docx）。可遍历段落与表格、读写样式与字体、增删内容，适合跨文档、按条件的批量格式处理。注意它只支持 .docx（Office Open XML），不支持旧版 .doc、.dotx 需另存，且不渲染文档（不"打开 Word"）。
批处理（batch processing）：用一段脚本对大量文件或大量元素施加同一套操作（如给 50 份文档统一改样式），相对手动逐个处理，胜在快速、一致、可复现、可留痕。
可复现性（reproducibility）：同样的输入经同样的步骤能得到同样的结果。脚本是纯文本、可重跑、可进版本库，因而比"手动操作记忆"更可复现——这是科研工作流偏好脚本化的核心理由。

🚀 拆解实战 A：建立学术 Word 模板（手动操作 + 必学）

三步定型样式体系

Step 1：设定四个核心样式（在 Home → Styles 面板右键修改）

样式名	设置
标题 1（Heading 1）	三号宋体加粗，居中，段前 24pt 段后 12pt
标题 2（Heading 2）	小三宋体加粗，左对齐，段前 18pt 段后 6pt
标题 3（Heading 3）	四号宋体加粗，左对齐，段前 12pt 段后 6pt
正文（Normal）	小四宋体（西文 Times New Roman），首行缩进 2 字符，行距 1.5

Step 2：插入自动目录（References → Table of Contents → Automatic Table 1）

内容改动后右键目录 → Update Field → Update entire table
全文按 Ctrl+A → F9 可一键刷新所有域

Step 3：图表交叉引用（References → Cross-reference）

选中文中需引用图表的位置 → 选"Figure"或"Table" → 选具体编号
改图表编号后所有引用自动更新

⚠️ 关键意识

所有手动设置的格式都是债务。用样式 + 自动编号 + 交叉引用建立的，才是可维护的学术文档。

🔧 排查：改了样式，部分段落却"纹丝不动"

最常见的现象是修改了 Heading 2 的定义，全文大多数二级标题都变了，唯独某几个没变。原因几乎都是那几段被手动加过直接格式（见上文术语）——直接格式优先级高于样式，把样式的设定盖住了。处理办法：选中"不听话"的段落，按 Ctrl + Q（清除段落格式，回到段落样式定义）或 Ctrl + Space（清除字符格式，回到字符样式定义），让它回归样式；再统一通过样式去调。养成"格式只改样式、正文不留直接格式"的习惯，这个坑就基本绝迹。

🚀 拆解实战 B：python-docx 自动化（进阶轨必备）

样式解决"一份文档内统一改一个规格"，但前文原理第三层提到的三类任务——跨文档批量、按条件差异化、可复现留痕——样式做不到，得交给脚本。下面这条提示词里的四项要求（差异化处理 H2/H3、按条件改斜体期刊名、批量改正文段落格式）正是典型例子：它们都带"判断"（按样式名分流、只动斜体段落），且要保证不碰图表数据。与其自己从头写，不如把规格清楚地交给 AI，让它生成 python-docx 脚本，你来审阅与核对。

让 AI 帮你写批量格式修改脚本

全自动 Word 格式刷 Prompt (一键复制)

markdown

【Role】你是一位精通 python-docx 库的后端自动化工程师。

【Task】我有一份 paper.docx 学术论文文件。现在期刊要求:
1. 所有"标题 2"(Heading 2)的字体改为:中文宋体、英文 Times New Roman、字号小三、加粗、左对齐
2. 所有"标题 3"改为:中文楷体、英文 Times New Roman、字号四号、不加粗、左对齐
3. 所有正文段落首行缩进 2 字符,行距 1.5 倍
4. 所有引用文献中的英文期刊名(在斜体段落中)统一改为非斜体

【请输出】完整可运行的 Python 脚本,要求:
1. 顶部注明 pip install python-docx 安装指令
2. 每段代码加详细中文注释
3. 处理完输出为 paper_clean.docx,不覆盖原文件
4. 包含异常处理(如样式名找不到时给出明确报错)
5. 严禁修改正文里的图表与数据表格内容

你应该得到的样例代码

python

# pip install python-docx
from docx import Document
from docx.shared import Pt
from docx.oxml.ns import qn

# 读取原文件(永远不要直接覆盖原文件)
doc = Document('paper.docx')

# 遍历所有段落,按样式名做差异化处理
for para in doc.paragraphs:
    if para.style.name == 'Heading 2':
        for run in para.runs:
            run.font.name = 'Times New Roman'    # 英文字体
            r = run._element.rPr.rFonts
            r.set(qn('w:eastAsia'), '宋体')       # 中文字体
            run.font.size = Pt(15)                # 小三 = 15pt
            run.font.bold = True
    elif para.style.name == 'Heading 3':
        for run in para.runs:
            run.font.name = 'Times New Roman'
            r = run._element.rPr.rFonts
            r.set(qn('w:eastAsia'), '楷体')
            run.font.size = Pt(14)                # 四号 = 14pt
            run.font.bold = False
    elif para.style.name == 'Normal':
        para.paragraph_format.first_line_indent = Pt(24)  # 2 字符缩进
        para.paragraph_format.line_spacing = 1.5

# 输出到新文件
doc.save('paper_clean.docx')
print('✅ 完成! 输出: paper_clean.docx')

⚠️ 自动化的安全红线

永远在副本上操作：保留 paper.docx 原文件不动，输出到 paper_clean.docx
跑前先小样本验证：把 5 页测试文档跑通后再上完整文档
改动后必 diff：用 Word 自带的"比较文档"功能（Review → Compare）对照前后差异
样式名不一致是最大坑：英文 Word 是 Heading 2，中文版可能是 标题 2，先用 [s.name for s in doc.styles] 看看

报错与排查：脚本跑不通时按这张表对号入座

脚本首次运行很少一次通过，大多卡在下面几类。先看报错信息定位到行，再对照处理——这是把"AI 给的代码"变成"真能跑的代码"的关键一步：

报错 / 现象	根因	处理
`PackageNotFoundError` 或打开失败	路径错、文件名拼错，或文件其实是旧版 `.doc`	确认工作目录与文件名；`.doc` 先在 Word 里"另存为 .docx"，python-docx 不读 `.doc`
改了样式/字体但部分段落没生效	目标段落没有 run，或样式名对不上（中英文版差异）	先 `print([s.name for s in doc.styles])` 核对样式名；空 run 段落需先确保有文字
`AttributeError: 'NoneType' object has no attribute 'rFonts'`	该 run 还没有 `rPr` 节点（`run._element.rPr` 为 `None`），直接取 `.rFonts` 就崩	用安全写法：`rpr = run._element.get_or_add_rPr()` 再 `rpr.get_or_add_rFonts().set(qn('w:eastAsia'), '宋体')`；样例代码因先设了 `run.font.name` 顺带建好了 `rPr`，故能跑通，但换顺序就会触发此错——务必理解这点
中文字体设了却不显示宋体/楷体，仍是默认	只设了 `run.font.name`（西文名），没设东亚字体 `w:eastAsia`	中文字体必须走 `qn('w:eastAsia')` 这一支（见样例代码），西文名管不到中文字形
`PermissionError` 保存失败	输出文件正被 Word 打开占用	关闭 Word 里打开的 `paper_clean.docx` 再运行
改完段落首行缩进/行距没动	改了 run 的 font 却没改 `paragraph_format`	缩进、行距、对齐属段落级属性，走 `para.paragraph_format.*`，不是 run 的属性

🔧 把报错回贴给 AI 时，连"上下文"一起给

向 AI 求助修 bug，别只发一行红字。把完整 traceback + 出错那段代码 + 你的 Word 版本（中/英文）一起给，它才能精准定位。尤其 rPr 为 None 这类错，AI 看到 traceback 行号就能直接换成 get_or_add_rPr() 的安全写法。这正是本模块"报错驱动调试"的通用做法。

🚀 拆解实战 C：常见批量任务速查

任务	python-docx 实现
批量替换文本	`para.text = para.text.replace('旧', '新')`
批量加图注	`doc.add_paragraph(f'图 {i}: 说明', style='Caption')`
删除空段落	`if not para.text.strip(): para._element.getparent().remove(para._element)`
给段落加底纹	较复杂，让 AI 写 XML 操作
批量改表格样式	`for row in table.rows: for cell in row.cells: ...`

🚀 拆解实战 D：第二个 Worked Example——扫描样式名 + 安全设字体（可复用骨架）

实战 B 的脚本有两处一旦换环境就翻车的"暗礁"，恰好对应本课交付物里"样式名速查文档"这一项。把它单独拎成一个可复用骨架，是你做任何 DOCX 批处理前都该先跑的第一步。

暗礁一：样式名因 Word 语言版本而异。 英文版是 Heading 2，简体中文版常是 标题 2，脚本里硬编码哪个都可能匹配不上。正确做法是先扫一遍当前文档真正用到的样式名，再据此写条件。这段脚本即交付物要求的"样式名速查"：

python

# pip install python-docx
from docx import Document

doc = Document('paper.docx')

# 统计正文段落实际用到的样式名及其段落数
used = {}
for para in doc.paragraphs:
    name = para.style.name
    used[name] = used.get(name, 0) + 1

print('=== 正文段落用到的样式（名称: 段落数）===')
for name, cnt in sorted(used.items(), key=lambda x: -x[1]):
    print(f'  {name}: {cnt}')

print(f'\n文档共定义样式 {len(doc.styles)} 个；上面仅列出"正文里真用到"的。')
# 把这份清单存进个人工具箱，下次写脚本前先核对样式名

暗礁二：直接取 run._element.rPr.rFonts 会在 rPr 为 None 时崩。 实战 B 的样例代码因为先执行了 run.font.name=...（顺带建好了 rPr）才取 .rFonts，所以能跑通；但只要顺序一变、或某个 run 还没有任何字体属性，就会抛 AttributeError。把"设中西文字体"封装成一个对 rPr 为 None 也安全的函数，是更稳的写法（用 get_or_add_rPr() / get_or_add_rFonts()，没有就新建）：

python

# pip install python-docx
from docx import Document
from docx.shared import Pt
from docx.oxml.ns import qn

def set_font(run, cjk='宋体', latin='Times New Roman', size_pt=None, bold=None):
    """安全地为一个 run 设置中西文字体；rPr 不存在时自动创建，不会报错。"""
    run.font.name = latin                                   # 西文字体
    rpr = run._element.get_or_add_rPr()                     # 没有就新建 rPr，避免 None
    rpr.get_or_add_rFonts().set(qn('w:eastAsia'), cjk)      # 中文(东亚)字体
    if size_pt is not None:
        run.font.size = Pt(size_pt)
    if bold is not None:
        run.font.bold = bold

doc = Document('paper.docx')

# 用扫描得到的真实样式名做条件（按需把 'Heading 2' 换成 '标题 2'）
for para in doc.paragraphs:
    if para.style.name in ('Heading 2', '标题 2'):          # 中英文版都兼容
        for run in para.runs:
            set_font(run, cjk='宋体', size_pt=15, bold=True)  # 小三 = 15pt
    elif para.style.name in ('Heading 3', '标题 3'):
        for run in para.runs:
            set_font(run, cjk='楷体', size_pt=14, bold=False) # 四号 = 14pt

doc.save('paper_clean.docx')
print('✅ 完成! 输出: paper_clean.docx')

📐 这两段相比实战 B 强在哪（Worked Example 拆解）

维度	实战 B 样例（够用）	实战 D 骨架（更稳）
样式名	硬编码 `Heading 2`，换中文版即失配	先扫描再用 `in ('Heading 2','标题 2')` 双兼容
rPr 为 None	靠"先设 font.name"侥幸建好 rPr，换顺序就崩	`get_or_add_rPr()` 显式兜底，任何顺序都安全
复用性	设字体逻辑散在循环里，复制即重复	抽成 `set_font()` 函数，多处调用一处维护
可迁移	绑定本例四项要求	扫描 + 安全设字体是一切 DOCX 批处理的通用第一步

迁移要点：换任何 DOCX 批处理任务，先跑样式扫描确认名称、再用安全函数改格式这两步骨架不变，变的只是"改哪些样式、设什么字体"。

不写代码的替代路径：OS 级文档助手（以 Marvis 为例）

python-docx 是进阶轨的标配，但它要求你会写、会读、会调 Python。对于暂时不写代码的研究者，文档处理还有另一条路：交给一个能直接理解本地文件的操作系统级 AI 助手。本课以腾讯应用宝团队推出的 Marvis（马维斯，marvis.qq.com） 为例介绍这类工具——它在模块一已作为"OS 级桌面助手"出场，这里聚焦它在文档处理上的定位。

📦 Marvis 是什么、能帮上文档处理的哪一段

定位：操作系统级 AI 助手（不是网页对话框），内置多个分工 Agent（如项目管理、文件管家、系统运维、应用专员、搜索专家、网页交互），能深度理解本地文件与文档。
文档相关能力：按内容搜索本地文件与图片、文档优化与文案润色、图表生成、以及格式转换——这正好覆盖了非技术用户最常卡住的"把一堆文件整理成某种格式"的需求。
跨端互通：Windows / Mac / iOS / Android 同账号打通。
隐私 / 端侧模式：提供数据留在本地处理、可断网使用、敏感文件不上云的模式。
可及性：面向个人用户免费（官方称每人每天约 1000 万 token 额度）。

说明：以上为该工具的客观定位，具体功能与额度以官网与产品当前版本为准；本课不对其效果做夸大承诺。

它和 python-docx 是什么关系——互补，不是取代。 二者解决的是同一类需求的不同人群：

维度	python-docx 脚本（实战 B/D）	Marvis 这类 OS 级助手
适合谁	会写/读 Python 的进阶轨研究者	暂不写代码的研究者
强在哪	精确、可复现、可进 Git、批量跨文档无上限	自然语言交代需求即可，零代码门槛
弱在哪	有学习与调试成本	黑箱执行，结果需逐项核对、难以"一字不差复现"
复现性	脚本即留痕，可重跑	依赖对话过程，复现性弱
典型用法	50 份文档统一规格、带条件清洗	单份/少量文档的格式转换、润色、整理

🔒 隐私 / 端侧模式：与本课伦理底线同向

本课的安全红线之一是"敏感数据不出本地"（也呼应第 43 课 Git 不提交隐私、模块一"敏感数据先脱敏不上云"）。Marvis 提供的隐私 / 端侧模式——文件留本地处理、可断网、敏感文件不上传云端——正是这条原则的产品化体现。处理含被试个人信息、未发表数据的文档时，无论用脚本还是用这类助手，都应优先走"数据不离开本机"的路径。这也是把它放进本课的一个理由：它给非技术用户提供了一个既省事、又不必把敏感文件交给公有云的选项。

⚠️ 用工具≠免核对：黑箱执行更要逐项验

OS 级助手"自然语言一句话就办了"很省心，但它对你文档做了什么改动，你未必看得见。和 AI 写脚本一样，结果必须核对：格式转换后检查公式、图表、参考文献有没有错位或丢失；润色后逐句确认没有改动你的原意与数据。脚本至少能把"做了什么"写在代码里供审阅，黑箱工具更依赖你事后人工 diff。一句话：把它当"省力的助手"，不是"免检的代工"。

写好 vs 写砸：同一份 DOCX 排版的逐项对照

同一份学术文档，可以排得"能交但脆"，也可以排得"改一处就全文同步、经得起返修"。下表把最常见的失分点逐项并排——左列是学员高频做法，右列是把同一处"拧紧"后的做法。

维度	写砸 ❌	写好 ✅	为什么
标题格式	手动调大字号 + 加粗，假装成标题	套用 `Heading 1/2/3` 样式	假标题进不了自动目录、交叉引用认不出；样式才能联动
正文格式	每段单独设字号/缩进/行距（直接格式）	全部走 `Normal` 等段落样式	直接格式改一处要找 N 段；样式改定义即全文同步
目录	手打一行行目录文字	References → 自动目录域	手打目录改一次结构就全错；域可 `F9` 一键刷新
图表编号	正文手打"图 3"，插图后逐个改号	自动编号 + 交叉引用域	手打编号插一张图全乱；域自动顺延、引用同步
改规格	逐段格式刷，漏改即格式不统一退稿	改样式定义一次	重复劳动随文档变长线性增长，样式压成常数
批量/跨文档	50 份文档一份份手动开着改	python-docx 脚本批处理	手动跨文档不可复现、易漏；脚本快且一致可留痕
脚本安全	直接在 `paper.docx` 上改、改完就交	输出 `paper_clean.docx` + diff 核对	原文件一旦被脚本改坏不可逆；副本 + diff 是底线
中文字体	只设西文 `font.name`，中文不变	经 `w:eastAsia` 设东亚字体	西文字体名管不到中文字形，中文必须走 eastAsia

💡 一句话判据

检验一份 DOCX 排得好不好，问四件事：改一个规格是改 1 处还是改 N 处？目录和图表编号是自动域还是手打？脚本是在副本上跑且 diff 过吗？换台中文版 Word 打开样式名还对得上吗？ 四项都过，这份文档才从"能交"升级成"经得起反复返修"。

常见误区与纠正

学员做 DOCX 排版与自动化时，问题高度集中在几处，下表对号入座即可：

常见误区	症状	纠正方法
用直接格式假装标题	调大字号当标题，自动目录收不进、引用认不出	改用 `Heading 1/2/3` 标题样式，目录与交叉引用才联动
改了样式却不生效	个别段落纹丝不动	那些段落有直接格式盖住样式；Ctrl+Q / Ctrl+Space 清除后回归样式
手打目录与图表编号	结构一变全错，插图后编号错乱	用自动目录域 + 自动编号 + 交叉引用，Ctrl+A→F9 刷新
样式名硬编码	脚本在英文版能跑，中文版 Word 报"找不到样式"	先扫描真实样式名，用 `in ('Heading 2','标题 2')` 双兼容
直接取 rPr.rFonts	`AttributeError: NoneType ... rFonts`	用 `get_or_add_rPr().get_or_add_rFonts()` 安全写法
只设西文字体	中文仍是默认字体不变	中文字体必须走 `qn('w:eastAsia')` 这一支
在原文件上直接改	脚本一旦有 bug，原稿不可逆损坏	永远输出到 `paper_clean.docx`，原文件不动
跑完不 diff、不核对	图表/公式/参考文献被悄悄改坏未察觉	用 Word"比较文档"对照前后，重点查图表与数据

边界与局限：自动化在 DOCX 排版这一步能做什么、不能做什么

样式系统与 python-docx 都很能干，但能力边界要划清。把下面几条记牢，比多背一个 API 更重要。

边界 / 失效场景	为什么会这样	你应该怎么做
python-docx 只读写 `.docx`	它解析的是 Office Open XML，不认旧版 `.doc` 二进制	`.doc` 先在 Word 另存为 `.docx` 再处理
它不"渲染"文档	库只改 XML，不排版、不分页、不知道实际显示效果	改完仍要用 Word 打开肉眼核对版面
复杂版式操作 API 薄	底纹、复杂表格、文本框等需直接写底层 XML	这类让 AI 写 XML 操作，并加倍核对
AI 生成的脚本首版常跑不通	环境、库版本、样式名、文档结构差异都会致错	把报错回贴让 AI 修；对照本课报错表自查
OS 级助手是黑箱	自然语言执行，改动过程不透明、难以精确复现	结果逐项人工 diff；要复现性优先用脚本
改格式不改内容是底线	脚本/工具都可能误伤图表、公式、参考文献	提示词写明"不动数据表格与图表"，改完必 diff

⚠️ 本课红线：自动化只动"格式"，绝不动"内容与数据"

DOCX 自动化里有一条不可逾越的界线：

允许自动化的，只是版式呈现：套样式、改字号字体、统一缩进行距、生成目录与编号、格式转换——这些改变的是呈现方式，不触碰任何一个数据点或结论。这正是本课教的内容。
绝不允许借自动化改内容：不得让脚本或工具改动正文里的图表数值、数据表格、统计结果、参考文献内容。提示词里"严禁修改正文里的图表与数据表格内容"不是客套——批处理一旦误伤数据且未被发现，比手动出错更隐蔽、更危险。
原文件不可逆、副本可回退：永远在 paper_clean.docx 这样的副本上操作，保留原稿；改完用"比较文档"逐项 diff，重点核对图表、公式、参考文献。
敏感文件不出本地：处理含被试隐私、未发表数据的文档，优先走端侧/断网路径（脚本本地跑、或工具的隐私模式），不把原始敏感文件交给公有云。

一句话：让自动化忠实地替你重排版式，是它的全部正当用途；任何越过版式、动到内容与数据的"自动化"，都越过了红线。

📦 本课交付物

按本节实操任务完成并提交以下内容，提交 AI 初审，按 Module_Rubrics.md 对应维度评分：

[ ] 学术 Word 模板（.dotx）：含四个核心样式（H1/H2/H3/Normal）+ 自动目录 + 图表交叉引用
[ ] python-docx 自动化脚本：用 AI 协作完成一个真实的批量格式修改脚本（可基于本课实战 B/D 改造）
[ ] 样式名速查文档：用实战 D 的扫描脚本扫出自己 Word 版本所有样式名（含中英文对照），加入个人工具箱
[ ] 对照记录：原始 DOCX 与脚本处理后 DOCX 的关键差异对比（至少 3 处变化，用 Word"比较文档"截图或列表）
[ ] 数据未被改动自查：勾选确认脚本/工具只改了格式，图表、数据表格、参考文献内容逐项核对无误

🏁 本章小结

把本课凝练成可据以复习的几条要点：

样式系统的原理：DOCX 底层是 XML，格式有"样式（集中 1 份定义 + N 个引用）"与"直接格式（就地 N 份独立副本）"两条路；用样式才能"改一次、全文同步"。直接格式优先级高于样式，是"改了样式不生效"的常见根因。
样式联动出自动化版式：自动目录靠识别标题样式收集，交叉引用与编号绑定的是 Word 内部的"域"而非手打文字——这是它们能 F9 一键刷新、联动同步的根本。
脚本补上样式做不到的事：跨文档批量、按条件差异化、可复现可留痕这三类，样式天然覆盖不了，交给 python-docx。样式管"一份文档内归一"，脚本管"跨文档、带条件、可复现的批处理"，互补而非替代。
python-docx 的关键手艺：先扫描真实样式名（兼容中英文版）、中文字体走 w:eastAsia、用 get_or_add_rPr() 安全设字体、段落级属性走 paragraph_format；首版跑不通就对照报错表自查、把 traceback 回贴给 AI。
非技术用户的替代路径：OS 级助手（如腾讯 Marvis，marvis.qq.com）让不写代码的人也能做文档处理与格式转换，其隐私/端侧模式呼应"敏感数据不出本地"；但它是黑箱，结果须人工 diff，复现性弱于脚本。
本课红线：自动化只动版式，绝不动内容与数据——永远在副本上跑、改完必 diff、严禁误伤图表与数据表格、敏感文件不出本地。版式可交给脚本/工具，数据真实性必须你自己守。

自测清单（可保留逐项打勾）

[ ] 我能说清"样式 vs 直接格式"的区别，并解释"改了样式个别段落不变"的原因与排查办法。
[ ] 我会用 Word 样式 + 自动目录 + 交叉引用构建可维护的学术文档，并能 Ctrl+A→F9 刷新全文域。
[ ] 我能讲出"为什么有些任务只能用脚本、不能用样式"（跨文档/按条件/可复现）。
[ ] 我能用 AI 协作写 python-docx 脚本，并能对照报错表排查样式名、rPr 为 None、东亚字体等常见错。
[ ] 我有一份扫出自己 Word 版本所有样式名的速查文档，避免脚本因样式名差异而匹配失败。
[ ] 我清楚自动化的安全红线：副本操作 + 小样本验证 + diff 对照，且只改格式不改图表与数据内容；敏感文件优先走端侧/断网路径。

✍️ 思考与练习

下列练习用于把本节概念用起来（区别于"本课交付物"里的任务），建议写在你的本地笔记中。涉及真实文档时，敏感内容一律脱敏或用占位描述，不把隐私原文贴进联网工具。

练习 1（原理辨析）。 有同学把所有二级标题都用"选中→字号调成小三→加粗"手动做出来，然后抱怨"插入自动目录后这些标题一个都没进目录，交叉引用也引不到"。请用本课原理解释为什么会这样，正确做法是什么。

好答案要点：自动目录与交叉引用靠识别标题样式（Heading 1/2/3）工作，手动调大字号做出的是"假标题"——它在底层仍是普通正文段落（Normal），没有标题样式标记，所以不会被目录域收集、也无法被交叉引用绑定。正确做法是给这些标题套用 Heading 2 样式（外观可在样式定义里调成想要的小三加粗），目录与引用就能识别并联动；能点出"目录/引用绑定的是样式/域而非外观"即达标。

练习 2（样式 vs 脚本的边界）。 下面两个任务，哪个该用 Word 样式、哪个该用 python-docx 脚本？说明判断依据。(a) 把当前论文里所有三级标题从四号改成小四；(b) 把全班 60 份格式各异的作业，统一改成同一套标题/正文规格并各自另存。

好答案要点：(a) 用样式——单份文档内统一改一个样式的定义即可全文同步，这正是样式的作用域；(b) 用脚本——跨 60 份文档的批量操作，样式面板一次只作用于一份打开的文档，手动逐份开既慢又不可复现，应写 python-docx 循环处理目录下所有 .docx 并各自输出副本。判断依据：单文档内归一→样式；跨文档/批量/要可复现→脚本。

练习 3（报错排查，紧扣本课代码）。 你照实战 B 写脚本设中文字体，但把语句顺序改成了"先 r = run._element.rPr.rFonts 再 run.font.name=..."，运行立刻报 AttributeError: 'NoneType' object has no attribute 'rFonts'。请解释根因，并给出两种修法。

好答案要点：根因是新 run 的 rPr 节点尚未创建（run._element.rPr 为 None），对 None 取 .rFonts 即崩；样例代码"能跑"只是因为先执行了 run.font.name=... 顺带建好了 rPr，顺序一变就失去这一侥幸。修法一：保持"先设 font.name 再取 rFonts"的顺序（依赖副作用，较脆）；修法二（更稳）：改用 rpr = run._element.get_or_add_rPr() 后 rpr.get_or_add_rFonts().set(qn('w:eastAsia'), '宋体')，对 rPr 为 None 也安全（即实战 D 的 set_font）。能说出"不要依赖语句顺序的副作用、显式 get_or_add_* 兜底"即达标。

练习 4（红线与工具选择）。 你要把一份含被试访谈记录与一张统计结果表的 DOCX 转成期刊要求的格式，考虑两条路：① 写 python-docx 脚本；② 交给某 OS 级助手（如 Marvis）自然语言处理。请分别指出每条路必须守住的核对动作，以及涉及被试隐私时该如何选择。

好答案要点：两条路共同的红线是只改格式不改内容——改完都要用"比较文档"逐项 diff，重点核对那张统计结果表与访谈数据一字未变（脚本可能误伤、黑箱工具改动不可见，更要查）。脚本的优势是改动写在代码里可审阅、可复现；OS 级助手省事但黑箱，复现性弱。涉及被试隐私时，应优先走数据不出本地的路径：脚本在本机离线跑，或使用工具的隐私/端侧模式（文件留本地、可断网、不上云），不把含隐私的原始文档交给公有云——呼应本课"敏感文件不出本地"红线与模块一脱敏原则。

第 45 课：DOCX 高级排版与自动化 ​

📋 课前准备（5 分钟自检） ​

工具/环境 ​

数据/素材 ​

配置验证 ​

应急通道 ​

场景导入：手动格式刷为什么会陷入重复劳动 ​

🗺️ 架构重组：样式系统驱动的文档 ​

原理：样式系统与脚本自动化各自解决什么问题 ​

🚀 拆解实战 A：建立学术 Word 模板（手动操作 + 必学） ​

三步定型样式体系 ​

🚀 拆解实战 B：python-docx 自动化（进阶轨必备） ​

让 AI 帮你写批量格式修改脚本 ​

你应该得到的样例代码 ​

报错与排查：脚本跑不通时按这张表对号入座 ​

🚀 拆解实战 C：常见批量任务速查 ​

🚀 拆解实战 D：第二个 Worked Example——扫描样式名 + 安全设字体（可复用骨架） ​

不写代码的替代路径：OS 级文档助手（以 Marvis 为例） ​

写好 vs 写砸：同一份 DOCX 排版的逐项对照 ​

常见误区与纠正 ​

边界与局限：自动化在 DOCX 排版这一步能做什么、不能做什么 ​

📦 本课交付物 ​

🏁 本章小结 ​

自测清单（可保留逐项打勾） ​

✍️ 思考与练习 ​

第 45 课：DOCX 高级排版与自动化

📋 课前准备（5 分钟自检）

工具/环境

数据/素材

配置验证

应急通道

场景导入：手动格式刷为什么会陷入重复劳动

🗺️ 架构重组：样式系统驱动的文档

原理：样式系统与脚本自动化各自解决什么问题

🚀 拆解实战 A：建立学术 Word 模板（手动操作 + 必学）

三步定型样式体系

🚀 拆解实战 B：python-docx 自动化（进阶轨必备）

让 AI 帮你写批量格式修改脚本

你应该得到的样例代码

报错与排查：脚本跑不通时按这张表对号入座

🚀 拆解实战 C：常见批量任务速查

🚀 拆解实战 D：第二个 Worked Example——扫描样式名 + 安全设字体（可复用骨架）

不写代码的替代路径：OS 级文档助手（以 Marvis 为例）

写好 vs 写砸：同一份 DOCX 排版的逐项对照

常见误区与纠正

边界与局限：自动化在 DOCX 排版这一步能做什么、不能做什么

📦 本课交付物

🏁 本章小结

自测清单（可保留逐项打勾）

✍️ 思考与练习