第 36 课：Results 与 Discussion 写作

🎯 核心实操目标

本课目标：分清 Results 与 Discussion 的本质分工——结果 Results 只回答"测出了什么"（客观陈述事实，不解释），讨论 Discussion 回答"这意味着什么"（解释机制、对比文献、谈局限与启示）。本课你将掌握两部分各自的写作结构，重点学会写出经得起审稿的 Discussion，并守住一条硬边界：横断面数据只能谈预测/关联，不能下因果；AI 可以帮你组织语言，但对结论是否成立、因果能否成立负责的始终是你本人。

本课位于"先算后写"流程的下游：统计量已在软件里算好（第 25–29 课），第 30 课已练过"让 AI 把 Results 输出翻译成 APA 段落"。本课与第 30 课衔接，但侧重点在 Discussion——即如何在不越界、不过度拔高的前提下，把"测出了什么"提升为"它意味着什么"。

📋 课前准备（5 分钟自检）

工具/账号

[ ] Claude 4.8 Opus（学术语言最稳）
[ ] 你的统计软件输出（Jamovi / SPSS 报表截图或导出）

数据/素材

[ ] 完整的统计分析结果（描述统计 + 假设检验 + 效应量）
[ ] 文献综述章节里的核心文献（用于 Discussion 对比）
[ ] 研究假设清单（H1–Hn）

应急通道

统计输出还没跑 → 回到第 25-29 课跑分析
不知道效应量怎么报告 → 见第 25/26 课的 APA 格式表

场景导入：Results 与 Discussion，错位是最常见的退稿理由

一名学生把统计结果写完后，Results 段里夹了大段"这说明 AI 焦虑正在侵蚀当代大学生的心理健康"的议论，而轮到 Discussion 时，却把 Results 里的数字又复述了一遍，没有一句与前人研究的对照。导师的批注是两条：
"Results 不要解释。" 这一节的职责是如实陈述测出了什么——哪个假设、用了什么方法、统计量多少、是否显著、效应量多大；"为什么会这样""意味着什么"全部留到 Discussion。
"Discussion 不是把 Results 再说一遍。" 它的职责是解释发现、与文献对话、指出理论与实践含义，每一句都要么落在数据上、要么落在某篇文献上。
这正是新手最容易混的一对分工：Results 报事实，Discussion 谈意义。 把解释提前塞进 Results，会让审稿人觉得你抢跑下结论；把 Discussion 写成 Results 的复读，又会让审稿人觉得这篇文章"没有讨论"。两种错位，都是高频退稿理由。

这一对分工不是体例上的形式要求，而是由两节各自承担的"举证责任"决定的——下一节先把这个原理讲清楚，再进入写作模板。

原理：为什么 Results 报事实、Discussion 才谈意义

要写好这两节，先理解审稿人在每一节分别在看什么。这不是约定俗成的格式洁癖，而是实证论文的论证链条决定的：先把"证据"摆干净，再在此基础上"论证",读者才能分清哪些是数据、哪些是你的解读。

Results 的职责是"如实呈现证据"，所以必须客观、可核对。 审稿人读 Results 时，核对的是：每个假设有没有逐一报告（而不是只挑显著的说）、统计量是否报全（统计值 + 自由度 + p + 效应量 + 区间）、不显著的结果有没有如实交代。这一节里不能出现解释——因为一旦把"为什么"混进来，读者就无法把"客观事实"和"作者推断"分开，证据的可信度随之打折。Results 的语气因此是克制、中性的：只说"测出了 A 与 B 显著负相关"，不说"这令人担忧"。
Discussion 的职责是"在证据之上做论证"，所以要解释、对比、克制地引申。 审稿人读 Discussion 时，核对的是另一组东西：你的解释有没有数据支撑（每个论点都应能追回 Results 里的某个结果）、你有没有跟前人研究对话（一致/部分一致/在某条件下修正——而不是空泛地说"补足了前人不足"）、你的引申有没有超出数据能支撑的范围。Discussion 允许有观点，但观点必须是"戴着镣铐的舞蹈"——镣铐就是你的数据边界。
两节的边界一旦混淆，论证就塌了。 Results 里夹解释 → 读者分不清事实与推断；Discussion 里复述 Results → 文章等于没有讨论。更危险的是第三种：在 Discussion 里把相关当因果、把样本结论外推到全体——这不是文笔问题，而是结论错误。本课后半段会专门处理这条边界。

📐 审稿人在这两节分别看什么（对照速记）

看 Results：假设是否逐条报告？统计量是否报全（含效应量与区间）？不显著项有没有如实报？有没有混进不该出现的解释？
看 Discussion：每个论点是否有 Results 数据支撑？是否与具体文献对话（标了作者+年份）？引申是否超出样本/设计能支撑的范围？因果话术是否越界？

📘 关键术语（首次出现，先对齐定义）

结果（Results section）：实证论文中客观陈述统计发现的章节。只报"测出了什么"，不展开"为什么"与"意味着什么"。规范要求：每个分析交代方法、报全关键统计量、给效应量、说明假设是否得到支持；不显著的结果也要如实报告。
讨论（Discussion section）：在 Results 之上做解释与论证的章节。典型内容为：概括核心发现、与前人研究对比、阐述理论贡献与实践启示、引出局限与未来研究。每个论断都应能追溯到 Results 里的某个具体结果。
效应量（effect size）：刻画关系或差异实际大小的指标（如标准化系数 β、相关 r、Cohen's d、R²、f²），独立于样本量。它回答"效应有多大"，而 p 值只回答"是否显著到不像随机噪声"，二者必须并报。
横断面数据（cross-sectional data）：在同一时点测量全部变量的数据（如 Case A 的一次性问卷）。它能揭示变量间的协变/相关，但无法确立时间先后，因而不能据以下因果结论。与之相对的是追踪同一对象多个时点的纵向数据（longitudinal data）。
过度拔高（overclaiming）：让结论超出数据能支撑的范围。典型三类——把样本结论外推到样本未覆盖的群体、把"补充/扩展"说成"颠覆"、用戏剧化语言夸大后果。这是 Discussion 最常见的硬伤。

🗺️ Results vs Discussion 分工对照

把两节的分工落到一张对照表上——写每一节前先对照一眼，确认自己没有越界。

维度	Results（报事实）	Discussion（谈意义）
核心问题	测出了什么？	它意味着什么？
本质	客观陈述证据	在证据之上做论证（有观点但克制）
内容	方法 + 统计量 + 显著性 + 效应量	解释 + 与文献对比 + 理论贡献 + 实践启示
组织顺序	按假设顺序逐一报告	沙漏式（核心发现 → 逐条对比 → 理论/实践 → 引出局限）
字数	简短紧凑（800–1200 字）	充分展开（1500–2500 字）
语气	中性、克制、不评论	自信但克制，不夸大
严禁	解释 / 推断 / 评论	重复 Results / 外推超样本 / 相关说成因果

一句话判据

Results 里出现"这说明 / 这意味着 / 令人担忧"——越界了，挪到 Discussion；Discussion 里整段在复述 β 和 p 而没有一句解释或对比——这一节等于没写。

🚀 拆解实战 A：Results 写作（按假设逐段）

Results 的标准组织方式是按假设顺序逐一报告，每个假设独立成段。一个完整的 Results 章节通常包含以下几段：

第 1 段：描述统计概览(均值/SD/相关矩阵)
第 2 段：H1 检验结果(统计值/自由度/p/效应量)
第 3 段：H2 检验结果
第 4 段：Hn 检验结果
第 5 段：稳健性检验(可选)

系统覆盖：每段必含的 5 要素

逐段写时，对照下面五条逐一落实——少任何一条，审稿人都会要求补：

用了什么统计方法（如多元回归 / Bootstrap 中介 / 配对 t 检验）；
核心统计量报全（β/t/F + 自由度 + p + 95% CI + R²，按 APA 体例）；
效应量大小评估（按 Cohen 基准评小/中/大，不能只报 p）；
假设是否得到支持（明确写"H1 得到支持/未得到支持"）；
自然过渡到下一段。

⚠️ 边界：Results 只"报"，统计量只能来自你的软件输出

这一节里出现的所有 β、t、F、p、R²、效应量，必须是你在 Jamovi / SPSS / Python 里亲手算出的。AI 在 Results 环节只做"把数字表翻译成 APA 段落"这一件事，绝不能让它代算、补一个你没跑的统计量、或改动你粘贴的数字——这是第 30 课讲透的红线。本课聚焦下游的 Discussion，但这条底线在 Results 段同样不可松动。

标准句式

"对 H1 的回归分析显示, AI 焦虑显著负向预测自我效能感
(β = -.21, t(495) = -4.79, p < .001, 95% CI [-.29, -.13]),
效应量为小到中等。H1 得到支持。"

说明：上句中的 β/t/p/CI 全部来自统计软件输出，原样搬运；AI（或你本人）只负责把这串数字组织成符合 APA 7th 体例的一句话。句式里出现的"显著负向预测"是规范的关联表述——注意没有用"导致/降低/引起"等因果动词，因为 Case A 是横断面数据（详见后文边界）。

Results 段落生成 Prompt (一键复制)

markdown

【Role】顶级 SSCI 期刊数据审核与润色编辑。
【Task】下面是我用 Jamovi/SPSS 跑出的多元回归表结果。
**不要重新运算!不可改变数值!**

请严格依据上表中的精确数值(β, t, R², p 值, 95% CI),
为我撰写两段中文学术汇报段落。

【必须遵循】
1. 使用 APA 严谨格式: "回归分析表明,A 对 B 具有显著的负向预测作用
   (β = -.34, p < .001, 95% CI [-.45, -.23])..."
2. 每个假设独立成段,明确写"H1 得到支持/未得到支持"
3. 必须报告效应量(Cohen's d / f² / R²)
4. 不要发挥不在表格里的内容,不要写"这说明..."等解释

【粘贴 Jamovi/SPSS 报表】: [Ctrl+V 你的输出]

🚀 拆解实战 B：Discussion 沙漏式结构

Discussion 的标准组织是沙漏式——开口宽（概括），中段收窄（逐条对比、落到贡献），收尾再放宽（引出局限与未来研究）：

开口宽: 概括核心发现(2-3 句)
   ↓
中间窄: 逐条与前人对比(约 50% 篇幅)
   ↓
   理论贡献(约 20% 篇幅)
   ↓
   实践启示(约 20% 篇幅)
   ↓
开口再宽: 引出局限与未来研究(承接第 37 课)

📐 这五段各自的"举证标准"

核心发现概括：用 2–3 句点出主要结果，并一句话说明本研究在文献中的位置（不是把 Results 复述一遍）。
与前人对比：逐条把你的发现与具体文献并置，明确关系是"一致 / 部分一致 / 在某条件下修正"，每条都标作者+年份。这是 Discussion 的主体，也是最易写空的部分。
理论贡献：基于你实际的数据范围（样本类型 + 研究情境）说清楚补充了什么机制，并指出 1–2 个可被未来研究检验的边界条件。
实践启示：落到可操作的具体行为，并写明适用条件——不写"具有重要意义"这类空话。
引出局限：自然过渡到下一节（第 37 课）的 Conclusion + Limitation + Future Work。

必教：合理拔高 vs 过度拔高

Discussion 允许有观点，但观点必须落在数据边界之内。把"超出数据能支撑的范围"称为过度拔高（overclaiming）——它是 Discussion 最常见、也最容易被审稿人盯上的硬伤。先记住三条红线：

⚠️ Discussion 三大红线

严禁外推到样本未覆盖的群体（你的样本是大学生 → 不要谈"全民"）。
严禁声称"颠覆"已有研究（你是补充/扩展，不是颠覆）。
严禁戏剧化预言（如"若不重视，整个行业明天就崩溃"）。

下表把同一个发现写成"过度拔高"与"合理拔高"两版并排对照。注意右列出现的文献均为示意占位（如 [作者, 年]、Wang 等占位、Bandura 自我效能理论为公认经典理论），实际写作时务必替换为你真正查证过的文献，绝不可编造看似真实的文献或 DOI：

❌ 过度拔高（审稿人会要求删改）	✅ 合理拔高（审稿人会认可）
"本研究揭示了数字时代心理健康的革命性危机"	"本研究在大学生样本中扩展了 [作者, 年] 在工科生样本中的发现"
"如果不重视 AI 焦虑，整个高等教育将崩溃"	"在数字密集型学习情境下，该效应可能进一步放大，未来研究可在此情境中检验"
"本文颠覆了过去数十年的自我效能理论"	"本研究的中介路径与 Bandura 自我效能理论一致，但在 AI 情境下呈现出新的作用机制"

💡 合理拔高的句式公式

"在 [本研究的样本/情境] 中，本研究 [扩展 / 补充 / 在某条件下修正] 了 [某文献] 的发现；该效应在 [某情境] 下可能 [如何变化]，未来研究可 [如何检验]。" —— 把"边界条件"明确写进句子，既诚实又显方法学素养。

一处具体改写（看"拧紧"的全过程）

把同一句从过度拔高逐步收回到合理拔高：

初版（过度拔高）：「本研究证明降低 AI 焦虑能从根本上提升全体大学生的自我效能，颠覆了既有理论。」
问题：① "证明…能提升"是因果断言，横断面数据给不出；② "全体大学生"外推超样本；③ "颠覆"夸大；④ 无文献对照。
终版（合理拔高）：「在本横断面样本中，AI 焦虑与自我效能呈显著负相关，且这一关联部分通过学习策略传导；该模式与 Bandura 自我效能理论一致，并在 AI 情境下补充了一条可能的作用路径。其因果方向有待纵向或实验设计进一步检验。」

Discussion 三问自检

写完 Discussion 后必问：

每个观点是否在 Results 里有数据支撑？（没有数据撑的句子，要么删，要么降为"推测"并标明。）
我外推的群体是否超出样本范围？（超出 = 红线。）
我与前人的关系说清楚了吗？（"扩展 / 补充 / 在某条件下修正"——而非空洞的"补足前人不足"。）

📐 Worked Example：把 Case A 的中介结果，写成"一句 Results + 一段 Discussion"

下面用本课程的 Case A 心理问卷数据（N=500，AI 焦虑 Anxiety → 学习策略 Strategy → 自我效能 Efficacy 的中介模型，横断面数据）走一遍完整示范——同一份中介结果，在 Results 里是冷静的一句，在 Discussion 里是克制的一段。关键看两节如何分工，以及横断面数据如何卡住因果话术。

手头的统计输出（已在软件里跑好，来自第 29 课）：间接效应 ab = −.14, 95% CI [−.20, −.09]；直接效应 c' 的 95% CI [−.22, −.08]（仍显著）；间接效应占总效应约 49%。

① 写成 Results：只报事实，一句话讲清"测出了什么"

学习策略在 AI 焦虑与自我效能感之间的间接效应显著，ab = −.14，95% CI [−.20, −.09]（区间不含 0）；控制中介后直接效应仍显著（95% CI [−.22, −.08]），表明学习策略起部分中介作用。

这一句的全部要点：每个数字都原样来自软件输出；"部分中介"的判据是客观的（间接效应 CI 不含 0 → 中介成立；直接效应 c' 仍显著 → 是部分而非完全中介）；没有一个字解释"为什么"或"意味着什么"——那是下一段的事。

② 写成 Discussion：在事实之上解释，但守住横断面边界

本研究发现，AI 焦虑不仅与自我效能感呈显著负向关联，且这一关联部分通过学习策略传导（间接效应占比约 49%）。这一中介模式与 Bandura 自我效能理论的预期方向一致 [作者, 年，示意]，并在 AI 学习情境下补充了一条具体的作用路径：焦虑较高的学习者可能更少采用有效学习策略，进而与较低的自我效能感相联系。需要强调的是，本研究为横断面设计，上述中介反映的是三个变量在同一时点的协变结构，并不能确立时间先后或因果方向；焦虑、策略与效能三者亦可能互为因果或共受第三变量影响。因此，本文不就"降低焦虑能否提升效能"作因果断言，该问题有待纵向追踪或干预实验进一步检验。在实践层面，这一关联提示（而非证明）：在 AI 密集的学习场景中，关注学习者的策略使用，可能是缓解焦虑—效能负向链条的一个值得检验的着力点。

⚠️ 这段 Discussion 守住的三道边界（对照三问自检）

相关 ≠ 因果：通篇用"关联 / 传导 / 相联系 / 提示"，没有"导致 / 降低就能提升 / 引起"等因果动词——因为横断面数据给不出因果。这是本课最硬的一条边界。
不外推超样本：结论始终限定在"AI 学习情境的学习者"，没有跳到"全体人群"。
与文献的关系说清且不夸大：明确是"与 Bandura 理论方向一致 + 补充一条路径"，是扩展而非"颠覆"；引用以 [作者, 年，示意] 占位，提醒你替换为真实查证的文献，绝不编造。

💡 对照看分工

同一个 ab = −.14：在 Results 里它是"区间不含 0，间接效应显著"的客观陈述；在 Discussion 里它被解读为"焦虑部分通过策略影响效能的一条路径"，并立刻被横断面边界框住、拒绝升级为因果。这就是"报事实"与"谈意义"的全部差别。

🚀 拆解实战 C：Discussion 标准 Prompt

合理拔高 Discussion Prompt (一键复制)

markdown

【Role】严谨克制的社科 SSCI 审稿人,熟悉本领域常见的过度拔高陷阱。

【背景】我的实证发现:
[填你的 H1-Hn 检验结果摘要,如 "β = -0.21, 中介效应间接占总效应 49%"]

【任务】基于上述发现,为我撰写 Discussion 部分:

1. **核心发现概括(200 字)**:
   - 用 2-3 句总结主要发现
   - 强调本研究在当前文献中的位置

2. **与前人研究对比(500 字)**:
   - 逐条把发现与 [填 2-3 篇关键文献] 对比
   - 写清楚是"一致 / 部分一致 / 修正了 / 在 X 条件下相反"
   - 必须明确标注文献(作者+年份)

3. **理论贡献(250 字)**:
   - 基于实际数据范围(样本类型 + 情境)推断
   - 必须指出 1-2 个可被未来研究检验的边界条件
   - 严禁外推到样本未覆盖群体

4. **实践启示(200 字)**:
   - 落到组织/政策的具体可操作行为
   - 严禁"颠覆"、"革命"等夸大词
   - 明确启示的适用条件

【红线】
- 严禁戏剧化、夸张语言(如"革命性危机""彻底颠覆")
- 严禁声称"颠覆"已有研究——本研究是扩展/补充,不是颠覆
- 严禁把横断面/相关结果写成因果(禁用"导致/引起/决定")
- 严禁堆砌"具有重要意义""不言而喻"等空话
- 涉及具体文献一律标注(作者+年份);不得编造文献或 DOI

🔍 用这个 Prompt 时，你仍要做"把关人"

这个 Prompt 把红线写进了指令，但 AI 仍可能：把相关悄悄写成因果、为了"对比充分"而编造看似真实的文献、或把样本结论外推。它的产出是初稿，不是定稿。 凡是 AI 给出的文献，必须逐条到数据库核实真伪（呼应第 30 课"格式漂亮 ≠ 真实存在"）；凡是因果味的句子，回到数据设计核对一遍。最终对结论负责的是你，不是被你赋予"审稿人"人设的模型。

跨案例迁移：把 Discussion 的"克制"搬到 Case C（LLM 评估）

上面的 worked example 用的是 Case A 心理问卷。Discussion 的写法在不同学科换的是术语，不变的是"每句话都要落在数据上、不外推、不夸大"。下面换到 Case C：大模型生成质量评估（300 篇文章 × 3 个模型，Quality_GPT5 / Quality_Claude47 / Quality_Gemini25，摘要质量 1–5 分，配对/重复测量设计），看同一套克制原则如何迁移，并顺带演示一类此处特有的越界。

假设你已在软件里跑出（数字用占位，需你用自己的结果替换）：三模型整体差异 Friedman 显著；事后配对比较显示 GPT-5 的质量得分显著高于 Claude 4.7（t([df]) = [ ], p = [ ], d = [ ]）。

① Results（报事实，一句）

Friedman 检验显示三个模型的摘要质量评分存在显著差异（χ²(2) = [ ], p = [ ]）；事后配对比较表明，GPT-5 的质量得分显著高于 Claude 4.7（t([df]) = [ ], p = [ ], d = [ ]，中等效应）。

② Discussion（谈意义，但守住边界）

在本评估的摘要任务与评分标准下，GPT-5 的质量得分显著高于 Claude 4.7，差异达到中等效应量。这一结果仅表明在本研究设定的任务、语料与 1–5 分质量标准下两模型存在可测的得分差异，并不意味着某一模型在所有任务上"更智能"或"更强"。模型表现高度依赖评测任务、提示词与评分维度，未来研究可在更广的任务集与多语种语料上检验该差异是否稳定。

⚠️ Case C 这一段特有的越界（也是过度拔高的变体）

拟人化越界：写"GPT-5 更聪明 / 更懂用户"是把"某任务的得分差"夸大为"通用智力差"——等同于把样本结论外推到样本外。规范写法是"在本任务/本评分标准下，得分显著高于"。
基准与口径要交代：Case C 的比较基准是 Claude 4.7；不可把"4.7 上的结论"说成对最新模型（如 Claude 4.8）的评价。模型口径与版本，本身就是 Discussion 里必须讲清的边界条件。

🔁 迁移要点

对比 Case A 与 Case C：数据（问卷 vs 模型评分）、方法（中介 vs 配对 t/Friedman）全变了，但 Discussion 的三件事没变——落在数据上、不外推、不夸大。Case A 的边界是"横断面不可下因果"，Case C 的边界是"某任务得分差不可说成通用更强"；二者是同一条原则在不同情境的样子。

Discussion 段落：写砸 vs 写好

同一份 Case A 发现，Discussion 可以写成"会被审稿人退改"也可以写成"会被认可"。下面把最常见的失分点逐项并排对照——左列是学员高频写法，右列是把同一处"拧紧"后的写法。

维度	写砸 ❌	写好 ✅	为什么
与 Results 的关系	把 β、p 又复述一遍	概括发现后立刻进入解释与对比	Discussion 不是 Results 的复读；复述等于"没有讨论"
因果措辞	"降低 AI 焦虑就能提升自我效能"	"AI 焦虑与自我效能呈负向关联，方向待纵向设计检验"	横断面数据只能谈关联；因果断言是结论错误，不是文笔问题
外推范围	"本研究揭示了当代青年的普遍心理危机"	"在本大学生样本中观察到上述关联"	结论不得超出样本覆盖的群体
与前人关系	"本文颠覆了自我效能理论" / "补足了前人不足"	"与 Bandura 理论方向一致，并补充 AI 情境下的一条路径"	用"扩展/补充/某条件下修正"，而非"颠覆"或空洞的"补足不足"
文献引用	给出格式完美但来源不明的文献	引用经核实的文献，标作者+年份；不确定就先占位	AI 可能编造文献；格式漂亮 ≠ 真实存在，须逐条核实
实践启示	"本研究具有重大现实意义"	"在 AI 密集学习场景中，关注策略使用可能是一个值得检验的着力点，并说明适用条件"	"重大意义"不可执行；启示要落到具体行为 + 适用条件
语气	"如不重视，高等教育将崩溃"	"该效应在某情境下可能放大，未来研究可检验"	戏剧化预言会被当作不严谨；克制陈述才显方法学素养

💡 一句话判据

检验一段 Discussion 写得好不好，问五件事：有没有复述 Results？因果动词清干净了吗？外推有没有超样本？与前人关系说清了吗（且没说"颠覆"）？文献是不是真的、启示能不能落地？ 五者都过关，这段才从"复读 + 喊口号"升级成"真正的讨论"。

常见误区与纠正

Discussion 写作阶段，学员的问题高度集中在"把相关说成因果"和"让结论超出数据"。下表是最高频的几种，照着对号入座即可：

常见误区	症状	纠正方法
Results 里夹解释	报数字的同时写"这说明/令人担忧"	解释一律挪到 Discussion；Results 只陈述事实
Discussion 复述 Results	整段在重报 β、t、p，无解释无对比	概括发现后立刻进入"解释 + 与文献对比"
相关说成因果	横断面/相关数据写"导致/引起/决定"	一律改"预测/关联/与……相关"；因果须靠纵向或实验设计
外推超样本	大学生样本谈"全民/当代青年"	结论限定在样本覆盖的群体内
声称"颠覆"	"颠覆了过去 N 年的理论"	用"扩展/补充/在某条件下修正"，绝大多数研究是扩展
空洞对比前人	"补足了前人不足"却不说哪一篇、哪一点	逐条对具体文献，写清"一致/部分一致/修正"，标作者+年份
编造文献	AI 给出格式完美但查不到的文献	逐条到数据库核实；不确定先占位 `[作者, 年]`，绝不编造 DOI
戏剧化夸大	"革命性危机""明天就崩溃"	删夸张词；改"可能/值得检验"的克制陈述
空话启示	"具有重要现实意义"	落到具体可操作行为 + 适用条件

AI 初稿不满意？如何迭代与把关

让 AI 写 Discussion，首版几乎一定需要返修——这很正常。Discussion 的"不对劲"通常是三类：越界（相关写成因果/外推超样本）、空洞（复述 Results 或喊口号）、失真（编造文献）。逐类对症，不要推倒重写。

越界 → 局部纠偏 + 加固红线。 出现因果动词，追加一句"全文禁用'导致/引起/决定/证明'，横断面数据只描述预测与关联"；出现外推，追加"结论一律限定在本研究样本（如大学生）范围内，不得推及全体人群"。
空洞 → 指明缺的是哪一段。 整段在复述 Results → 要求"删去数字复述，每段先给一句解释，再对一篇具体文献"；启示喊口号 → 要求"把'重要意义'改成可操作的具体行为，并写明适用条件"。
失真 → 这是最危险的一类，必须人工核验。 AI 给的每一篇文献都要到数据库逐条核实真伪（呼应第 30 课的幻觉边界）；查不到的，宁可用 [作者, 年] 占位，也绝不把一条编造的文献写进正文。

一句话

首版不满意不是 AI 没用，而是它默认会往"读着顺、听着响"的方向写——而 Discussion 要的恰恰是"听着稳、经得起核"。定位到是越界/空洞/失真哪一类，局部纠偏，并始终由你做最后把关。

边界与局限：AI 在 Results 与 Discussion 能做什么、不能做什么

这两节里 AI 能帮的与不能碰的，边界清晰。把下面几条记牢，比多背一个句式更重要。

边界 / 失效场景	为什么会这样	你应该怎么做
Results：AI 只能翻译，不能代算	大模型按概率续写、不接入你的数据；让它"算 β/p/效应量"只会得到看似合理实则编造的数字（幻觉）	统计量一律在软件里算；AI 只把你粘贴的输出转写成 APA 段落（第 30 课）
Discussion：AI 倾向于"过度拔高"	语料里"宏大、戏剧化"的表达高频出现，模型会自然向那一端续写；它不知道你的数据边界在哪	把红线（不外推/不颠覆/不戏剧化/不因果）写进提示词，并逐句人工核
相关 ≠ 因果，AI 不会自动守住	模型不"知道"你的数据是横断面还是纵向；它会顺着你给的措辞写因果	你来判定设计类型；横断面/相关一律只写预测、关联（Case A 即如此）
AI 会编造文献	它按"该出现一篇文献"的概率续写出作者+年份，格式完美但可能查无此文	每篇文献逐条核实；不确定先占位，绝不让编造文献进正文或参考文献
"显著 ≠ 重要 ≠ 通用"	大样本下微小效应也显著；某任务的得分差不等于通用更强（Case C）	结合效应量与情境谈意义；得分差只在本任务、本口径下成立

⚠️ 本课红线：AI 辅助，但人担责

这两节里，对"结果报得准不准、因果能不能下、文献是不是真的、结论有没有超出数据"负责的，始终是你本人，不是被你赋予"编辑"或"审稿人"人设的模型。AI 可以帮你把句子写顺、把结构搭好，但它不会替你守边界：横断面数据能不能谈因果、样本能不能外推、某篇文献是否真实存在——这些判断都必须由你做出并核验。把"算"留给软件、"写顺"交给 AI、"判断与担责"留给自己，这条线一旦松动，论文的可信度就归零。

📦 本课交付物

按本节实操任务完成并提交以下内容，提交 AI 初审，按 Module_Rubrics.md 对应维度评分：

[ ] Results 终稿（约 800–1200 字）：按假设顺序逐一报告，每段含 5 要素（方法 + 统计量 + 效应量 + 假设结论 + 过渡），数字逐项与软件输出对齐、无改动无编造。
[ ] Discussion 终稿（约 1500–2500 字）：沙漏结构 + 与 2–3 篇已核实文献逐条对比 + 理论贡献 + 实践启示，全文无因果越界、无外推超样本。
[ ] 三问自检表：填出"是否外推超样本 / 是否声称颠覆 / 与前人关系是否说清"三项，逐项给出证据。
[ ] AI 协作日志：记录至少 1 处"AI 输出过度拔高（或因果越界/编造文献）→ 你打回 → AI 修正"的完整过程。
[ ] 四维质检记录：用 Course_QA_Checklists.md（事实 / 逻辑 / 格式 / 引用）核查本节 AI 输出，重点查"是否出现因果措辞、文献是否真实存在"。
[ ] 沉淀模板：将本课 Discussion Prompt 与"三问自检 / 五件事判据"加入个人工具箱。

🏁 本章小结

把本课凝练成可据以复习的几条要点：

核心分工：Results 报事实（测出了什么——方法 + 统计量 + 效应量 + 假设结论，客观不解释）；Discussion 谈意义（这意味着什么——解释 + 与文献对比 + 理论贡献 + 实践启示）。Results 里夹解释、Discussion 里复述 Results，都是高频退稿理由。
为什么这样分：两节承担不同的"举证责任"——Results 把证据摆干净（所以客观），Discussion 在证据之上做论证（所以有观点但克制）。审稿人在两节分别核对的东西不同（见上文对照）。
Discussion 结构：沙漏式——核心发现概括 → 逐条与具体文献对比（主体）→ 理论贡献 → 实践启示 → 引出局限（接第 37 课）。
最硬的边界——相关 ≠ 因果：Case A 是横断面数据，中介只反映同一时点的协变结构，不能据以写"降低焦虑就能提升效能"；因果须靠纵向或实验设计。这条边界 AI 不会替你守住。
过度拔高的三类硬伤：外推超样本、声称"颠覆"、戏剧化预言。绝大多数研究是"扩展/补充/在某条件下修正"前人，而非颠覆。
AI 辅助但人担责：AI 能把句子写顺、结构搭好，但会过度拔高、会把相关写成因果、会编造文献。它的产出是初稿；对"因果能否下、样本能否外推、文献是否真实"负责并核验的，始终是你本人。涉及文献一律占位或核实，绝不编造看似真实的文献或 DOI。

自测清单（可保留逐项打勾）

[ ] 我能讲清 Results（报事实）与 Discussion（谈意义）的分工，并说出审稿人在两节分别看什么。
[ ] 我的 Results 按假设顺序报告，每段含 5 要素，且 p 与效应量并报。
[ ] 我能把 Case A 的中介结果写成"一句 Results + 一段 Discussion"，并在 Discussion 里守住横断面边界。
[ ] 我的 Discussion 用沙漏式结构，与前人的关系是"扩展/补充/某条件下修正"而非"颠覆"。
[ ] 我能识别并改掉 AI 的过度拔高（外推超样本 / 声称颠覆 / 戏剧化 / 相关说成因果）。
[ ] 我清楚 AI 可能编造文献，会逐条核实，不让编造文献进正文或参考文献。

✍️ 思考与练习

下列练习用于把本节概念用起来（区别于"本课交付物"里的任务），建议写在你的本地笔记中。

练习 1（分工辨析）。 下面是某同学的一句"Results"：「AI 焦虑显著负向预测自我效能感（β = −.34, p < .001），这说明当代大学生正深陷由 AI 引发的心理危机，亟需干预。」请指出这句话哪部分属于 Results、哪部分越界到了 Discussion，并把它拆成规范的"一句 Results + 一句 Discussion"。

好答案要点：前半句（β、p、"负向预测"）是合格的 Results；"这说明……心理危机，亟需干预"是解释 + 价值判断 + 外推，属 Discussion 内容，且"危机/亟需干预"已过度拔高。规范拆法——Results：「AI 焦虑显著负向预测自我效能感（β = −.34, p < .001）。」Discussion：「这一负向关联与 [作者, 年] 一致；在本大学生样本中提示二者值得关注，但其因果方向有待纵向设计检验。」（不写"危机/导致"。）

练习 2（横断面边界，紧扣 Case A）。 给定 Case A 中介输出：间接效应 ab = −.14, 95% CI [−.20, −.09]，直接效应 c' 的 95% CI [−.22, −.08]。请：(a) 写一句规范的 Results 报告该中介并说清"部分中介"的判据；(b) 写一句 Discussion 解读它，并说明为什么不能写成"降低 AI 焦虑可通过提升策略来提高效能"。

好答案要点：(a) 间接效应 CI 不含 0 → 中介显著；c' 的 CI 也不含 0、仍显著 → 部分中介（若 c' 不显著才是完全中介）；数字原样取自输出。(b) Case A 是横断面数据，中介只反映三者协变结构、无时间先后与机制，写"降低焦虑可提升效能"是因果越界——相关/中介 ≠ 因果；正确措辞止于"关联/部分通过策略传导"，并注明因果待纵向或实验检验。

练习 3（识别过度拔高 + 改写）。 AI 为 Case A 写的 Discussion 片段：「本研究颠覆了传统自我效能理论，证明 AI 焦虑是全体大学生心理健康的决定性因素；若不及时干预，高等教育质量将全面崩溃。它给出了三篇支持该结论的文献（作者、年份俱全）。」请逐处指出踩中了哪些红线，并改写成合理拔高；对那三篇文献你会怎么处理？

好答案要点：「颠覆」=声称颠覆（应改"扩展/补充"）；「证明……决定性」=相关说成因果（横断面不可，应改"关联/可能的路径"）；「全体大学生」=外推超样本（限定在本样本）；「全面崩溃」=戏剧化预言（删，改"可能放大，值得检验"）。三篇文献必须逐条到数据库核实——格式漂亮 ≠ 真实存在，AI 可能编造；查不到就用 [作者, 年] 占位或删除，绝不直接采信。改写示例：「在本大学生样本中，AI 焦虑与自我效能呈显著负向关联，与 [作者, 年] 方向一致，并在 AI 情境下补充了一条可能路径；其因果方向有待纵向设计检验。」

练习 4（跨案例边界，紧扣 Case C）。 Case C 中你跑出 GPT-5 的摘要质量得分显著高于 Claude 4.7（中等效应）。同学想在 Discussion 里写"GPT-5 比 Claude 4.7 更智能、更适合所有写作任务"。请指出这句话踩中了哪条边界，并给出规范写法；另外说明在 Discussion 里为什么要交代"比较基准是 Claude 4.7"。

好答案要点：这是拟人化 + 外推越界——把"某一摘要任务、1–5 分质量标准下的得分差"夸大为"通用更智能、适合所有任务"，等于把样本结论推到样本外；模型表现高度依赖任务/提示词/评分维度。规范写法："在本评估的摘要任务与质量标准下，GPT-5 的得分显著高于 Claude 4.7（中等效应），该差异在更广任务集上是否稳定有待检验。"交代基准是 Claude 4.7 是因为：结论只对该版本成立，不可把"4.7 上的结论"说成对最新模型（如 Claude 4.8）的评价——模型口径与版本本身就是必须写明的边界条件。

第 36 课：Results 与 Discussion 写作 ​

📋 课前准备（5 分钟自检） ​

工具/账号 ​

数据/素材 ​

应急通道 ​

场景导入：Results 与 Discussion，错位是最常见的退稿理由 ​

原理：为什么 Results 报事实、Discussion 才谈意义 ​

🗺️ Results vs Discussion 分工对照 ​

🚀 拆解实战 A：Results 写作（按假设逐段） ​

系统覆盖：每段必含的 5 要素 ​

标准句式 ​

🚀 拆解实战 B：Discussion 沙漏式结构 ​

必教：合理拔高 vs 过度拔高 ​

一处具体改写（看"拧紧"的全过程） ​

Discussion 三问自检 ​

📐 Worked Example：把 Case A 的中介结果，写成"一句 Results + 一段 Discussion" ​

① 写成 Results：只报事实，一句话讲清"测出了什么" ​

② 写成 Discussion：在事实之上解释，但守住横断面边界 ​

🚀 拆解实战 C：Discussion 标准 Prompt ​

跨案例迁移：把 Discussion 的"克制"搬到 Case C（LLM 评估） ​

① Results（报事实，一句） ​

② Discussion（谈意义，但守住边界） ​

Discussion 段落：写砸 vs 写好 ​

常见误区与纠正 ​

AI 初稿不满意？如何迭代与把关 ​

边界与局限：AI 在 Results 与 Discussion 能做什么、不能做什么 ​

📦 本课交付物 ​

🏁 本章小结 ​

自测清单（可保留逐项打勾） ​

✍️ 思考与练习 ​