第 36 课:Results 与 Discussion 写作
🎯 核心实操目标
本课目标:分清 Results 与 Discussion 的本质分工——结果 Results 只回答"测出了什么"(客观陈述事实,不解释),讨论 Discussion 回答"这意味着什么"(解释机制、对比文献、谈局限与启示)。本课你将掌握两部分各自的写作结构,重点学会写出经得起审稿的 Discussion,并守住一条硬边界:横断面数据只能谈预测/关联,不能下因果;AI 可以帮你组织语言,但对结论是否成立、因果能否成立负责的始终是你本人。
本课位于"先算后写"流程的下游:统计量已在软件里算好(第 25–29 课),第 30 课已练过"让 AI 把 Results 输出翻译成 APA 段落"。本课与第 30 课衔接,但侧重点在 Discussion——即如何在不越界、不过度拔高的前提下,把"测出了什么"提升为"它意味着什么"。
📋 课前准备(5 分钟自检)
工具/账号
- [ ] Claude 4.8 Opus(学术语言最稳)
- [ ] 你的统计软件输出(Jamovi / SPSS 报表截图或导出)
数据/素材
- [ ] 完整的统计分析结果(描述统计 + 假设检验 + 效应量)
- [ ] 文献综述章节里的核心文献(用于 Discussion 对比)
- [ ] 研究假设清单(H1–Hn)
应急通道
- 统计输出还没跑 → 回到第 25-29 课跑分析
- 不知道效应量怎么报告 → 见第 25/26 课的 APA 格式表
场景导入:Results 与 Discussion,错位是最常见的退稿理由
一名学生把统计结果写完后,Results 段里夹了大段"这说明 AI 焦虑正在侵蚀当代大学生的心理健康"的议论,而轮到 Discussion 时,却把 Results 里的数字又复述了一遍,没有一句与前人研究的对照。导师的批注是两条:
- "Results 不要解释。" 这一节的职责是如实陈述测出了什么——哪个假设、用了什么方法、统计量多少、是否显著、效应量多大;"为什么会这样""意味着什么"全部留到 Discussion。
- "Discussion 不是把 Results 再说一遍。" 它的职责是解释发现、与文献对话、指出理论与实践含义,每一句都要么落在数据上、要么落在某篇文献上。
这正是新手最容易混的一对分工:Results 报事实,Discussion 谈意义。 把解释提前塞进 Results,会让审稿人觉得你抢跑下结论;把 Discussion 写成 Results 的复读,又会让审稿人觉得这篇文章"没有讨论"。两种错位,都是高频退稿理由。
这一对分工不是体例上的形式要求,而是由两节各自承担的"举证责任"决定的——下一节先把这个原理讲清楚,再进入写作模板。
原理:为什么 Results 报事实、Discussion 才谈意义
要写好这两节,先理解审稿人在每一节分别在看什么。这不是约定俗成的格式洁癖,而是实证论文的论证链条决定的:先把"证据"摆干净,再在此基础上"论证",读者才能分清哪些是数据、哪些是你的解读。
Results 的职责是"如实呈现证据",所以必须客观、可核对。 审稿人读 Results 时,核对的是:每个假设有没有逐一报告(而不是只挑显著的说)、统计量是否报全(统计值 + 自由度 + p + 效应量 + 区间)、不显著的结果有没有如实交代。这一节里不能出现解释——因为一旦把"为什么"混进来,读者就无法把"客观事实"和"作者推断"分开,证据的可信度随之打折。Results 的语气因此是克制、中性的:只说"测出了 A 与 B 显著负相关",不说"这令人担忧"。
Discussion 的职责是"在证据之上做论证",所以要解释、对比、克制地引申。 审稿人读 Discussion 时,核对的是另一组东西:你的解释有没有数据支撑(每个论点都应能追回 Results 里的某个结果)、你有没有跟前人研究对话(一致/部分一致/在某条件下修正——而不是空泛地说"补足了前人不足")、你的引申有没有超出数据能支撑的范围。Discussion 允许有观点,但观点必须是"戴着镣铐的舞蹈"——镣铐就是你的数据边界。
两节的边界一旦混淆,论证就塌了。 Results 里夹解释 → 读者分不清事实与推断;Discussion 里复述 Results → 文章等于没有讨论。更危险的是第三种:在 Discussion 里把相关当因果、把样本结论外推到全体——这不是文笔问题,而是结论错误。本课后半段会专门处理这条边界。
📐 审稿人在这两节分别看什么(对照速记)
- 看 Results:假设是否逐条报告?统计量是否报全(含效应量与区间)?不显著项有没有如实报?有没有混进不该出现的解释?
- 看 Discussion:每个论点是否有 Results 数据支撑?是否与具体文献对话(标了作者+年份)?引申是否超出样本/设计能支撑的范围?因果话术是否越界?
📘 关键术语(首次出现,先对齐定义)
- 结果(Results section):实证论文中客观陈述统计发现的章节。只报"测出了什么",不展开"为什么"与"意味着什么"。规范要求:每个分析交代方法、报全关键统计量、给效应量、说明假设是否得到支持;不显著的结果也要如实报告。
- 讨论(Discussion section):在 Results 之上做解释与论证的章节。典型内容为:概括核心发现、与前人研究对比、阐述理论贡献与实践启示、引出局限与未来研究。每个论断都应能追溯到 Results 里的某个具体结果。
- 效应量(effect size):刻画关系或差异实际大小的指标(如标准化系数 β、相关 r、Cohen's d、R²、f²),独立于样本量。它回答"效应有多大",而 p 值只回答"是否显著到不像随机噪声",二者必须并报。
- 横断面数据(cross-sectional data):在同一时点测量全部变量的数据(如 Case A 的一次性问卷)。它能揭示变量间的协变/相关,但无法确立时间先后,因而不能据以下因果结论。与之相对的是追踪同一对象多个时点的纵向数据(longitudinal data)。
- 过度拔高(overclaiming):让结论超出数据能支撑的范围。典型三类——把样本结论外推到样本未覆盖的群体、把"补充/扩展"说成"颠覆"、用戏剧化语言夸大后果。这是 Discussion 最常见的硬伤。
🗺️ Results vs Discussion 分工对照
把两节的分工落到一张对照表上——写每一节前先对照一眼,确认自己没有越界。
| 维度 | Results(报事实) | Discussion(谈意义) |
|---|---|---|
| 核心问题 | 测出了什么? | 它意味着什么? |
| 本质 | 客观陈述证据 | 在证据之上做论证(有观点但克制) |
| 内容 | 方法 + 统计量 + 显著性 + 效应量 | 解释 + 与文献对比 + 理论贡献 + 实践启示 |
| 组织顺序 | 按假设顺序逐一报告 | 沙漏式(核心发现 → 逐条对比 → 理论/实践 → 引出局限) |
| 字数 | 简短紧凑(800–1200 字) | 充分展开(1500–2500 字) |
| 语气 | 中性、克制、不评论 | 自信但克制,不夸大 |
| 严禁 | 解释 / 推断 / 评论 | 重复 Results / 外推超样本 / 相关说成因果 |
一句话判据
Results 里出现"这说明 / 这意味着 / 令人担忧"——越界了,挪到 Discussion;Discussion 里整段在复述 β 和 p 而没有一句解释或对比——这一节等于没写。
🚀 拆解实战 A:Results 写作(按假设逐段)
Results 的标准组织方式是按假设顺序逐一报告,每个假设独立成段。一个完整的 Results 章节通常包含以下几段:
第 1 段:描述统计概览(均值/SD/相关矩阵)
第 2 段:H1 检验结果(统计值/自由度/p/效应量)
第 3 段:H2 检验结果
第 4 段:Hn 检验结果
第 5 段:稳健性检验(可选)系统覆盖:每段必含的 5 要素
逐段写时,对照下面五条逐一落实——少任何一条,审稿人都会要求补:
- 用了什么统计方法(如多元回归 / Bootstrap 中介 / 配对 t 检验);
- 核心统计量报全(β/t/F + 自由度 + p + 95% CI + R²,按 APA 体例);
- 效应量大小评估(按 Cohen 基准评小/中/大,不能只报 p);
- 假设是否得到支持(明确写"H1 得到支持/未得到支持");
- 自然过渡到下一段。
⚠️ 边界:Results 只"报",统计量只能来自你的软件输出
这一节里出现的所有 β、t、F、p、R²、效应量,必须是你在 Jamovi / SPSS / Python 里亲手算出的。AI 在 Results 环节只做"把数字表翻译成 APA 段落"这一件事,绝不能让它代算、补一个你没跑的统计量、或改动你粘贴的数字——这是第 30 课讲透的红线。本课聚焦下游的 Discussion,但这条底线在 Results 段同样不可松动。
标准句式
"对 H1 的回归分析显示, AI 焦虑显著负向预测自我效能感
(β = -.21, t(495) = -4.79, p < .001, 95% CI [-.29, -.13]),
效应量为小到中等。H1 得到支持。"说明:上句中的 β/t/p/CI 全部来自统计软件输出,原样搬运;AI(或你本人)只负责把这串数字组织成符合 APA 7th 体例的一句话。句式里出现的"显著负向预测"是规范的关联表述——注意没有用"导致/降低/引起"等因果动词,因为 Case A 是横断面数据(详见后文边界)。
【Role】顶级 SSCI 期刊数据审核与润色编辑。
【Task】下面是我用 Jamovi/SPSS 跑出的多元回归表结果。
**不要重新运算!不可改变数值!**
请严格依据上表中的精确数值(β, t, R², p 值, 95% CI),
为我撰写两段中文学术汇报段落。
【必须遵循】
1. 使用 APA 严谨格式: "回归分析表明,A 对 B 具有显著的负向预测作用
(β = -.34, p < .001, 95% CI [-.45, -.23])..."
2. 每个假设独立成段,明确写"H1 得到支持/未得到支持"
3. 必须报告效应量(Cohen's d / f² / R²)
4. 不要发挥不在表格里的内容,不要写"这说明..."等解释
【粘贴 Jamovi/SPSS 报表】: [Ctrl+V 你的输出]🚀 拆解实战 B:Discussion 沙漏式结构
Discussion 的标准组织是沙漏式——开口宽(概括),中段收窄(逐条对比、落到贡献),收尾再放宽(引出局限与未来研究):
开口宽: 概括核心发现(2-3 句)
↓
中间窄: 逐条与前人对比(约 50% 篇幅)
↓
理论贡献(约 20% 篇幅)
↓
实践启示(约 20% 篇幅)
↓
开口再宽: 引出局限与未来研究(承接第 37 课)📐 这五段各自的"举证标准"
- 核心发现概括:用 2–3 句点出主要结果,并一句话说明本研究在文献中的位置(不是把 Results 复述一遍)。
- 与前人对比:逐条把你的发现与具体文献并置,明确关系是"一致 / 部分一致 / 在某条件下修正",每条都标作者+年份。这是 Discussion 的主体,也是最易写空的部分。
- 理论贡献:基于你实际的数据范围(样本类型 + 研究情境)说清楚补充了什么机制,并指出 1–2 个可被未来研究检验的边界条件。
- 实践启示:落到可操作的具体行为,并写明适用条件——不写"具有重要意义"这类空话。
- 引出局限:自然过渡到下一节(第 37 课)的 Conclusion + Limitation + Future Work。
必教:合理拔高 vs 过度拔高
Discussion 允许有观点,但观点必须落在数据边界之内。把"超出数据能支撑的范围"称为过度拔高(overclaiming)——它是 Discussion 最常见、也最容易被审稿人盯上的硬伤。先记住三条红线:
⚠️ Discussion 三大红线
- 严禁外推到样本未覆盖的群体(你的样本是大学生 → 不要谈"全民")。
- 严禁声称"颠覆"已有研究(你是补充/扩展,不是颠覆)。
- 严禁戏剧化预言(如"若不重视,整个行业明天就崩溃")。
下表把同一个发现写成"过度拔高"与"合理拔高"两版并排对照。注意右列出现的文献均为示意占位(如 [作者, 年]、Wang 等占位、Bandura 自我效能理论为公认经典理论),实际写作时务必替换为你真正查证过的文献,绝不可编造看似真实的文献或 DOI:
| ❌ 过度拔高(审稿人会要求删改) | ✅ 合理拔高(审稿人会认可) |
|---|---|
| "本研究揭示了数字时代心理健康的革命性危机" | "本研究在大学生样本中扩展了 [作者, 年] 在工科生样本中的发现" |
| "如果不重视 AI 焦虑,整个高等教育将崩溃" | "在数字密集型学习情境下,该效应可能进一步放大,未来研究可在此情境中检验" |
| "本文颠覆了过去数十年的自我效能理论" | "本研究的中介路径与 Bandura 自我效能理论一致,但在 AI 情境下呈现出新的作用机制" |
💡 合理拔高的句式公式
"在 [本研究的样本/情境] 中,本研究 [扩展 / 补充 / 在某条件下修正] 了 [某文献] 的发现;该效应在 [某情境] 下可能 [如何变化],未来研究可 [如何检验]。" —— 把"边界条件"明确写进句子,既诚实又显方法学素养。
一处具体改写(看"拧紧"的全过程)
把同一句从过度拔高逐步收回到合理拔高:
- 初版(过度拔高):「本研究证明降低 AI 焦虑能从根本上提升全体大学生的自我效能,颠覆了既有理论。」
- 问题:① "证明…能提升"是因果断言,横断面数据给不出;② "全体大学生"外推超样本;③ "颠覆"夸大;④ 无文献对照。
- 终版(合理拔高):「在本横断面样本中,AI 焦虑与自我效能呈显著负相关,且这一关联部分通过学习策略传导;该模式与 Bandura 自我效能理论一致,并在 AI 情境下补充了一条可能的作用路径。其因果方向有待纵向或实验设计进一步检验。」
Discussion 三问自检
写完 Discussion 后必问:
- 每个观点是否在 Results 里有数据支撑?(没有数据撑的句子,要么删,要么降为"推测"并标明。)
- 我外推的群体是否超出样本范围?(超出 = 红线。)
- 我与前人的关系说清楚了吗?("扩展 / 补充 / 在某条件下修正"——而非空洞的"补足前人不足"。)
📐 Worked Example:把 Case A 的中介结果,写成"一句 Results + 一段 Discussion"
下面用本课程的 Case A 心理问卷数据(N=500,AI 焦虑 Anxiety → 学习策略 Strategy → 自我效能 Efficacy 的中介模型,横断面数据)走一遍完整示范——同一份中介结果,在 Results 里是冷静的一句,在 Discussion 里是克制的一段。关键看两节如何分工,以及横断面数据如何卡住因果话术。
手头的统计输出(已在软件里跑好,来自第 29 课):间接效应 ab = −.14, 95% CI [−.20, −.09];直接效应 c' 的 95% CI [−.22, −.08](仍显著);间接效应占总效应约 49%。
① 写成 Results:只报事实,一句话讲清"测出了什么"
学习策略在 AI 焦虑与自我效能感之间的间接效应显著,ab = −.14,95% CI [−.20, −.09](区间不含 0);控制中介后直接效应仍显著(95% CI [−.22, −.08]),表明学习策略起部分中介作用。
这一句的全部要点:每个数字都原样来自软件输出;"部分中介"的判据是客观的(间接效应 CI 不含 0 → 中介成立;直接效应 c' 仍显著 → 是部分而非完全中介);没有一个字解释"为什么"或"意味着什么"——那是下一段的事。
② 写成 Discussion:在事实之上解释,但守住横断面边界
本研究发现,AI 焦虑不仅与自我效能感呈显著负向关联,且这一关联部分通过学习策略传导(间接效应占比约 49%)。这一中介模式与 Bandura 自我效能理论的预期方向一致
[作者, 年,示意],并在 AI 学习情境下补充了一条具体的作用路径:焦虑较高的学习者可能更少采用有效学习策略,进而与较低的自我效能感相联系。需要强调的是,本研究为横断面设计,上述中介反映的是三个变量在同一时点的协变结构,并不能确立时间先后或因果方向;焦虑、策略与效能三者亦可能互为因果或共受第三变量影响。因此,本文不就"降低焦虑能否提升效能"作因果断言,该问题有待纵向追踪或干预实验进一步检验。在实践层面,这一关联提示(而非证明):在 AI 密集的学习场景中,关注学习者的策略使用,可能是缓解焦虑—效能负向链条的一个值得检验的着力点。
⚠️ 这段 Discussion 守住的三道边界(对照三问自检)
- 相关 ≠ 因果:通篇用"关联 / 传导 / 相联系 / 提示",没有"导致 / 降低就能提升 / 引起"等因果动词——因为横断面数据给不出因果。这是本课最硬的一条边界。
- 不外推超样本:结论始终限定在"AI 学习情境的学习者",没有跳到"全体人群"。
- 与文献的关系说清且不夸大:明确是"与 Bandura 理论方向一致 + 补充一条路径",是扩展而非"颠覆";引用以
[作者, 年,示意]占位,提醒你替换为真实查证的文献,绝不编造。
💡 对照看分工
同一个 ab = −.14:在 Results 里它是"区间不含 0,间接效应显著"的客观陈述;在 Discussion 里它被解读为"焦虑部分通过策略影响效能的一条路径",并立刻被横断面边界框住、拒绝升级为因果。这就是"报事实"与"谈意义"的全部差别。
🚀 拆解实战 C:Discussion 标准 Prompt
【Role】严谨克制的社科 SSCI 审稿人,熟悉本领域常见的过度拔高陷阱。
【背景】我的实证发现:
[填你的 H1-Hn 检验结果摘要,如 "β = -0.21, 中介效应间接占总效应 49%"]
【任务】基于上述发现,为我撰写 Discussion 部分:
1. **核心发现概括(200 字)**:
- 用 2-3 句总结主要发现
- 强调本研究在当前文献中的位置
2. **与前人研究对比(500 字)**:
- 逐条把发现与 [填 2-3 篇关键文献] 对比
- 写清楚是"一致 / 部分一致 / 修正了 / 在 X 条件下相反"
- 必须明确标注文献(作者+年份)
3. **理论贡献(250 字)**:
- 基于实际数据范围(样本类型 + 情境)推断
- 必须指出 1-2 个可被未来研究检验的边界条件
- 严禁外推到样本未覆盖群体
4. **实践启示(200 字)**:
- 落到组织/政策的具体可操作行为
- 严禁"颠覆"、"革命"等夸大词
- 明确启示的适用条件
【红线】
- 严禁戏剧化、夸张语言(如"革命性危机""彻底颠覆")
- 严禁声称"颠覆"已有研究——本研究是扩展/补充,不是颠覆
- 严禁把横断面/相关结果写成因果(禁用"导致/引起/决定")
- 严禁堆砌"具有重要意义""不言而喻"等空话
- 涉及具体文献一律标注(作者+年份);不得编造文献或 DOI🔍 用这个 Prompt 时,你仍要做"把关人"
这个 Prompt 把红线写进了指令,但 AI 仍可能:把相关悄悄写成因果、为了"对比充分"而编造看似真实的文献、或把样本结论外推。它的产出是初稿,不是定稿。 凡是 AI 给出的文献,必须逐条到数据库核实真伪(呼应第 30 课"格式漂亮 ≠ 真实存在");凡是因果味的句子,回到数据设计核对一遍。最终对结论负责的是你,不是被你赋予"审稿人"人设的模型。
跨案例迁移:把 Discussion 的"克制"搬到 Case C(LLM 评估)
上面的 worked example 用的是 Case A 心理问卷。Discussion 的写法在不同学科换的是术语,不变的是"每句话都要落在数据上、不外推、不夸大"。下面换到 Case C:大模型生成质量评估(300 篇文章 × 3 个模型,Quality_GPT5 / Quality_Claude47 / Quality_Gemini25,摘要质量 1–5 分,配对/重复测量设计),看同一套克制原则如何迁移,并顺带演示一类此处特有的越界。
假设你已在软件里跑出(数字用占位,需你用自己的结果替换):三模型整体差异 Friedman 显著;事后配对比较显示 GPT-5 的质量得分显著高于 Claude 4.7(t([df]) = [ ], p = [ ], d = [ ])。
① Results(报事实,一句)
Friedman 检验显示三个模型的摘要质量评分存在显著差异(χ²(2) = [ ], p = [ ]);事后配对比较表明,GPT-5 的质量得分显著高于 Claude 4.7(t([df]) = [ ], p = [ ], d = [ ],中等效应)。
② Discussion(谈意义,但守住边界)
在本评估的摘要任务与评分标准下,GPT-5 的质量得分显著高于 Claude 4.7,差异达到中等效应量。这一结果仅表明在本研究设定的任务、语料与 1–5 分质量标准下两模型存在可测的得分差异,并不意味着某一模型在所有任务上"更智能"或"更强"。模型表现高度依赖评测任务、提示词与评分维度,未来研究可在更广的任务集与多语种语料上检验该差异是否稳定。
⚠️ Case C 这一段特有的越界(也是过度拔高的变体)
- 拟人化越界:写"GPT-5 更聪明 / 更懂用户"是把"某任务的得分差"夸大为"通用智力差"——等同于把样本结论外推到样本外。规范写法是"在本任务/本评分标准下,得分显著高于"。
- 基准与口径要交代:Case C 的比较基准是 Claude 4.7;不可把"4.7 上的结论"说成对最新模型(如 Claude 4.8)的评价。模型口径与版本,本身就是 Discussion 里必须讲清的边界条件。
🔁 迁移要点
对比 Case A 与 Case C:数据(问卷 vs 模型评分)、方法(中介 vs 配对 t/Friedman)全变了,但 Discussion 的三件事没变——落在数据上、不外推、不夸大。Case A 的边界是"横断面不可下因果",Case C 的边界是"某任务得分差不可说成通用更强";二者是同一条原则在不同情境的样子。
Discussion 段落:写砸 vs 写好
同一份 Case A 发现,Discussion 可以写成"会被审稿人退改"也可以写成"会被认可"。下面把最常见的失分点逐项并排对照——左列是学员高频写法,右列是把同一处"拧紧"后的写法。
| 维度 | 写砸 ❌ | 写好 ✅ | 为什么 |
|---|---|---|---|
| 与 Results 的关系 | 把 β、p 又复述一遍 | 概括发现后立刻进入解释与对比 | Discussion 不是 Results 的复读;复述等于"没有讨论" |
| 因果措辞 | "降低 AI 焦虑就能提升自我效能" | "AI 焦虑与自我效能呈负向关联,方向待纵向设计检验" | 横断面数据只能谈关联;因果断言是结论错误,不是文笔问题 |
| 外推范围 | "本研究揭示了当代青年的普遍心理危机" | "在本大学生样本中观察到上述关联" | 结论不得超出样本覆盖的群体 |
| 与前人关系 | "本文颠覆了自我效能理论" / "补足了前人不足" | "与 Bandura 理论方向一致,并补充 AI 情境下的一条路径" | 用"扩展/补充/某条件下修正",而非"颠覆"或空洞的"补足不足" |
| 文献引用 | 给出格式完美但来源不明的文献 | 引用经核实的文献,标作者+年份;不确定就先占位 | AI 可能编造文献;格式漂亮 ≠ 真实存在,须逐条核实 |
| 实践启示 | "本研究具有重大现实意义" | "在 AI 密集学习场景中,关注策略使用可能是一个值得检验的着力点,并说明适用条件" | "重大意义"不可执行;启示要落到具体行为 + 适用条件 |
| 语气 | "如不重视,高等教育将崩溃" | "该效应在某情境下可能放大,未来研究可检验" | 戏剧化预言会被当作不严谨;克制陈述才显方法学素养 |
💡 一句话判据
检验一段 Discussion 写得好不好,问五件事:有没有复述 Results?因果动词清干净了吗?外推有没有超样本?与前人关系说清了吗(且没说"颠覆")?文献是不是真的、启示能不能落地? 五者都过关,这段才从"复读 + 喊口号"升级成"真正的讨论"。
常见误区与纠正
Discussion 写作阶段,学员的问题高度集中在"把相关说成因果"和"让结论超出数据"。下表是最高频的几种,照着对号入座即可:
| 常见误区 | 症状 | 纠正方法 |
|---|---|---|
| Results 里夹解释 | 报数字的同时写"这说明/令人担忧" | 解释一律挪到 Discussion;Results 只陈述事实 |
| Discussion 复述 Results | 整段在重报 β、t、p,无解释无对比 | 概括发现后立刻进入"解释 + 与文献对比" |
| 相关说成因果 | 横断面/相关数据写"导致/引起/决定" | 一律改"预测/关联/与……相关";因果须靠纵向或实验设计 |
| 外推超样本 | 大学生样本谈"全民/当代青年" | 结论限定在样本覆盖的群体内 |
| 声称"颠覆" | "颠覆了过去 N 年的理论" | 用"扩展/补充/在某条件下修正",绝大多数研究是扩展 |
| 空洞对比前人 | "补足了前人不足"却不说哪一篇、哪一点 | 逐条对具体文献,写清"一致/部分一致/修正",标作者+年份 |
| 编造文献 | AI 给出格式完美但查不到的文献 | 逐条到数据库核实;不确定先占位 [作者, 年],绝不编造 DOI |
| 戏剧化夸大 | "革命性危机""明天就崩溃" | 删夸张词;改"可能/值得检验"的克制陈述 |
| 空话启示 | "具有重要现实意义" | 落到具体可操作行为 + 适用条件 |
AI 初稿不满意?如何迭代与把关
让 AI 写 Discussion,首版几乎一定需要返修——这很正常。Discussion 的"不对劲"通常是三类:越界(相关写成因果/外推超样本)、空洞(复述 Results 或喊口号)、失真(编造文献)。逐类对症,不要推倒重写。
- 越界 → 局部纠偏 + 加固红线。 出现因果动词,追加一句"全文禁用'导致/引起/决定/证明',横断面数据只描述预测与关联";出现外推,追加"结论一律限定在本研究样本(如大学生)范围内,不得推及全体人群"。
- 空洞 → 指明缺的是哪一段。 整段在复述 Results → 要求"删去数字复述,每段先给一句解释,再对一篇具体文献";启示喊口号 → 要求"把'重要意义'改成可操作的具体行为,并写明适用条件"。
- 失真 → 这是最危险的一类,必须人工核验。 AI 给的每一篇文献都要到数据库逐条核实真伪(呼应第 30 课的幻觉边界);查不到的,宁可用
[作者, 年]占位,也绝不把一条编造的文献写进正文。
一句话
首版不满意不是 AI 没用,而是它默认会往"读着顺、听着响"的方向写——而 Discussion 要的恰恰是"听着稳、经得起核"。定位到是越界/空洞/失真哪一类,局部纠偏,并始终由你做最后把关。
边界与局限:AI 在 Results 与 Discussion 能做什么、不能做什么
这两节里 AI 能帮的与不能碰的,边界清晰。把下面几条记牢,比多背一个句式更重要。
| 边界 / 失效场景 | 为什么会这样 | 你应该怎么做 |
|---|---|---|
| Results:AI 只能翻译,不能代算 | 大模型按概率续写、不接入你的数据;让它"算 β/p/效应量"只会得到看似合理实则编造的数字(幻觉) | 统计量一律在软件里算;AI 只把你粘贴的输出转写成 APA 段落(第 30 课) |
| Discussion:AI 倾向于"过度拔高" | 语料里"宏大、戏剧化"的表达高频出现,模型会自然向那一端续写;它不知道你的数据边界在哪 | 把红线(不外推/不颠覆/不戏剧化/不因果)写进提示词,并逐句人工核 |
| 相关 ≠ 因果,AI 不会自动守住 | 模型不"知道"你的数据是横断面还是纵向;它会顺着你给的措辞写因果 | 你来判定设计类型;横断面/相关一律只写预测、关联(Case A 即如此) |
| AI 会编造文献 | 它按"该出现一篇文献"的概率续写出作者+年份,格式完美但可能查无此文 | 每篇文献逐条核实;不确定先占位,绝不让编造文献进正文或参考文献 |
| "显著 ≠ 重要 ≠ 通用" | 大样本下微小效应也显著;某任务的得分差不等于通用更强(Case C) | 结合效应量与情境谈意义;得分差只在本任务、本口径下成立 |
⚠️ 本课红线:AI 辅助,但人担责
这两节里,对"结果报得准不准、因果能不能下、文献是不是真的、结论有没有超出数据"负责的,始终是你本人,不是被你赋予"编辑"或"审稿人"人设的模型。AI 可以帮你把句子写顺、把结构搭好,但它不会替你守边界:横断面数据能不能谈因果、样本能不能外推、某篇文献是否真实存在——这些判断都必须由你做出并核验。把"算"留给软件、"写顺"交给 AI、"判断与担责"留给自己,这条线一旦松动,论文的可信度就归零。
📦 本课交付物
按本节实操任务完成并提交以下内容,提交 AI 初审,按 Module_Rubrics.md 对应维度评分:
- [ ] Results 终稿(约 800–1200 字):按假设顺序逐一报告,每段含 5 要素(方法 + 统计量 + 效应量 + 假设结论 + 过渡),数字逐项与软件输出对齐、无改动无编造。
- [ ] Discussion 终稿(约 1500–2500 字):沙漏结构 + 与 2–3 篇已核实文献逐条对比 + 理论贡献 + 实践启示,全文无因果越界、无外推超样本。
- [ ] 三问自检表:填出"是否外推超样本 / 是否声称颠覆 / 与前人关系是否说清"三项,逐项给出证据。
- [ ] AI 协作日志:记录至少 1 处"AI 输出过度拔高(或因果越界/编造文献)→ 你打回 → AI 修正"的完整过程。
- [ ] 四维质检记录:用
Course_QA_Checklists.md(事实 / 逻辑 / 格式 / 引用)核查本节 AI 输出,重点查"是否出现因果措辞、文献是否真实存在"。 - [ ] 沉淀模板:将本课 Discussion Prompt 与"三问自检 / 五件事判据"加入个人工具箱。
🏁 本章小结
把本课凝练成可据以复习的几条要点:
- 核心分工:Results 报事实(测出了什么——方法 + 统计量 + 效应量 + 假设结论,客观不解释);Discussion 谈意义(这意味着什么——解释 + 与文献对比 + 理论贡献 + 实践启示)。Results 里夹解释、Discussion 里复述 Results,都是高频退稿理由。
- 为什么这样分:两节承担不同的"举证责任"——Results 把证据摆干净(所以客观),Discussion 在证据之上做论证(所以有观点但克制)。审稿人在两节分别核对的东西不同(见上文对照)。
- Discussion 结构:沙漏式——核心发现概括 → 逐条与具体文献对比(主体)→ 理论贡献 → 实践启示 → 引出局限(接第 37 课)。
- 最硬的边界——相关 ≠ 因果:Case A 是横断面数据,中介只反映同一时点的协变结构,不能据以写"降低焦虑就能提升效能";因果须靠纵向或实验设计。这条边界 AI 不会替你守住。
- 过度拔高的三类硬伤:外推超样本、声称"颠覆"、戏剧化预言。绝大多数研究是"扩展/补充/在某条件下修正"前人,而非颠覆。
- AI 辅助但人担责:AI 能把句子写顺、结构搭好,但会过度拔高、会把相关写成因果、会编造文献。它的产出是初稿;对"因果能否下、样本能否外推、文献是否真实"负责并核验的,始终是你本人。涉及文献一律占位或核实,绝不编造看似真实的文献或 DOI。
自测清单(可保留逐项打勾)
- [ ] 我能讲清 Results(报事实)与 Discussion(谈意义)的分工,并说出审稿人在两节分别看什么。
- [ ] 我的 Results 按假设顺序报告,每段含 5 要素,且 p 与效应量并报。
- [ ] 我能把 Case A 的中介结果写成"一句 Results + 一段 Discussion",并在 Discussion 里守住横断面边界。
- [ ] 我的 Discussion 用沙漏式结构,与前人的关系是"扩展/补充/某条件下修正"而非"颠覆"。
- [ ] 我能识别并改掉 AI 的过度拔高(外推超样本 / 声称颠覆 / 戏剧化 / 相关说成因果)。
- [ ] 我清楚 AI 可能编造文献,会逐条核实,不让编造文献进正文或参考文献。
✍️ 思考与练习
下列练习用于把本节概念用起来(区别于"本课交付物"里的任务),建议写在你的本地笔记中。
练习 1(分工辨析)。 下面是某同学的一句"Results":「AI 焦虑显著负向预测自我效能感(β = −.34, p < .001),这说明当代大学生正深陷由 AI 引发的心理危机,亟需干预。」请指出这句话哪部分属于 Results、哪部分越界到了 Discussion,并把它拆成规范的"一句 Results + 一句 Discussion"。
好答案要点:前半句(β、p、"负向预测")是合格的 Results;"这说明……心理危机,亟需干预"是解释 + 价值判断 + 外推,属 Discussion 内容,且"危机/亟需干预"已过度拔高。规范拆法——Results:「AI 焦虑显著负向预测自我效能感(β = −.34, p < .001)。」Discussion:「这一负向关联与 [作者, 年] 一致;在本大学生样本中提示二者值得关注,但其因果方向有待纵向设计检验。」(不写"危机/导致"。)
练习 2(横断面边界,紧扣 Case A)。 给定 Case A 中介输出:间接效应 ab = −.14, 95% CI [−.20, −.09],直接效应 c' 的 95% CI [−.22, −.08]。请:(a) 写一句规范的 Results 报告该中介并说清"部分中介"的判据;(b) 写一句 Discussion 解读它,并说明为什么不能写成"降低 AI 焦虑可通过提升策略来提高效能"。
好答案要点:(a) 间接效应 CI 不含 0 → 中介显著;c' 的 CI 也不含 0、仍显著 → 部分中介(若 c' 不显著才是完全中介);数字原样取自输出。(b) Case A 是横断面数据,中介只反映三者协变结构、无时间先后与机制,写"降低焦虑可提升效能"是因果越界——相关/中介 ≠ 因果;正确措辞止于"关联/部分通过策略传导",并注明因果待纵向或实验检验。
练习 3(识别过度拔高 + 改写)。 AI 为 Case A 写的 Discussion 片段:「本研究颠覆了传统自我效能理论,证明 AI 焦虑是全体大学生心理健康的决定性因素;若不及时干预,高等教育质量将全面崩溃。它给出了三篇支持该结论的文献(作者、年份俱全)。」请逐处指出踩中了哪些红线,并改写成合理拔高;对那三篇文献你会怎么处理?
好答案要点:「颠覆」=声称颠覆(应改"扩展/补充");「证明……决定性」=相关说成因果(横断面不可,应改"关联/可能的路径");「全体大学生」=外推超样本(限定在本样本);「全面崩溃」=戏剧化预言(删,改"可能放大,值得检验")。三篇文献必须逐条到数据库核实——格式漂亮 ≠ 真实存在,AI 可能编造;查不到就用
[作者, 年]占位或删除,绝不直接采信。改写示例:「在本大学生样本中,AI 焦虑与自我效能呈显著负向关联,与 [作者, 年] 方向一致,并在 AI 情境下补充了一条可能路径;其因果方向有待纵向设计检验。」
练习 4(跨案例边界,紧扣 Case C)。 Case C 中你跑出 GPT-5 的摘要质量得分显著高于 Claude 4.7(中等效应)。同学想在 Discussion 里写"GPT-5 比 Claude 4.7 更智能、更适合所有写作任务"。请指出这句话踩中了哪条边界,并给出规范写法;另外说明在 Discussion 里为什么要交代"比较基准是 Claude 4.7"。
好答案要点:这是拟人化 + 外推越界——把"某一摘要任务、1–5 分质量标准下的得分差"夸大为"通用更智能、适合所有任务",等于把样本结论推到样本外;模型表现高度依赖任务/提示词/评分维度。规范写法:"在本评估的摘要任务与质量标准下,GPT-5 的得分显著高于 Claude 4.7(中等效应),该差异在更广任务集上是否稳定有待检验。"交代基准是 Claude 4.7 是因为:结论只对该版本成立,不可把"4.7 上的结论"说成对最新模型(如 Claude 4.8)的评价——模型口径与版本本身就是必须写明的边界条件。
