第 30 课：AI 辅助结果解释与 Results 写作

🎯 核心实操目标

本课目标：让 AI 把 Jamovi / SPSS 跑出的统计输出表，翻译成符合 APA 7th 格式的 Results 学术段落。本课你将掌握 「学术翻译官」Prompt —— AI 只负责语言转换，绝不允许重新计算或编造任何数字。同时系统识别 AI 解读统计结果的 5 大高危错误（虚报显著、过度解读不显著、相关误作因果、效应量误读、p 值张冠李戴）。

本课位于整个量化研究流程的最后一公里：数据已清洗（第 23 课）、描述统计已跑（第 24 课）、t 检验与方差分析已做（第 25 课）、相关与回归已做（第 26 课）、信效度与 EFA 已检验（第 27–28 课）、中介已检验（第 29 课）——所有统计量都已由你在软件里算好。Results 写作不是再算一遍，而是把这些既成结果用审稿人能接受的术语准确转写出来。理解这一点，就抓住了本课贯穿始终的红线。

📋 课前准备（5 分钟自检）

工具/账号

[ ] Claude 4.8 Opus（学术语言最严谨）或 GPT-5
[ ] Kimi K2（备用，长上下文塞入大批量统计输出）

数据/素材

[ ] 完整的统计软件输出（来自第 25-29 课）
[ ] 标准 APA 格式参考样例（从已发表论文找一篇）

应急通道

AI 改了你的数字 → 立即打回，强调"不可重新计算"
AI 给的解读不符合学科规范 → 加入具体期刊样例作为风格锚点

场景导入：Results 难的不是算，而是"把已算出的结果说清楚"

一名学生跑完 Jamovi，得到长达数页的回归与中介输出：Estimate / SE / t / p / 95% CI / R² / F / df1 / df2 / VIF…… 数字一个不缺。可是轮到写 Results 部分时，他的初稿只有一句话："所以这些变量之间有关系。"——导师的批注是："关系是正还是负？多强？显著吗？支持哪个假设？这一句等于没写。"
问题不在数据，而在转写。Results 章节的职责是把统计软件的输出，逐项翻译成一段段结构规范、可被审稿人核对的文字：用了什么方法、关键统计量是多少、效应量算大算小、假设是否得到支持。这套转写有固定的体例（APA 7th），也有固定的雷区（虚报显著、把"预测"写成"导致"）。
这正是 AI 能帮上忙的环节，但角色必须划清：AI 是翻译官，不是计算器。它的任务不是重新计算、不是给你新数字，而是把你已经跑出的输出，用 APA 术语准确转写出来。为什么这条边界如此重要、越界会出什么事，是下一节【原理】要讲清的核心。

原理：为什么 AI 在 Results 只能当"翻译官"，不能当"计算器"

Results 写作要用 AI，先得理解一件事——为什么同一个大模型，能可靠地帮你润色文字，却绝不能让它替你算统计量。 这不是规章制度，而是由模型的工作机制决定的硬边界。

它在做什么——按概率续写"下一个最可能的词"，而不是执行计算。 大语言模型的本质是一个语言概率模型：给定上文，它预测下一个 token 的概率分布，再采样输出。当你把一张 Jamovi 输出表粘给它、要求"转写成 APA 段落"，它做的是语言到语言的映射——这件事它训练语料里见过千万遍，干得又快又好。但当你把原始数据丢给它、要求"算一下相关系数"，它并不会去跑皮尔逊公式、做矩阵运算；它只会续写出一串看起来像相关系数的数字——因为在它见过的语料里，"相关系数"后面通常跟着形如 r = .31, p < .01 的字符串。这串数字读起来天衣无缝，却与你的真实数据毫无算术关系，纯属概率续写的产物。
为什么这样做必然出错——它没有"接入你的数据"这一步。 你的 500 行问卷数据，从未进入模型的任何计算回路。模型既不知道你第 37 个被试的 Anxiety_3 填了几分，也无法对你的列做求和、求平均、求协方差。它能"算对"的唯一情形，是这道题恰好和训练语料里某个例子的数字对上了——可遇不可求，且你无从验证。所以"让 AI 代算统计量"在原理上就是缘木求鱼：你要的是基于你这批数据的真值，它能给的只是基于语料统计规律的仿真值。这种看似合理实则编造的输出，就是大模型的幻觉（hallucination）。
同样是这套机制，为什么"翻译"却可靠——因为翻译不要求它生成新数值。 把"β = −.21, t(495) = −4.79, p < .001"转写成"AI 焦虑显著负向预测自我效能感"，模型只是在做术语和句式的转换，所有数字都来自你粘贴的输入、原样搬运。它不需要凭空产生任何统计量，幻觉就无从发生。这就是本课方法的全部立足点：把"算"的环节彻底留在统计软件里，只把"写"的环节交给 AI。 一旦让它跨过这条线去"补一个你没跑的数字""顺手算个效应量"，它立刻从可靠的翻译官退化成不可信的计算器。

⚠️ 本课红线（贯穿整个量化模块）

凡是 β、t、F、R²、p 值、95% CI、Cohen's d、η²、相关系数、信度 α——一律由你在 Jamovi / SPSS 里算出。 AI 的唯一职责是把这些已经算好的数字翻译成符合 APA 的中文段落。任何时候 AI 给出的数字与你的软件输出对不上，以软件输出为准，并视为 AI 出错。把"算"留给软件、把"写"交给 AI、把"判断"留给自己——三者不可混淆。

📘 关键术语（首次出现，先对齐定义）

结果报告（Results section）：实证论文中客观陈述统计发现的章节，只报"测出了什么"，不展开"为什么"与"意味着什么"（后者属 Discussion）。APA 规范要求：每个分析交代方法、报全关键统计量、给效应量、说明假设是否得到支持。
APA 格式（APA 7th）：美国心理学会第 7 版出版手册规定的报告体例，社科领域通用。统计量有固定写法，如 t(498) = −4.32, p < .001、F(4, 495) = 35.78, p < .001, R² = .22、95% CI [−.20, −.09]；数字一般保留 2 位小数，p 值小于 .001 时写 p < .001 而非具体值。
统计量翻译（statistic-to-prose translation）：本课的核心动作——把软件输出的数字表，转写为符合 APA 体例、含解读与过渡的连续文字。强调"翻译"是为了凸显其边界：只做语言转换，不做数值生成。
效应量（effect size）：刻画关系或差异实际大小的指标（如标准化系数 β、相关 r、Cohen's d、R²、η²），独立于样本量。它回答"这个效应有多大"，而 p 值只回答"这个效应是否显著到不像随机噪声"——二者必须并报（详见【边界与局限】）。
置信区间（confidence interval, CI）：对参数真值的区间估计，如 95% CI [−.20, −.09]。中介分析中常据其是否包含 0 判断间接效应是否显著（不含 0 即显著）。
幻觉（hallucination）：大模型生成的、看似合理、格式完美，但与事实/数据不符的内容。在 Results 场景中典型表现为：编造一个你没跑的统计量、或改动你粘贴的数字。

🗺️ 学术翻译官的工作边界

下表把"翻译官"与"计算器"的分工落到清单上——左列是 AI 在 Results 环节能做且做得好的，右列是越界即出问题的红线动作。把它当作每次让 AI 改稿前的对照表。

✅ AI 可以做	❌ AI 绝不能做
把 Jamovi 输出表格转为 APA 文字	重新计算 p 值或 β
添加合适的过渡句和结构	修改你已跑出的数字
解读效应量大小（小/中/大）	凭空补齐你没跑的数字
标注 H1/H2 是否得到支持	推断你没检验的因果关系
提示哪里需要补稳健性检验	把横截面回归解读为因果

即便只让 AI"翻译"、不让它"算"，它仍可能在转写环节犯下 5 类高危错误。这些错误的根子都一样——模型按"读起来顺"而非"统计上对"来续写，于是把临界值说成显著、给不显著结果强加趋势、把"预测"顺手写成"导致"。先记住这张清单，本课【拆解实战 C】会逐条给出错误样例与修正。

⚠️ AI 解读统计的 5 大高危错误

虚报显著性：把 p = .051 说成 p < .05（临界值被四舍五入成"显著"）。
过度解读不显著结果："虽然不显著但仍有趋势……"（不显著就是没差异，"趋势"是无中生有）。
混淆相关与因果：把"预测 / 关联"换成"导致 / 引起"（横断面数据尤其不能下因果）。
效应量误读：把 β = .15 称为"强影响"（.15 是弱到小效应，不是强）。
p 值张冠李戴：把变量 X1 的 p 值报到 X2 的描述里（数字与变量错配）。

🚀 拆解实战 A：学术翻译官标准 Prompt

Jamovi → APA 翻译官 Prompt (一键复制)

markdown

【Role】顶级 SSCI 期刊数据审核与论文编辑。

【Safety Constraint - 核心红线】
我会向你提供 Jamovi/SPSS 的统计输出原文。
- 严禁重新计算任何数值!
- 严禁修改我提供的数字!
- 严禁补充我没跑的统计量!

【Task】请把下面我跑出的统计输出, 翻译为论文 Results 部分的
APA 格式学术段落。

【格式要求】
1. 严格 APA 7th 格式: "回归分析表明, A 对 B 具有显著的
   负向预测作用(β = -.34, t(498) = -6.21, p < .001,
   95% CI [-.45, -.23]), 效应量为中等水平。"

2. 每个假设独立成段, 明确说明:
   - 用了什么统计方法
   - 关键统计量是什么(t/F/β/R²/p/CI)
   - 效应量大小评估(小/中/大)
   - H1 / H2 是否得到支持

3. 永远使用"预测"、"关联"、"显著差异",
   **绝对禁止**"导致"、"决定"、"引起"等因果动词

4. 如发现我没跑某项关键统计量, 标记"⚠️ 缺失"
   而不要替我编造

【Jamovi 输出】[在此粘贴]

🚀 拆解实战 B：典型场景示范

场景 1：多元回归输出 → APA

输入（Jamovi 输出原样）：

Model: Efficacy_Mean ~ Anxiety_Mean + Strategy_Mean + Gender + Grade
R² = .224, Adjusted R² = .218, F(4, 495) = 35.78, p < .001

Coefficients:
                Estimate   SE     β     t      p
Intercept        2.512    .128         19.62  <.001
Anxiety_Mean    -.187     .039   -.21  -4.79  <.001
Strategy_Mean    .421     .046    .38   9.15  <.001
Gender(F)       -.054     .062   -.04   -.87   .386
Grade            .032     .025    .05   1.28   .200

AI 翻译后输出（节选）：

为检验 H1, 以自我效能感为因变量, AI 焦虑与学习策略为预测变量,
控制性别与年级, 构建多元线性回归模型。

模型整体显著, F(4, 495) = 35.78, p < .001, R² = .224(Adj. R² = .218),
表明四个预测变量共解释了自我效能感 22.4% 的方差。

控制其他变量后:
- AI 焦虑显著负向预测自我效能感(β = -.21, t(495) = -4.79, p < .001),
  效应量小到中等;
- 学习策略显著正向预测自我效能感(β = .38, t(495) = 9.15, p < .001),
  效应量中等偏大;
- 控制变量中, 性别(β = -.04, p = .386)和年级(β = .05, p = .200)
  均不显著。

H1 得到支持。

场景 2：Bootstrap 中介结果 → APA

输入：

Indirect effect (Anxiety → Strategy → Efficacy):
ab = -.143, SE = .025, 95% CI [-.20, -.09]
Direct effect: c' = -.15, p = .002
Total effect: c = -.29, p < .001
Proportion mediated: 49.3%

AI 翻译后输出：

为检验 H2, 采用 Bootstrap 中介检验(5000 次重抽样)。
学习策略在 AI 焦虑与自我效能感之间的**间接效应显著**,
ab = -.143, SE = .025, 95% CI [-.20, -.09](置信区间不含 0)。
直接效应 c' = -.15, p = .002 仍然显著, 总效应 c = -.29, p < .001。
间接效应占总效应的 49.3%, 表明**学习策略起部分中介作用**。
H2 得到支持。

📐 Worked Example：把 Case A 中介输出逐项翻译成 APA Results 段落

上面这段就是本课最核心的"翻译"示范——把第 29 课跑出的 Bootstrap 中介结果，转写成可投稿的 Results 文字。逐句拆解 AI 做了什么、没做什么：

ab = −.143, 95% CI [−.20, −.09]（间接效应）：这两个数字原样搬自你的软件输出，AI 一个字没改。判据是"CI 不含 0 即显著"——区间上界 −.09 仍在 0 以下，故间接效应显著。AI 把这条判据翻译成了一句中文，但判断本身基于你算出的区间，不是它重算的。
c' = −.15（直接效应，95% CI [−.22, −.08]）仍显著：控制中介后，AI 焦虑对自我效能感仍有显著直接路径，所以是部分中介而非完全中介。"部分 / 完全"的区分由 c' 是否仍显著决定——这是规范，不是 AI 的发挥。
间接效应占比 ≈ 49%：由 ab / c = −.143 / −.29 ≈ 0.49 得到，这个比值同样来自你的输出表，AI 只负责把它读成"部分中介"的语言佐证。

这一步示范了翻译的全部要义：每个数字都能在你的软件输出里逐一对上，AI 只贡献了术语（间接/直接/总效应、部分中介）和句式（APA 体例），没有贡献任何一个新数值。反过来，若 AI 写出一个你输出里找不到的数字（比如自作主张补一个 Sobel 检验的 z 值），那一定是幻觉，必须删。

⚠️ 中介结论的边界：Case A 是横断面数据，不能据此下因果

这段 Results 写"学习策略起部分中介作用"是规范的；但绝不能因此写成"降低 AI 焦虑就能通过提升策略来提高效能"。Case A 是横断面问卷（同一时点测全部变量），统计上的中介只反映三者的协变结构，给不出时间先后与因果方向——焦虑、策略、效能完全可能互为因果或共受第三变量影响。"中介"是一种模型设定下的统计关系，不是因果链的证据。这条边界在【边界与局限】会再展开，写 Discussion 时尤其要守住。

🚀 拆解实战 C：识别 AI 的 5 大高危错误

下面把 5 大错误逐条配上真实可能出现的 AI 错误输出与修正。注意每条的修正动作不是"换个说法"，而是回到统计事实本身。

错误 1：虚报显著性

AI 错误输出：

"AI 焦虑显著负向预测自我效能感(p = .051)..."

问题：以 α = .05 为界，p = .051 不显著（尽管极接近临界值）。显著与否由预先设定的 α 决定，不能因"差一点"就跨线。修正：如实写"未达显著水平（p = .051）"。注意：旧文献常用的"边缘显著 / marginally significant"措辞，近年 APA 与许多期刊已不鼓励——它容易把"没通过"包装成"几乎通过"。稳妥做法是直接报 p 值并明确"不显著"，把解释权交给读者。

错误 2：过度解读不显著

AI 错误输出：

"虽然性别效应不显著(p = .386), 但呈现出女生焦虑略高的趋势..."

问题："趋势"是不存在的——p = .386 等于没差异。修正：直接说"性别效应不显著"，不要扩展。

错误 3：混淆相关与因果

AI 错误输出：

"AI 焦虑导致了自我效能下降..."

问题：Case A 是横断面相关/回归数据，"导致 / 引起 / 决定"是因果断言，数据支撑不了——回归里的"预测"只是统计上的关联，不含时间先后与机制。修正：改为"AI 焦虑负向预测自我效能感"。因果动词一律换成"预测 / 关联 / 与……负相关"。

错误 4：效应量误读

AI 错误输出：

"β = .15 表明 AI 焦虑对自我效能有强烈影响..."

问题：β = .15 是弱到小效应，不是强。修正：报告"弱到中等效应量"。

错误 5：p 值张冠李戴

AI 错误输出：把变量 X1（如 AI 焦虑）的 p 值，报到了 X2（如学习策略）的描述里。

问题：模型按语言流畅度续写，可能把相邻行的数字错配到另一个变量上——读起来通顺，对照表却错位。这是最隐蔽的一类错误，因为单看段落毫无破绽。修正：逐项核对输出表的每一行与段落里每个数字的对应关系（变量名 ↔ β ↔ t ↔ p 一一对上）。这也是【拆解实战 E】自检 Prompt 第 4 条要专门查的。

🚀 拆解实战 D：Results 段落完整模板

完整的 Results 章节应有 4-5 段：

4.1 描述统计       —— 见第 24 课
4.2 信度与相关分析  —— 见第 27 / 26 课
4.3 H1 检验(回归)  —— 本课重点 1
4.4 H2 检验(中介)  —— 本课重点 2
4.5 H3 检验(调节,可选)
4.6 稳健性检验(可选)

每段必含的 5 要素：

用了什么统计方法
核心数字（β/t/F/p/CI/R²）
效应量大小评估
是否得到支持的结论
自然过渡到下一段

🚀 拆解实战 E：自检 Prompt（写完后必跑）

Results 段落自检 Prompt

markdown

【Role】严苛的盲审专家。

【任务】请挑剔地核查下方 Results 段落, 找出所有可能的问题:

1. 是否所有显著性都用了正确的符号(p < .001, p < .05 等)?
2. 是否报告了完整的效应量(d / β / η² / R²)?
3. 是否使用了非因果动词("预测"/"关联")?
4. 数字是否前后一致(摘要数字 vs 表格数字 vs 段落数字)?
5. 是否有"虚报显著"或"过度解读不显著"的迹象?

【段落】[粘贴你刚写的 Results 段落]

Results 段落：写砸 vs 写好

同一份回归输出，翻译成段落可以是"勉强及格"也可以是"可投稿"。下面把 Results 段最常见的失分点逐项拆开并排对照——左列是学员的高频写法，右列是把同一处"拧紧"后的写法。所有数字均取自上文【拆解实战 B 场景 1】的回归输出。

维度	写砸 ❌	写好 ✅	为什么
方法交代	做了回归	以自我效能感为因变量，AI 焦虑、学习策略为预测变量，控制性别与年级，构建多元线性回归	不写清因变量/自变量/控制变量，审稿人无法判断模型设定是否合理
整体拟合	模型不错	模型整体显著，F(4, 495) = 35.78, p < .001, R² = .22，解释方差 22%	"不错"不可检验；F、p、R² 三者齐全才说明模型立得住
系数报告	焦虑影响很大	AI 焦虑显著负向预测自我效能感（β = −.21, t(495) = −4.79, p < .001），效应量小到中等	光说"影响大"是误读：β = −.21 属小到中等，不是"大"；须报全 β/t/p 并据 Cohen 基准评效应量
不显著项	性别也有点关系	性别（β = −.04, p = .386）与年级（β = .05, p = .200）均不显著	p > .05 就是不显著，"有点关系"是过度解读；不显著也要如实报，不能藏
因果措辞	焦虑导致效能下降	AI 焦虑负向预测自我效能感	横断面回归只能谈"预测/关联"，"导致"是越界——相关 ≠ 因果
效应量	（只报 p 值）	每个显著系数后标注效应量（β = −.21，小到中等；β = .38，中等偏大）	p 只回答"是否显著"，不回答"有多大"；APA 要求 p 与效应量并报
结论与过渡	（戛然而止）	"综上，H1 得到支持。下一节进一步检验学习策略的中介作用（4.4 节）。"	Results 每段要明确假设是否支持，并自然引到下一分析

💡 一句话判据

检验一段 Results 写得好不好，问四件事：方法说清了吗？每个数字都报全（含效应量）了吗？不显著项有没有如实报、没被过度解读？因果动词清干净了吗？ 四者都过关，这一段才从"报数字"升级成"讲清楚结果"。

跨案例迁移：把翻译流程搬到 Case C（LLM 评估，配对/重复测量）

上面两个 worked example 用的是 Case A 心理问卷。Results 翻译的价值在于换数据只换变量、方法与解读，"先算后译、AI 不代算"的骨架不变。下面换一个完全不同的领域——Case C：大模型生成质量评估，300 篇文章 × 3 个模型，列 Quality_GPT5 / Quality_Claude47 / Quality_Gemini25（各为 Fluency / Accuracy / Coverage 三维的平均分，1–5 分），演示同一套翻译流程，并借此讲透一个最容易被 AI 写错的方法选择问题。

第一步（在软件里算）：先选对检验，这一步 AI 不能替你定

Case C 的关键特征：同一篇文章被三个模型分别打分，所以三列分数不是相互独立的，而是配对/重复测量（repeated measures / within-subjects）——好比同一批考生考了三套卷，比较的是"同一对象在不同条件下"的差异。这决定了检验方法：

两个模型两两比较（如 GPT-5 vs Claude 4.7）→ 配对样本 t 检验（ttest_rel），不是独立样本 t 检验；
三个模型整体比较 → 重复测量方差分析；分布不满足正态假设时用其非参数对应 Friedman 检验。

⚠️ 这正是 5 大错误在"方法层"的变体

如果不假思索套用独立样本 t 检验，就等于假装"给 GPT-5 打分的 300 篇"和"给 Claude 打分的 300 篇"是两批不同文章——而它们其实是同一批。方法选错，后面所有 t、p 全错，AI 再怎么翻译都救不回来。选检验是研究者的判断，AI 给不出、也不该替你拍板（呼应第 28 课）。这一步定错，本课的"翻译"就成了"把错误结果翻译得更体面"。

第二步（让 AI 翻译）：把你跑出的配对检验结果转写成 APA

假设你在软件里跑完配对 t 检验与 Friedman，得到了一组结果。注意下面方括号里是占位符——本课不给 Case C 模型间比较的真值（需你用自己的运行结果填入），AI 的任务是套用 APA 体例转写，绝不替你编造方括号里的数字：

Case C 配对比较 → APA 翻译官 Prompt

markdown

【Role】APA 7th 格式严谨的 NLP 评估论文编辑。

【核心红线】下面方括号里的统计量是我用 Python(pingouin/scipy)亲手跑出的,
严禁修改、严禁补充我没给的数字、严禁把配对检验说成独立检验。

【背景】300 篇文章, 每篇分别由 GPT-5 / Claude 4.7 / Gemini 2.5 评分(1–5)。
同一篇被三模型评分 → 配对/重复测量设计。

【任务】把下列结果翻译为 Results 段落:
- 三模型整体差异(Friedman): χ²(2) = [ ], p = [ ]
- GPT-5 vs Claude 4.7(配对 t): t([df]) = [ ], p = [ ], Cohen's d = [ ]
- 各模型均值±标准差: GPT-5 = [ ]±[ ], Claude 4.7 = [ ]±[ ], Gemini 2.5 = [ ]±[ ]

【格式要求】
1. 注明"同一批文章重复测量, 故用配对检验"
2. 用"得分显著高于/低于", 禁用"更智能/更强"等拟人化因果话术
3. 效应量按 Cohen 基准评(d≈.2 小, .5 中, .8 大)
4. 方括号里没填的数字, 标"⚠️ 缺失"提示我补, 不要替我编

AI 会把它转写成形如"Friedman 检验显示三模型评分存在显著差异（χ²(2) = …, p < …）；事后配对比较表明 GPT-5 的质量得分显著高于 Claude 4.7（t(…) = …, p < …, d = …，中等效应）……"的段落——句式与术语来自 AI，每个数字来自你的运行结果。

第三步：标注者一致性也要在 Results 里交代

Case C 中 Claude 的 Accuracy 维由 3 名人工标注者评分，跑出 ICC(2,k) ≈ 0.76。这个数字也要进 Results，翻译成一句信度陈述：

三名标注者对 Accuracy 维度的评分一致性良好，ICC(2,k) = .76，达到可接受水平。

📐 关键术语：ICC 与它的判读

组内相关系数（intraclass correlation coefficient, ICC）：度量多个评分者对同一批对象评分的一致性/可靠性。ICC(2,k) 中的 2 指随机评分者模型、k 指报告的是 k 名评分者平均分的信度。
常用判读区间（Koo & Li, 2016）：ICC < .50 差，.50–.75 中等，.75–.90 良好，> .90 优秀。Case C 的 .76 落在"良好"档下沿——可用，但谈不上极佳。

报告 ICC 同样守红线：.76 是你用统计软件算出的，AI 只把它翻译成"良好/可接受"这句话，不替你重算、不把 .76 美化成 .9。

🔁 迁移要点

对比 Case A 与 Case C：数据（问卷 vs 模型评分）、设计（横断面相关 vs 重复测量）、方法（回归/中介 vs 配对 t/Friedman/ICC）全变了，但翻译流程三步骨架没变——先在软件里选对检验并算出统计量、再让 AI 套 APA 体例转写、最后逐一核对数字。变的只是术语库；不变的是"AI 只翻译已算出的结果"。把变量名和方法换成你学科的，理工、经管、教育、NLP 都能照搬。

常见误区与纠正

Results 写作阶段，学员的问题高度集中在"让 AI 越界算"和"翻译时把统计说歪"。下表是最高频的几种，照着对号入座即可：

常见误区	症状	纠正方法
让 AI 代算统计量	把原始数据/半成品丢给 AI，让它"算个 β / p / 效应量"	所有统计量在 Jamovi/SPSS/Python 亲手跑；AI 只翻译你粘贴的输出（见【原理】与红线）
虚报显著	p = .051、.06 被写成 p < .05 或"显著"	以 α 为界如实报，不显著就写不显著；不堆"边缘显著"模糊措辞
过度解读不显著	不显著结果被加上"仍呈趋势/有上升态势"	不显著 = 没差异，如实报 p 值后即止，不延伸
效应量误读	β = .15 称"强影响"、R² = .95 当"达标线"	按 Cohen 基准评（β/r：.1 小、.3 中、.5 大）；Case B 的高 R²是模拟产物，不可当目标
因果越界	横断面/相关数据写"导致/引起/决定"	一律换"预测/关联/与……相关"；Case A 中介也只是统计关系，不下因果
配对当独立	Case C 同一批文章被多模型评分，却用独立样本 t	同一对象重复测量须用配对 t / 重复测量 ANOVA / Friedman
p 值张冠李戴	AI 把 X1 的 p 值错配给 X2	逐行核对输出表与段落，变量 ↔ β ↔ t ↔ p 一一对上
只报 p、不报效应量	段落通篇 p 值，无 β/d/R²	APA 要求 p 与效应量并报；自检 Prompt 第 2 条专门查

输出 / 结果不理想？如何排查与迭代

Results 写作环节，"不对劲"通常是三类：结果不显著或方向反常、AI 翻译的段落不达标、AI 编造了数字。逐类对症，不要推倒重来，更不要去"改顺眼"统计量。

结果不显著 / 方向反常 → 先回查分析，而非改结果或硬解读。 关键系数不显著、或符号与理论相反时，按顺序排查：① 方法是否选对（如 Case C 把配对当独立、回归漏了关键控制变量）；② 变量是否处理干净（反向题没反转会让相关方向整个反掉，回到第 23 课清洗日志复核）；③ 若方法与数据都没问题，那就是真不显著——如实报告即可，"不显著"本身就是合法的研究结论，绝不能为了"好看"去改 p 值或强行解读出趋势。
AI 段落不达标（漏效应量、措辞越界、不显著被夸大）→ 局部纠偏，且永远以你的输出为准。
- 它漏报效应量 → 追加"每个显著统计量后补一句效应量评估（按 Cohen 基准：β/r 的 .1/.3/.5 对应小/中/大）"。
- 它把相关写成因果 → 追加"全文禁用'导致/引起/决定/证明'，横断面数据只描述预测与关联"。
- 它给不显著结果加趋势 → 追加"p ≥ .05 一律写'不显著'，不得出现'趋势/接近显著/边缘'等措辞"。
AI 改了或编造了数字 → 这是最危险的情况，立即弃用并加固红线。 任何与你软件输出对不上的数字（改了小数位、补了一个你没跑的检验），一律以你的输出为准，并在提示词里补一句"严禁改动我粘贴的任何数字，逐字照用；我没给的统计量标'⚠️ 缺失'而非编造"。然后逐行重新核对整段。

一句话

首版不理想，先分清是分析问题（回去查方法/清洗）、翻译问题（局部纠偏 AI 段落）、还是编造问题（AI 动了数字）。无论哪种，红线不变：数字只能由你算出，AI 只能翻译，不能代算、不能篡改、不能补齐。

边界与局限：Results 写作与 AI 在这一步的能与不能

Results 是"如实陈述发现"的环节，它有明确的体例边界；AI 在这一步的角色更要划清。把下面几条记牢，比多背一个 APA 格式细节更重要。

边界 / 失效场景	为什么会这样	你应该怎么做
AI 只能翻译，不能代算	大模型按概率续写，不接入你的数据、不做可信计算；让它"算 β/p/效应量"只会得到看似合理实则编造的数字（幻觉）	所有统计量在统计软件亲手跑；AI 仅把你粘贴的输出转写成 APA 段落
p 值 ≠ 效应量	p 只回答"是否显著到不像随机噪声"，受样本量影响极大（N 大时极弱效应也显著）；它不回答"效应有多大"	p 与效应量（β/r/d/R²/η²）必须并报；据 Cohen 基准而非 p 的小数位评大小
相关 ≠ 因果	回归/相关/中介反映的是变量的协变结构，不含时间先后与机制	措辞止于"预测/关联/差异"；因果须靠研究设计（实验/可信识别策略）支撑
横断面数据慎称因果	同一时点测全部变量（如 Case A、Case C），连"谁先谁后"都无法确立，更遑论因果	横断面结果即便做了中介，也只报"统计关系"；因果留给纵向/实验设计与理论
显著 ≠ 重要	大样本下统计显著可能伴随微不足道的效应量；只盯 p 会高估实际意义	报效应量与 N，结合研究语境判断"有没有实质意义"，而非"显著就写得很重要"
模拟数据的指标不可当标杆	Case B 的 R²≈.95 是教学模拟产物，远高于真实经管研究	看到异常漂亮的拟合，先查数据与共线性，不把它当自己研究的达标线

⚠️ 本课红线：AI 翻译结果，绝不代算或篡改统计量

这是贯穿整个量化模块的硬规则：凡是 β、t、F、R²、p、CI、Cohen's d、η²、相关系数、信度 ICC/α——一律由你在统计软件里算出，AI 的唯一职责是把这些已经算好的数字翻译成符合 APA 的中文段落。AI 给出的数字与你的软件输出不一致时，以软件输出为准，并视为 AI 出错。把"算"留给软件、把"写"交给 AI、把"判断"（选方法、下结论、谈因果）留给自己——三者不可混淆。这条线一旦被"让 AI 顺手算一下"突破，整个量化研究的可信度就归零。

📦 本课交付物

按本节实操任务完成并提交以下内容，提交 AI 初审，按 Module_Rubrics.md 对应维度评分：

[ ] Results 章节完整草稿（约 800–1200 字）：4–5 段标准结构（描述 / 信度相关 / 回归 / 中介 / 可选稳健性）
[ ] 统计输出对照表：原始软件输出 vs AI 翻译后段落的数字逐项一一对照，确认无改动、无编造
[ ] 5 大错误自检报告：用【拆解实战 E】自检 Prompt 跑一遍，明确标注本文有无虚报 / 过度解读 / 因果越界 / 效应量误读 / p 值错配
[ ] AI 协作日志：记录至少 1 处"AI 输出错误 → 你打回 → AI 修正"的完整过程
[ ] 四维质检记录：用 Course_QA_Checklists.md（事实 / 逻辑 / 格式 / 引用）核查 AI 段落，重点查"数字是否被改动、是否出现因果措辞"
[ ] 沉淀模板：将本课三个 Prompt（翻译官 / 配对比较翻译 / 自检）加入个人工具箱

🏁 本章小结

把本课凝练成可据以复习的几条要点：

为什么 AI 只能翻译：大模型按概率续写下一个词、不接入你的数据、不做可信计算。让它"翻译"已算出的结果可靠（不生成新数值，幻觉无从发生）；让它"代算"必然出错（给出的是语料仿真值，不是你这批数据的真值）。这是由机制决定的硬边界，不是规章。
翻译流程三步骨架：① 在统计软件里选对方法、算出全部统计量；② 让 AI 套 APA 体例转写成段落；③ 逐行核对每个数字与软件输出一致。Case A（回归/中介）与 Case C（配对 t / Friedman / ICC）共用这套骨架，只换术语库。
每段 Results 含 5 要素：用了什么方法 + 核心数字（β/t/F/p/CI/R²）+ 效应量评估 + 假设是否支持 + 自然过渡。光报 p 不报效应量、戛然而止都不合格。
效应量按 Cohen 基准评，别误读：β/r 约 .1 小、.3 中、.5 大；β = −.21 属小到中等、不是"强"。p 回答"是否显著"，效应量回答"有多大"，二者必须并报。
5 大高危错误：虚报显著（p = .051 当显著）、过度解读不显著（强加趋势）、相关误作因果（横断面尤忌）、效应量误读、p 值张冠李戴。根子都是 AI 按"读着顺"而非"统计上对"续写，须逐项核对。
红线：β/t/F/p/CI/d/η²/相关/信度一律由你在软件里算出，AI 只翻译、绝不代算、不篡改、不补齐——数字对不上时一律以软件输出为准。把"算"留给软件、"写"交给 AI、"判断"（选方法、谈因果、下结论）留给自己。

自测清单（可保留逐项打勾）

[ ] 我能说清"为什么 AI 在 Results 只能翻译、不能代算"的机制（概率续写 / 不接入数据 / 翻译不生成新数值）。
[ ] 我能用"学术翻译官"Prompt 让 AI 只翻译、不重新计算，并能把 Case A 中介输出转写成规范 APA 段落。
[ ] 我清楚 AI 解读统计的 5 大高危错误（虚报 / 过度 / 因果 / 效应 / 张冠李戴），并能各举一例与修正。
[ ] 我的 Results 段落含 5 要素：方法 + 数字 + 效应量 + 结论 + 过渡，且 p 与效应量并报。
[ ] 我永远用"预测 / 关联"而非"导致 / 决定"，并知道横断面数据为何尤其不能下因果。
[ ] 我能为不同设计选对检验（如 Case C 同一批文章被多模型评分须用配对而非独立 t），且知道这步 AI 不能替我定。
[ ] 我做了完整自检：所有数字逐行比对软件输出一致，能识别 AI 编造的不存在统计量（"补齐"幻觉）。

✍️ 思考与练习

下列练习用于把本节概念用起来（区别于"本课交付物"里的任务），建议写在你的本地笔记中。

练习 1（原理辨析）。 有同学图省事，把 Case A 的原始 CSV 直接发给 AI，让它"帮我跑个回归，把 AI 焦虑对自我效能的 β、p 和 R² 算出来并写成 Results 段落"。AI 很快给出一段格式完美、β/p/R² 俱全的文字。请用本课原理说明：为什么这段文字不可信？正确做法是什么？

好答案要点：指出大模型按概率续写、不接入你的数据、不做可信计算——它给的 β/p/R² 是依语料规律仿真出的字符串，与你这 500 行数据无算术关系，属幻觉；格式完美 ≠ 数值正确。正确做法是先在 Jamovi/SPSS/Python 亲手跑出回归，再把输出表粘给 AI 让它仅做 APA 转写，并逐行核对数字、以软件输出为准。

练习 2（翻译 + 边界，紧扣 Case A）。 给定 Case A 第 29 课的 Bootstrap 中介输出：间接效应 ab = −.14, 95% CI [−.20, −.09]，直接效应 c' 的 95% CI [−.22, −.08]。请：(a) 写一段规范的 APA Results 文字报告该中介结果，说清"部分中介"的判据；(b) 指出为什么不能据此写"降低 AI 焦虑会提升自我效能"。

好答案要点：(a) 间接效应 CI 不含 0 故显著，直接效应 c' 的 CI 也不含 0、仍显著，故为部分中介（若 c' 不显著才是完全中介）；措辞用"学习策略在焦虑与效能间起部分中介作用"，全部数字原样取自输出。(b) Case A 是横断面数据，中介只反映三者协变结构，无时间先后与机制，写"降低焦虑会提升效能"是因果越界——相关/中介 ≠ 因果。

练习 3（5 大错误识别）。 下面是 AI 为 Case A 回归写的一段 Results：「AI 焦虑显著影响自我效能（p = .051）；学习策略 β = .38，对效能有强烈作用；性别虽不显著（p = .386），但女生焦虑呈上升趋势。」请逐句指出它踩中了 5 大错误中的哪几条，并改写。

好答案要点：① "p = .051"称"显著"= 虚报显著（以 α=.05 为界不显著，应如实报"未达显著"）；② "影响"暗含因果、应改"预测/关联"= 因果越界；③ "β = .38…强烈作用"= 效应量误读（.38 属中等偏大，非"强烈"，且措辞应去因果）；④ "不显著但呈上升趋势"= 过度解读不显著（p=.386 即无差异，删去趋势）。改写示例：「AI 焦虑负向预测自我效能（β = −.21, p = …）；学习策略正向预测自我效能（β = .38, p < .001，中等偏大效应）；性别不显著（β = −.04, p = .386）。」

练习 4（跨案例方法选择，紧扣 Case C）。 Case C 中 300 篇文章每篇都被 GPT-5、Claude 4.7、Gemini 2.5 三个模型评分。同学想比较 GPT-5 与 Claude 4.7 的质量得分差异，准备用独立样本 t 检验，并让 AI"算一下 t 和 p 再写成 Results"。请指出这里有两处问题，并给出正确流程。

好答案要点：①方法错——同一批文章被两模型评分是配对/重复测量，须用配对样本 t 检验（ttest_rel）而非独立样本 t；独立 t 假设两组是不同对象，会用错误差结构、导致 t/p 全错。②红线错——让 AI 代算 t/p 是幻觉来源，AI 不接入数据、不做计算。正确流程：先用 Python（scipy/pingouin）跑配对 t（必要时配 Friedman 做三模型整体比较），再把输出粘给 AI 让它套 APA 体例转写"GPT-5 得分显著高于/低于 Claude 4.7（t(df)=…, p=…, d=…）"，并逐一核对数字。

第 30 课：AI 辅助结果解释与 Results 写作 ​

📋 课前准备（5 分钟自检） ​

工具/账号 ​

数据/素材 ​

应急通道 ​

场景导入：Results 难的不是算，而是"把已算出的结果说清楚" ​

原理：为什么 AI 在 Results 只能当"翻译官"，不能当"计算器" ​

🗺️ 学术翻译官的工作边界 ​

🚀 拆解实战 A：学术翻译官标准 Prompt ​

🚀 拆解实战 B：典型场景示范 ​

场景 1：多元回归输出 → APA ​

场景 2：Bootstrap 中介结果 → APA ​

🚀 拆解实战 C：识别 AI 的 5 大高危错误 ​

错误 1：虚报显著性 ​

错误 2：过度解读不显著 ​

错误 3：混淆相关与因果 ​

错误 4：效应量误读 ​

错误 5：p 值张冠李戴 ​

🚀 拆解实战 D：Results 段落完整模板 ​

🚀 拆解实战 E：自检 Prompt（写完后必跑） ​

Results 段落：写砸 vs 写好 ​

跨案例迁移：把翻译流程搬到 Case C（LLM 评估，配对/重复测量） ​

第一步（在软件里算）：先选对检验，这一步 AI 不能替你定 ​

第二步（让 AI 翻译）：把你跑出的配对检验结果转写成 APA ​

第三步：标注者一致性也要在 Results 里交代 ​

常见误区与纠正 ​

输出 / 结果不理想？如何排查与迭代 ​

边界与局限：Results 写作与 AI 在这一步的能与不能 ​

📦 本课交付物 ​

🏁 本章小结 ​

自测清单（可保留逐项打勾） ​

✍️ 思考与练习 ​

第 30 课：AI 辅助结果解释与 Results 写作

📋 课前准备（5 分钟自检）

工具/账号

数据/素材

应急通道

场景导入：Results 难的不是算，而是"把已算出的结果说清楚"

原理：为什么 AI 在 Results 只能当"翻译官"，不能当"计算器"

🗺️ 学术翻译官的工作边界

🚀 拆解实战 A：学术翻译官标准 Prompt

🚀 拆解实战 B：典型场景示范

场景 1：多元回归输出 → APA

场景 2：Bootstrap 中介结果 → APA

🚀 拆解实战 C：识别 AI 的 5 大高危错误

错误 1：虚报显著性

错误 2：过度解读不显著

错误 3：混淆相关与因果

错误 4：效应量误读

错误 5：p 值张冠李戴

🚀 拆解实战 D：Results 段落完整模板

🚀 拆解实战 E：自检 Prompt（写完后必跑）

Results 段落：写砸 vs 写好

跨案例迁移：把翻译流程搬到 Case C（LLM 评估，配对/重复测量）

第一步（在软件里算）：先选对检验，这一步 AI 不能替你定

第二步（让 AI 翻译）：把你跑出的配对检验结果转写成 APA

第三步：标注者一致性也要在 Results 里交代

常见误区与纠正

输出 / 结果不理想？如何排查与迭代

边界与局限：Results 写作与 AI 在这一步的能与不能

📦 本课交付物

🏁 本章小结

自测清单（可保留逐项打勾）

✍️ 思考与练习