第 30 课:AI 辅助结果解释与 Results 写作
🎯 核心实操目标
本课目标:让 AI 把 Jamovi / SPSS 跑出的统计输出表,翻译成符合 APA 7th 格式的 Results 学术段落。本课你将掌握 「学术翻译官」Prompt —— AI 只负责语言转换,绝不允许重新计算或编造任何数字。同时系统识别 AI 解读统计结果的 5 大高危错误(虚报显著、过度解读不显著、相关误作因果、效应量误读、p 值张冠李戴)。
本课位于整个量化研究流程的最后一公里:数据已清洗(第 23 课)、描述统计已跑(第 24 课)、t 检验与方差分析已做(第 25 课)、相关与回归已做(第 26 课)、信效度与 EFA 已检验(第 27–28 课)、中介已检验(第 29 课)——所有统计量都已由你在软件里算好。Results 写作不是再算一遍,而是把这些既成结果用审稿人能接受的术语准确转写出来。理解这一点,就抓住了本课贯穿始终的红线。
📋 课前准备(5 分钟自检)
工具/账号
- [ ] Claude 4.8 Opus(学术语言最严谨)或 GPT-5
- [ ] Kimi K2(备用,长上下文塞入大批量统计输出)
数据/素材
- [ ] 完整的统计软件输出(来自第 25-29 课)
- [ ] 标准 APA 格式参考样例(从已发表论文找一篇)
应急通道
- AI 改了你的数字 → 立即打回,强调"不可重新计算"
- AI 给的解读不符合学科规范 → 加入具体期刊样例作为风格锚点
场景导入:Results 难的不是算,而是"把已算出的结果说清楚"
一名学生跑完 Jamovi,得到长达数页的回归与中介输出:Estimate / SE / t / p / 95% CI / R² / F / df1 / df2 / VIF…… 数字一个不缺。可是轮到写 Results 部分时,他的初稿只有一句话:"所以这些变量之间有关系。"——导师的批注是:"关系是正还是负?多强?显著吗?支持哪个假设?这一句等于没写。"
问题不在数据,而在转写。Results 章节的职责是把统计软件的输出,逐项翻译成一段段结构规范、可被审稿人核对的文字:用了什么方法、关键统计量是多少、效应量算大算小、假设是否得到支持。这套转写有固定的体例(APA 7th),也有固定的雷区(虚报显著、把"预测"写成"导致")。
这正是 AI 能帮上忙的环节,但角色必须划清:AI 是翻译官,不是计算器。它的任务不是重新计算、不是给你新数字,而是把你已经跑出的输出,用 APA 术语准确转写出来。为什么这条边界如此重要、越界会出什么事,是下一节【原理】要讲清的核心。
原理:为什么 AI 在 Results 只能当"翻译官",不能当"计算器"
Results 写作要用 AI,先得理解一件事——为什么同一个大模型,能可靠地帮你润色文字,却绝不能让它替你算统计量。 这不是规章制度,而是由模型的工作机制决定的硬边界。
它在做什么——按概率续写"下一个最可能的词",而不是执行计算。 大语言模型的本质是一个语言概率模型:给定上文,它预测下一个 token 的概率分布,再采样输出。当你把一张 Jamovi 输出表粘给它、要求"转写成 APA 段落",它做的是语言到语言的映射——这件事它训练语料里见过千万遍,干得又快又好。但当你把原始数据丢给它、要求"算一下相关系数",它并不会去跑皮尔逊公式、做矩阵运算;它只会续写出一串看起来像相关系数的数字——因为在它见过的语料里,"相关系数"后面通常跟着形如
r = .31, p < .01的字符串。这串数字读起来天衣无缝,却与你的真实数据毫无算术关系,纯属概率续写的产物。为什么这样做必然出错——它没有"接入你的数据"这一步。 你的 500 行问卷数据,从未进入模型的任何计算回路。模型既不知道你第 37 个被试的
Anxiety_3填了几分,也无法对你的列做求和、求平均、求协方差。它能"算对"的唯一情形,是这道题恰好和训练语料里某个例子的数字对上了——可遇不可求,且你无从验证。所以"让 AI 代算统计量"在原理上就是缘木求鱼:你要的是基于你这批数据的真值,它能给的只是基于语料统计规律的仿真值。这种看似合理实则编造的输出,就是大模型的幻觉(hallucination)。同样是这套机制,为什么"翻译"却可靠——因为翻译不要求它生成新数值。 把"β = −.21, t(495) = −4.79, p < .001"转写成"AI 焦虑显著负向预测自我效能感",模型只是在做术语和句式的转换,所有数字都来自你粘贴的输入、原样搬运。它不需要凭空产生任何统计量,幻觉就无从发生。这就是本课方法的全部立足点:把"算"的环节彻底留在统计软件里,只把"写"的环节交给 AI。 一旦让它跨过这条线去"补一个你没跑的数字""顺手算个效应量",它立刻从可靠的翻译官退化成不可信的计算器。
⚠️ 本课红线(贯穿整个量化模块)
凡是 β、t、F、R²、p 值、95% CI、Cohen's d、η²、相关系数、信度 α——一律由你在 Jamovi / SPSS 里算出。 AI 的唯一职责是把这些已经算好的数字翻译成符合 APA 的中文段落。任何时候 AI 给出的数字与你的软件输出对不上,以软件输出为准,并视为 AI 出错。把"算"留给软件、把"写"交给 AI、把"判断"留给自己——三者不可混淆。
📘 关键术语(首次出现,先对齐定义)
- 结果报告(Results section):实证论文中客观陈述统计发现的章节,只报"测出了什么",不展开"为什么"与"意味着什么"(后者属 Discussion)。APA 规范要求:每个分析交代方法、报全关键统计量、给效应量、说明假设是否得到支持。
- APA 格式(APA 7th):美国心理学会第 7 版出版手册规定的报告体例,社科领域通用。统计量有固定写法,如
t(498) = −4.32, p < .001、F(4, 495) = 35.78, p < .001, R² = .22、95% CI [−.20, −.09];数字一般保留 2 位小数,p 值小于 .001 时写p < .001而非具体值。 - 统计量翻译(statistic-to-prose translation):本课的核心动作——把软件输出的数字表,转写为符合 APA 体例、含解读与过渡的连续文字。强调"翻译"是为了凸显其边界:只做语言转换,不做数值生成。
- 效应量(effect size):刻画关系或差异实际大小的指标(如标准化系数 β、相关 r、Cohen's d、R²、η²),独立于样本量。它回答"这个效应有多大",而 p 值只回答"这个效应是否显著到不像随机噪声"——二者必须并报(详见【边界与局限】)。
- 置信区间(confidence interval, CI):对参数真值的区间估计,如 95% CI [−.20, −.09]。中介分析中常据其是否包含 0 判断间接效应是否显著(不含 0 即显著)。
- 幻觉(hallucination):大模型生成的、看似合理、格式完美,但与事实/数据不符的内容。在 Results 场景中典型表现为:编造一个你没跑的统计量、或改动你粘贴的数字。
🗺️ 学术翻译官的工作边界
下表把"翻译官"与"计算器"的分工落到清单上——左列是 AI 在 Results 环节能做且做得好的,右列是越界即出问题的红线动作。把它当作每次让 AI 改稿前的对照表。
| ✅ AI 可以做 | ❌ AI 绝不能做 |
|---|---|
| 把 Jamovi 输出表格转为 APA 文字 | 重新计算 p 值或 β |
| 添加合适的过渡句和结构 | 修改你已跑出的数字 |
| 解读效应量大小(小/中/大) | 凭空补齐你没跑的数字 |
| 标注 H1/H2 是否得到支持 | 推断你没检验的因果关系 |
| 提示哪里需要补稳健性检验 | 把横截面回归解读为因果 |
即便只让 AI"翻译"、不让它"算",它仍可能在转写环节犯下 5 类高危错误。这些错误的根子都一样——模型按"读起来顺"而非"统计上对"来续写,于是把临界值说成显著、给不显著结果强加趋势、把"预测"顺手写成"导致"。先记住这张清单,本课【拆解实战 C】会逐条给出错误样例与修正。
⚠️ AI 解读统计的 5 大高危错误
- 虚报显著性:把 p = .051 说成 p < .05(临界值被四舍五入成"显著")。
- 过度解读不显著结果:"虽然不显著但仍有趋势……"(不显著就是没差异,"趋势"是无中生有)。
- 混淆相关与因果:把"预测 / 关联"换成"导致 / 引起"(横断面数据尤其不能下因果)。
- 效应量误读:把 β = .15 称为"强影响"(.15 是弱到小效应,不是强)。
- p 值张冠李戴:把变量 X1 的 p 值报到 X2 的描述里(数字与变量错配)。
🚀 拆解实战 A:学术翻译官标准 Prompt
【Role】顶级 SSCI 期刊数据审核与论文编辑。
【Safety Constraint - 核心红线】
我会向你提供 Jamovi/SPSS 的统计输出原文。
- 严禁重新计算任何数值!
- 严禁修改我提供的数字!
- 严禁补充我没跑的统计量!
【Task】请把下面我跑出的统计输出, 翻译为论文 Results 部分的
APA 格式学术段落。
【格式要求】
1. 严格 APA 7th 格式: "回归分析表明, A 对 B 具有显著的
负向预测作用(β = -.34, t(498) = -6.21, p < .001,
95% CI [-.45, -.23]), 效应量为中等水平。"
2. 每个假设独立成段, 明确说明:
- 用了什么统计方法
- 关键统计量是什么(t/F/β/R²/p/CI)
- 效应量大小评估(小/中/大)
- H1 / H2 是否得到支持
3. 永远使用"预测"、"关联"、"显著差异",
**绝对禁止**"导致"、"决定"、"引起"等因果动词
4. 如发现我没跑某项关键统计量, 标记"⚠️ 缺失"
而不要替我编造
【Jamovi 输出】[在此粘贴]🚀 拆解实战 B:典型场景示范
场景 1:多元回归输出 → APA
输入(Jamovi 输出原样):
Model: Efficacy_Mean ~ Anxiety_Mean + Strategy_Mean + Gender + Grade
R² = .224, Adjusted R² = .218, F(4, 495) = 35.78, p < .001
Coefficients:
Estimate SE β t p
Intercept 2.512 .128 19.62 <.001
Anxiety_Mean -.187 .039 -.21 -4.79 <.001
Strategy_Mean .421 .046 .38 9.15 <.001
Gender(F) -.054 .062 -.04 -.87 .386
Grade .032 .025 .05 1.28 .200AI 翻译后输出(节选):
为检验 H1, 以自我效能感为因变量, AI 焦虑与学习策略为预测变量,
控制性别与年级, 构建多元线性回归模型。
模型整体显著, F(4, 495) = 35.78, p < .001, R² = .224(Adj. R² = .218),
表明四个预测变量共解释了自我效能感 22.4% 的方差。
控制其他变量后:
- AI 焦虑显著负向预测自我效能感(β = -.21, t(495) = -4.79, p < .001),
效应量小到中等;
- 学习策略显著正向预测自我效能感(β = .38, t(495) = 9.15, p < .001),
效应量中等偏大;
- 控制变量中, 性别(β = -.04, p = .386)和年级(β = .05, p = .200)
均不显著。
H1 得到支持。场景 2:Bootstrap 中介结果 → APA
输入:
Indirect effect (Anxiety → Strategy → Efficacy):
ab = -.143, SE = .025, 95% CI [-.20, -.09]
Direct effect: c' = -.15, p = .002
Total effect: c = -.29, p < .001
Proportion mediated: 49.3%AI 翻译后输出:
为检验 H2, 采用 Bootstrap 中介检验(5000 次重抽样)。
学习策略在 AI 焦虑与自我效能感之间的**间接效应显著**,
ab = -.143, SE = .025, 95% CI [-.20, -.09](置信区间不含 0)。
直接效应 c' = -.15, p = .002 仍然显著, 总效应 c = -.29, p < .001。
间接效应占总效应的 49.3%, 表明**学习策略起部分中介作用**。
H2 得到支持。📐 Worked Example:把 Case A 中介输出逐项翻译成 APA Results 段落
上面这段就是本课最核心的"翻译"示范——把第 29 课跑出的 Bootstrap 中介结果,转写成可投稿的 Results 文字。逐句拆解 AI 做了什么、没做什么:
ab = −.143, 95% CI [−.20, −.09](间接效应):这两个数字原样搬自你的软件输出,AI 一个字没改。判据是"CI 不含 0 即显著"——区间上界 −.09 仍在 0 以下,故间接效应显著。AI 把这条判据翻译成了一句中文,但判断本身基于你算出的区间,不是它重算的。c' = −.15(直接效应,95% CI [−.22, −.08])仍显著:控制中介后,AI 焦虑对自我效能感仍有显著直接路径,所以是部分中介而非完全中介。"部分 / 完全"的区分由 c' 是否仍显著决定——这是规范,不是 AI 的发挥。- 间接效应占比 ≈ 49%:由 ab / c = −.143 / −.29 ≈ 0.49 得到,这个比值同样来自你的输出表,AI 只负责把它读成"部分中介"的语言佐证。
这一步示范了翻译的全部要义:每个数字都能在你的软件输出里逐一对上,AI 只贡献了术语(间接/直接/总效应、部分中介)和句式(APA 体例),没有贡献任何一个新数值。 反过来,若 AI 写出一个你输出里找不到的数字(比如自作主张补一个 Sobel 检验的 z 值),那一定是幻觉,必须删。
⚠️ 中介结论的边界:Case A 是横断面数据,不能据此下因果
这段 Results 写"学习策略起部分中介作用"是规范的;但绝不能因此写成"降低 AI 焦虑就能通过提升策略来提高效能"。Case A 是横断面问卷(同一时点测全部变量),统计上的中介只反映三者的协变结构,给不出时间先后与因果方向——焦虑、策略、效能完全可能互为因果或共受第三变量影响。"中介"是一种模型设定下的统计关系,不是因果链的证据。这条边界在【边界与局限】会再展开,写 Discussion 时尤其要守住。
🚀 拆解实战 C:识别 AI 的 5 大高危错误
下面把 5 大错误逐条配上真实可能出现的 AI 错误输出与修正。注意每条的修正动作不是"换个说法",而是回到统计事实本身。
错误 1:虚报显著性
AI 错误输出:
"AI 焦虑显著负向预测自我效能感(p = .051)..."
问题:以 α = .05 为界,p = .051 不显著(尽管极接近临界值)。显著与否由预先设定的 α 决定,不能因"差一点"就跨线。 修正:如实写"未达显著水平(p = .051)"。注意:旧文献常用的"边缘显著 / marginally significant"措辞,近年 APA 与许多期刊已不鼓励——它容易把"没通过"包装成"几乎通过"。稳妥做法是直接报 p 值并明确"不显著",把解释权交给读者。
错误 2:过度解读不显著
AI 错误输出:
"虽然性别效应不显著(p = .386), 但呈现出女生焦虑略高的趋势..."
问题:"趋势"是不存在的——p = .386 等于没差异。 修正:直接说"性别效应不显著",不要扩展。
错误 3:混淆相关与因果
AI 错误输出:
"AI 焦虑导致了自我效能下降..."
问题:Case A 是横断面相关/回归数据,"导致 / 引起 / 决定"是因果断言,数据支撑不了——回归里的"预测"只是统计上的关联,不含时间先后与机制。 修正:改为"AI 焦虑负向预测自我效能感"。因果动词一律换成"预测 / 关联 / 与……负相关"。
错误 4:效应量误读
AI 错误输出:
"β = .15 表明 AI 焦虑对自我效能有强烈影响..."
问题:β = .15 是弱到小效应,不是强。 修正:报告"弱到中等效应量"。
错误 5:p 值张冠李戴
AI 错误输出:把变量 X1(如 AI 焦虑)的 p 值,报到了 X2(如学习策略)的描述里。
问题:模型按语言流畅度续写,可能把相邻行的数字错配到另一个变量上——读起来通顺,对照表却错位。这是最隐蔽的一类错误,因为单看段落毫无破绽。 修正:逐项核对输出表的每一行与段落里每个数字的对应关系(变量名 ↔ β ↔ t ↔ p 一一对上)。这也是【拆解实战 E】自检 Prompt 第 4 条要专门查的。
🚀 拆解实战 D:Results 段落完整模板
完整的 Results 章节应有 4-5 段:
4.1 描述统计 —— 见第 24 课
4.2 信度与相关分析 —— 见第 27 / 26 课
4.3 H1 检验(回归) —— 本课重点 1
4.4 H2 检验(中介) —— 本课重点 2
4.5 H3 检验(调节,可选)
4.6 稳健性检验(可选)每段必含的 5 要素:
- 用了什么统计方法
- 核心数字(β/t/F/p/CI/R²)
- 效应量大小评估
- 是否得到支持的结论
- 自然过渡到下一段
🚀 拆解实战 E:自检 Prompt(写完后必跑)
【Role】严苛的盲审专家。
【任务】请挑剔地核查下方 Results 段落, 找出所有可能的问题:
1. 是否所有显著性都用了正确的符号(p < .001, p < .05 等)?
2. 是否报告了完整的效应量(d / β / η² / R²)?
3. 是否使用了非因果动词("预测"/"关联")?
4. 数字是否前后一致(摘要数字 vs 表格数字 vs 段落数字)?
5. 是否有"虚报显著"或"过度解读不显著"的迹象?
【段落】[粘贴你刚写的 Results 段落]Results 段落:写砸 vs 写好
同一份回归输出,翻译成段落可以是"勉强及格"也可以是"可投稿"。下面把 Results 段最常见的失分点逐项拆开并排对照——左列是学员的高频写法,右列是把同一处"拧紧"后的写法。所有数字均取自上文【拆解实战 B 场景 1】的回归输出。
| 维度 | 写砸 ❌ | 写好 ✅ | 为什么 |
|---|---|---|---|
| 方法交代 | 做了回归 | 以自我效能感为因变量,AI 焦虑、学习策略为预测变量,控制性别与年级,构建多元线性回归 | 不写清因变量/自变量/控制变量,审稿人无法判断模型设定是否合理 |
| 整体拟合 | 模型不错 | 模型整体显著,F(4, 495) = 35.78, p < .001, R² = .22,解释方差 22% | "不错"不可检验;F、p、R² 三者齐全才说明模型立得住 |
| 系数报告 | 焦虑影响很大 | AI 焦虑显著负向预测自我效能感(β = −.21, t(495) = −4.79, p < .001),效应量小到中等 | 光说"影响大"是误读:β = −.21 属小到中等,不是"大";须报全 β/t/p 并据 Cohen 基准评效应量 |
| 不显著项 | 性别也有点关系 | 性别(β = −.04, p = .386)与年级(β = .05, p = .200)均不显著 | p > .05 就是不显著,"有点关系"是过度解读;不显著也要如实报,不能藏 |
| 因果措辞 | 焦虑导致效能下降 | AI 焦虑负向预测自我效能感 | 横断面回归只能谈"预测/关联","导致"是越界——相关 ≠ 因果 |
| 效应量 | (只报 p 值) | 每个显著系数后标注效应量(β = −.21,小到中等;β = .38,中等偏大) | p 只回答"是否显著",不回答"有多大";APA 要求 p 与效应量并报 |
| 结论与过渡 | (戛然而止) | "综上,H1 得到支持。下一节进一步检验学习策略的中介作用(4.4 节)。" | Results 每段要明确假设是否支持,并自然引到下一分析 |
💡 一句话判据
检验一段 Results 写得好不好,问四件事:方法说清了吗?每个数字都报全(含效应量)了吗?不显著项有没有如实报、没被过度解读?因果动词清干净了吗? 四者都过关,这一段才从"报数字"升级成"讲清楚结果"。
跨案例迁移:把翻译流程搬到 Case C(LLM 评估,配对/重复测量)
上面两个 worked example 用的是 Case A 心理问卷。Results 翻译的价值在于换数据只换变量、方法与解读,"先算后译、AI 不代算"的骨架不变。下面换一个完全不同的领域——Case C:大模型生成质量评估,300 篇文章 × 3 个模型,列 Quality_GPT5 / Quality_Claude47 / Quality_Gemini25(各为 Fluency / Accuracy / Coverage 三维的平均分,1–5 分),演示同一套翻译流程,并借此讲透一个最容易被 AI 写错的方法选择问题。
第一步(在软件里算):先选对检验,这一步 AI 不能替你定
Case C 的关键特征:同一篇文章被三个模型分别打分,所以三列分数不是相互独立的,而是配对/重复测量(repeated measures / within-subjects)——好比同一批考生考了三套卷,比较的是"同一对象在不同条件下"的差异。这决定了检验方法:
- 两个模型两两比较(如 GPT-5 vs Claude 4.7)→ 配对样本 t 检验(
ttest_rel),不是独立样本 t 检验; - 三个模型整体比较 → 重复测量方差分析;分布不满足正态假设时用其非参数对应 Friedman 检验。
⚠️ 这正是 5 大错误在"方法层"的变体
如果不假思索套用独立样本 t 检验,就等于假装"给 GPT-5 打分的 300 篇"和"给 Claude 打分的 300 篇"是两批不同文章——而它们其实是同一批。方法选错,后面所有 t、p 全错,AI 再怎么翻译都救不回来。选检验是研究者的判断,AI 给不出、也不该替你拍板(呼应第 28 课)。这一步定错,本课的"翻译"就成了"把错误结果翻译得更体面"。
第二步(让 AI 翻译):把你跑出的配对检验结果转写成 APA
假设你在软件里跑完配对 t 检验与 Friedman,得到了一组结果。注意下面方括号里是占位符——本课不给 Case C 模型间比较的真值(需你用自己的运行结果填入),AI 的任务是套用 APA 体例转写,绝不替你编造方括号里的数字:
【Role】APA 7th 格式严谨的 NLP 评估论文编辑。
【核心红线】下面方括号里的统计量是我用 Python(pingouin/scipy)亲手跑出的,
严禁修改、严禁补充我没给的数字、严禁把配对检验说成独立检验。
【背景】300 篇文章, 每篇分别由 GPT-5 / Claude 4.7 / Gemini 2.5 评分(1–5)。
同一篇被三模型评分 → 配对/重复测量设计。
【任务】把下列结果翻译为 Results 段落:
- 三模型整体差异(Friedman): χ²(2) = [ ], p = [ ]
- GPT-5 vs Claude 4.7(配对 t): t([df]) = [ ], p = [ ], Cohen's d = [ ]
- 各模型均值±标准差: GPT-5 = [ ]±[ ], Claude 4.7 = [ ]±[ ], Gemini 2.5 = [ ]±[ ]
【格式要求】
1. 注明"同一批文章重复测量, 故用配对检验"
2. 用"得分显著高于/低于", 禁用"更智能/更强"等拟人化因果话术
3. 效应量按 Cohen 基准评(d≈.2 小, .5 中, .8 大)
4. 方括号里没填的数字, 标"⚠️ 缺失"提示我补, 不要替我编AI 会把它转写成形如"Friedman 检验显示三模型评分存在显著差异(χ²(2) = …, p < …);事后配对比较表明 GPT-5 的质量得分显著高于 Claude 4.7(t(…) = …, p < …, d = …,中等效应)……"的段落——句式与术语来自 AI,每个数字来自你的运行结果。
第三步:标注者一致性也要在 Results 里交代
Case C 中 Claude 的 Accuracy 维由 3 名人工标注者评分,跑出 ICC(2,k) ≈ 0.76。这个数字也要进 Results,翻译成一句信度陈述:
三名标注者对 Accuracy 维度的评分一致性良好,ICC(2,k) = .76,达到可接受水平。
📐 关键术语:ICC 与它的判读
- 组内相关系数(intraclass correlation coefficient, ICC):度量多个评分者对同一批对象评分的一致性/可靠性。
ICC(2,k)中的 2 指随机评分者模型、k 指报告的是 k 名评分者平均分的信度。 - 常用判读区间(Koo & Li, 2016):ICC < .50 差,.50–.75 中等,.75–.90 良好,> .90 优秀。Case C 的 .76 落在"良好"档下沿——可用,但谈不上极佳。
报告 ICC 同样守红线:.76 是你用统计软件算出的,AI 只把它翻译成"良好/可接受"这句话,不替你重算、不把 .76 美化成 .9。
🔁 迁移要点
对比 Case A 与 Case C:数据(问卷 vs 模型评分)、设计(横断面相关 vs 重复测量)、方法(回归/中介 vs 配对 t/Friedman/ICC)全变了,但翻译流程三步骨架没变——先在软件里选对检验并算出统计量、再让 AI 套 APA 体例转写、最后逐一核对数字。变的只是术语库;不变的是"AI 只翻译已算出的结果"。把变量名和方法换成你学科的,理工、经管、教育、NLP 都能照搬。
常见误区与纠正
Results 写作阶段,学员的问题高度集中在"让 AI 越界算"和"翻译时把统计说歪"。下表是最高频的几种,照着对号入座即可:
| 常见误区 | 症状 | 纠正方法 |
|---|---|---|
| 让 AI 代算统计量 | 把原始数据/半成品丢给 AI,让它"算个 β / p / 效应量" | 所有统计量在 Jamovi/SPSS/Python 亲手跑;AI 只翻译你粘贴的输出(见【原理】与红线) |
| 虚报显著 | p = .051、.06 被写成 p < .05 或"显著" | 以 α 为界如实报,不显著就写不显著;不堆"边缘显著"模糊措辞 |
| 过度解读不显著 | 不显著结果被加上"仍呈趋势/有上升态势" | 不显著 = 没差异,如实报 p 值后即止,不延伸 |
| 效应量误读 | β = .15 称"强影响"、R² = .95 当"达标线" | 按 Cohen 基准评(β/r:.1 小、.3 中、.5 大);Case B 的高 R²是模拟产物,不可当目标 |
| 因果越界 | 横断面/相关数据写"导致/引起/决定" | 一律换"预测/关联/与……相关";Case A 中介也只是统计关系,不下因果 |
| 配对当独立 | Case C 同一批文章被多模型评分,却用独立样本 t | 同一对象重复测量须用配对 t / 重复测量 ANOVA / Friedman |
| p 值张冠李戴 | AI 把 X1 的 p 值错配给 X2 | 逐行核对输出表与段落,变量 ↔ β ↔ t ↔ p 一一对上 |
| 只报 p、不报效应量 | 段落通篇 p 值,无 β/d/R² | APA 要求 p 与效应量并报;自检 Prompt 第 2 条专门查 |
输出 / 结果不理想?如何排查与迭代
Results 写作环节,"不对劲"通常是三类:结果不显著或方向反常、AI 翻译的段落不达标、AI 编造了数字。逐类对症,不要推倒重来,更不要去"改顺眼"统计量。
- 结果不显著 / 方向反常 → 先回查分析,而非改结果或硬解读。 关键系数不显著、或符号与理论相反时,按顺序排查:① 方法是否选对(如 Case C 把配对当独立、回归漏了关键控制变量);② 变量是否处理干净(反向题没反转会让相关方向整个反掉,回到第 23 课清洗日志复核);③ 若方法与数据都没问题,那就是真不显著——如实报告即可,"不显著"本身就是合法的研究结论,绝不能为了"好看"去改 p 值或强行解读出趋势。
- AI 段落不达标(漏效应量、措辞越界、不显著被夸大)→ 局部纠偏,且永远以你的输出为准。
- 它漏报效应量 → 追加"每个显著统计量后补一句效应量评估(按 Cohen 基准:β/r 的 .1/.3/.5 对应小/中/大)"。
- 它把相关写成因果 → 追加"全文禁用'导致/引起/决定/证明',横断面数据只描述预测与关联"。
- 它给不显著结果加趋势 → 追加"p ≥ .05 一律写'不显著',不得出现'趋势/接近显著/边缘'等措辞"。
- AI 改了或编造了数字 → 这是最危险的情况,立即弃用并加固红线。 任何与你软件输出对不上的数字(改了小数位、补了一个你没跑的检验),一律以你的输出为准,并在提示词里补一句"严禁改动我粘贴的任何数字,逐字照用;我没给的统计量标'⚠️ 缺失'而非编造"。然后逐行重新核对整段。
一句话
首版不理想,先分清是分析问题(回去查方法/清洗)、翻译问题(局部纠偏 AI 段落)、还是编造问题(AI 动了数字)。无论哪种,红线不变:数字只能由你算出,AI 只能翻译,不能代算、不能篡改、不能补齐。
边界与局限:Results 写作与 AI 在这一步的能与不能
Results 是"如实陈述发现"的环节,它有明确的体例边界;AI 在这一步的角色更要划清。把下面几条记牢,比多背一个 APA 格式细节更重要。
| 边界 / 失效场景 | 为什么会这样 | 你应该怎么做 |
|---|---|---|
| AI 只能翻译,不能代算 | 大模型按概率续写,不接入你的数据、不做可信计算;让它"算 β/p/效应量"只会得到看似合理实则编造的数字(幻觉) | 所有统计量在统计软件亲手跑;AI 仅把你粘贴的输出转写成 APA 段落 |
| p 值 ≠ 效应量 | p 只回答"是否显著到不像随机噪声",受样本量影响极大(N 大时极弱效应也显著);它不回答"效应有多大" | p 与效应量(β/r/d/R²/η²)必须并报;据 Cohen 基准而非 p 的小数位评大小 |
| 相关 ≠ 因果 | 回归/相关/中介反映的是变量的协变结构,不含时间先后与机制 | 措辞止于"预测/关联/差异";因果须靠研究设计(实验/可信识别策略)支撑 |
| 横断面数据慎称因果 | 同一时点测全部变量(如 Case A、Case C),连"谁先谁后"都无法确立,更遑论因果 | 横断面结果即便做了中介,也只报"统计关系";因果留给纵向/实验设计与理论 |
| 显著 ≠ 重要 | 大样本下统计显著可能伴随微不足道的效应量;只盯 p 会高估实际意义 | 报效应量与 N,结合研究语境判断"有没有实质意义",而非"显著就写得很重要" |
| 模拟数据的指标不可当标杆 | Case B 的 R²≈.95 是教学模拟产物,远高于真实经管研究 | 看到异常漂亮的拟合,先查数据与共线性,不把它当自己研究的达标线 |
⚠️ 本课红线:AI 翻译结果,绝不代算或篡改统计量
这是贯穿整个量化模块的硬规则:凡是 β、t、F、R²、p、CI、Cohen's d、η²、相关系数、信度 ICC/α——一律由你在统计软件里算出,AI 的唯一职责是把这些已经算好的数字翻译成符合 APA 的中文段落。AI 给出的数字与你的软件输出不一致时,以软件输出为准,并视为 AI 出错。把"算"留给软件、把"写"交给 AI、把"判断"(选方法、下结论、谈因果)留给自己——三者不可混淆。这条线一旦被"让 AI 顺手算一下"突破,整个量化研究的可信度就归零。
📦 本课交付物
按本节实操任务完成并提交以下内容,提交 AI 初审,按 Module_Rubrics.md 对应维度评分:
- [ ] Results 章节完整草稿(约 800–1200 字):4–5 段标准结构(描述 / 信度相关 / 回归 / 中介 / 可选稳健性)
- [ ] 统计输出对照表:原始软件输出 vs AI 翻译后段落的数字逐项一一对照,确认无改动、无编造
- [ ] 5 大错误自检报告:用【拆解实战 E】自检 Prompt 跑一遍,明确标注本文有无虚报 / 过度解读 / 因果越界 / 效应量误读 / p 值错配
- [ ] AI 协作日志:记录至少 1 处"AI 输出错误 → 你打回 → AI 修正"的完整过程
- [ ] 四维质检记录:用
Course_QA_Checklists.md(事实 / 逻辑 / 格式 / 引用)核查 AI 段落,重点查"数字是否被改动、是否出现因果措辞" - [ ] 沉淀模板:将本课三个 Prompt(翻译官 / 配对比较翻译 / 自检)加入个人工具箱
🏁 本章小结
把本课凝练成可据以复习的几条要点:
- 为什么 AI 只能翻译:大模型按概率续写下一个词、不接入你的数据、不做可信计算。让它"翻译"已算出的结果可靠(不生成新数值,幻觉无从发生);让它"代算"必然出错(给出的是语料仿真值,不是你这批数据的真值)。这是由机制决定的硬边界,不是规章。
- 翻译流程三步骨架:① 在统计软件里选对方法、算出全部统计量;② 让 AI 套 APA 体例转写成段落;③ 逐行核对每个数字与软件输出一致。Case A(回归/中介)与 Case C(配对 t / Friedman / ICC)共用这套骨架,只换术语库。
- 每段 Results 含 5 要素:用了什么方法 + 核心数字(β/t/F/p/CI/R²)+ 效应量评估 + 假设是否支持 + 自然过渡。光报 p 不报效应量、戛然而止都不合格。
- 效应量按 Cohen 基准评,别误读:β/r 约 .1 小、.3 中、.5 大;β = −.21 属小到中等、不是"强"。p 回答"是否显著",效应量回答"有多大",二者必须并报。
- 5 大高危错误:虚报显著(p = .051 当显著)、过度解读不显著(强加趋势)、相关误作因果(横断面尤忌)、效应量误读、p 值张冠李戴。根子都是 AI 按"读着顺"而非"统计上对"续写,须逐项核对。
- 红线:β/t/F/p/CI/d/η²/相关/信度一律由你在软件里算出,AI 只翻译、绝不代算、不篡改、不补齐——数字对不上时一律以软件输出为准。把"算"留给软件、"写"交给 AI、"判断"(选方法、谈因果、下结论)留给自己。
自测清单(可保留逐项打勾)
- [ ] 我能说清"为什么 AI 在 Results 只能翻译、不能代算"的机制(概率续写 / 不接入数据 / 翻译不生成新数值)。
- [ ] 我能用"学术翻译官"Prompt 让 AI 只翻译、不重新计算,并能把 Case A 中介输出转写成规范 APA 段落。
- [ ] 我清楚 AI 解读统计的 5 大高危错误(虚报 / 过度 / 因果 / 效应 / 张冠李戴),并能各举一例与修正。
- [ ] 我的 Results 段落含 5 要素:方法 + 数字 + 效应量 + 结论 + 过渡,且 p 与效应量并报。
- [ ] 我永远用"预测 / 关联"而非"导致 / 决定",并知道横断面数据为何尤其不能下因果。
- [ ] 我能为不同设计选对检验(如 Case C 同一批文章被多模型评分须用配对而非独立 t),且知道这步 AI 不能替我定。
- [ ] 我做了完整自检:所有数字逐行比对软件输出一致,能识别 AI 编造的不存在统计量("补齐"幻觉)。
✍️ 思考与练习
下列练习用于把本节概念用起来(区别于"本课交付物"里的任务),建议写在你的本地笔记中。
练习 1(原理辨析)。 有同学图省事,把 Case A 的原始 CSV 直接发给 AI,让它"帮我跑个回归,把 AI 焦虑对自我效能的 β、p 和 R² 算出来并写成 Results 段落"。AI 很快给出一段格式完美、β/p/R² 俱全的文字。请用本课原理说明:为什么这段文字不可信?正确做法是什么?
好答案要点:指出大模型按概率续写、不接入你的数据、不做可信计算——它给的 β/p/R² 是依语料规律仿真出的字符串,与你这 500 行数据无算术关系,属幻觉;格式完美 ≠ 数值正确。正确做法是先在 Jamovi/SPSS/Python 亲手跑出回归,再把输出表粘给 AI 让它仅做 APA 转写,并逐行核对数字、以软件输出为准。
练习 2(翻译 + 边界,紧扣 Case A)。 给定 Case A 第 29 课的 Bootstrap 中介输出:间接效应 ab = −.14, 95% CI [−.20, −.09],直接效应 c' 的 95% CI [−.22, −.08]。请:(a) 写一段规范的 APA Results 文字报告该中介结果,说清"部分中介"的判据;(b) 指出为什么不能据此写"降低 AI 焦虑会提升自我效能"。
好答案要点:(a) 间接效应 CI 不含 0 故显著,直接效应 c' 的 CI 也不含 0、仍显著,故为部分中介(若 c' 不显著才是完全中介);措辞用"学习策略在焦虑与效能间起部分中介作用",全部数字原样取自输出。(b) Case A 是横断面数据,中介只反映三者协变结构,无时间先后与机制,写"降低焦虑会提升效能"是因果越界——相关/中介 ≠ 因果。
练习 3(5 大错误识别)。 下面是 AI 为 Case A 回归写的一段 Results:「AI 焦虑显著影响自我效能(p = .051);学习策略 β = .38,对效能有强烈作用;性别虽不显著(p = .386),但女生焦虑呈上升趋势。」请逐句指出它踩中了 5 大错误中的哪几条,并改写。
好答案要点:① "p = .051"称"显著"= 虚报显著(以 α=.05 为界不显著,应如实报"未达显著");② "影响"暗含因果、应改"预测/关联"= 因果越界;③ "β = .38…强烈作用"= 效应量误读(.38 属中等偏大,非"强烈",且措辞应去因果);④ "不显著但呈上升趋势"= 过度解读不显著(p=.386 即无差异,删去趋势)。改写示例:「AI 焦虑负向预测自我效能(β = −.21, p = …);学习策略正向预测自我效能(β = .38, p < .001,中等偏大效应);性别不显著(β = −.04, p = .386)。」
练习 4(跨案例方法选择,紧扣 Case C)。 Case C 中 300 篇文章每篇都被 GPT-5、Claude 4.7、Gemini 2.5 三个模型评分。同学想比较 GPT-5 与 Claude 4.7 的质量得分差异,准备用独立样本 t 检验,并让 AI"算一下 t 和 p 再写成 Results"。请指出这里有两处问题,并给出正确流程。
好答案要点:①方法错——同一批文章被两模型评分是配对/重复测量,须用配对样本 t 检验(
ttest_rel)而非独立样本 t;独立 t 假设两组是不同对象,会用错误差结构、导致 t/p 全错。②红线错——让 AI 代算 t/p 是幻觉来源,AI 不接入数据、不做计算。正确流程:先用 Python(scipy/pingouin)跑配对 t(必要时配 Friedman 做三模型整体比较),再把输出粘给 AI 让它套 APA 体例转写"GPT-5 得分显著高于/低于 Claude 4.7(t(df)=…, p=…, d=…)",并逐一核对数字。
