第 25 课：统计分析（一）t 检验与方差分析

🎯 核心实操目标

学习目标：掌握三种最基础也最常用的均值差异检验——独立样本 t 检验 / 配对样本 t 检验 / 单因素 ANOVA，并能先判断"该用哪一种"。本课你将用 Case A 数据跑通"性别在 AI 焦虑上的差异"（真实教学锚点），并学会规范报告统计结果——p 值与效应量必须同时报、分开解读。

📋 课前准备（5 分钟自检）

工具/账号

[ ] Jamovi 2.5+ 或 SPSS 29+
[ ] 第 23 课清洗后的数据 case_A_cleaned.csv

数据/素材

[ ] 包含 Gender / Grade 与三个量表均分的清洗数据

应急通道

数据不满足正态分布 → 用非参数替代（Mann-Whitney U / Kruskal-Wallis）
方差不齐 → 用 Welch's t 检验（Jamovi 自动选项）

场景导入：只报 p 值，为什么不够

量化论文的"假设检验"一节，常见的一种写法是：报告 t(498) = −4.32, p < .001，然后断言"两组存在显著差异"，段落到此结束。这类写法触发的高频退稿意见是：报告了 p 值却未报告效应量，无法判断差异的实际意义（practical significance）。
根源在于 p 值与效应量回答的是两个不同的问题。p 值回答"这点差异是不是抽样误差能解释的"（差异在统计上是否可靠）；效应量回答"这点差异到底有多大"（差异在实质上是否值得在意）。二者并不互相替代。
二者必须并报的原因，是 p 值会被样本量放大：同样大小的真实差异，N 越大，抽样误差越小，p 值越容易跨过 .05。极端情形下，N = 5000 时，两组均值仅差 0.01 也可能 p < .001；但此时 Cohen's d 可能只有 0.05——这点差异在实际中几乎没有意义。只看 p 会把"统计显著"误读成"重要"。因此本课的第一条规范是：凡报告差异检验，p 值与效应量（Cohen's d 或 η²）必须同时出现。

🗺️ 三种均值差异检验：先选对方法

你想比较什么？	用什么检验	报告什么
两组独立样本均值（如男 vs 女）	独立样本 t 检验	t, df, p, Cohen's d
同一群人两次测量（如前测 vs 后测）	配对样本 t 检验	t, df, p, Cohen's d
三组及以上均值（如大一/大二/大三/大四）	单因素 ANOVA	F, df1, df2, p, η² 或 ω²
ANOVA 显著后细分哪两组差异	事后多重比较	Bonferroni / Tukey HSD

原理：t 检验与 ANOVA 在"测什么"，为什么这样测

在套用任何一个检验之前，先弄清它在回答什么问题，比记住按钮顺序重要得多。t 检验与 ANOVA 同属一个家族，核心思路只有一句：把"组间的均值差异"和"组内本身就有的波动"做比较，看前者是否大到不像随机抽样能造成的。

它在测什么——"组间差异"相对于"组内噪声"的比值。 任何一次抽样，即使两个总体的均值完全相同，抽到的两组样本均值也几乎不会恰好相等——这部分纯由随机性造成的差异叫抽样误差（sampling error）。t 检验问的是：我观测到的两组均值之差（如女生 3.35 − 男生 3.05 = 0.30），是大到超出抽样误差能解释的范围，还是落在"随便抽抽也会有这么大"的区间内？t 值本质上就是"均值差 ÷ 该差异的标准误"——分子是组间差异，分母是这个差异因抽样而波动的幅度。t 的绝对值越大，说明观测到的差异相对于噪声越突出，越不像偶然。
ANOVA 只是把这个思路从两组推广到多组。 当要比较三组及以上（如大一到大四四个年级）时，两两 t 检验会反复使用，多次检验会累积"假阳性"风险（做的比较越多，至少有一次"碰巧显著"的概率越高）。ANOVA 用一个整体检验回避这个问题：它把数据的总变异拆成组间变异（各组均值彼此差多远）与组内变异（每组内部个体差多远），二者之比即 F 值。F 越大，说明组间差异相对组内噪声越突出。ANOVA 的 F 显著只告诉你"这几组里至少有两组不一样"，但不告诉你是哪两组——这正是需要紧接着做事后多重比较的原因。
为什么必须配效应量——p 值不报"差异有多大"。 t 值和 F 值经过自由度换算得到 p 值，而 p 值同时受差异真实大小和样本量两个因素影响（见上一节）。要剥离样本量、单纯刻画"差异本身有多大"，就需要效应量（effect size）：t 检验用 Cohen's d（两组均值差折算成多少个标准差），ANOVA 用 η²（因变量的总变异中有多大比例由分组解释）。p 回答"可不可靠"，效应量回答"重不重要"，缺一不可。
前提假设——参数检验不是无条件成立的。 t 检验与 ANOVA 属于参数检验（parametric test），其 p 值的准确性建立在两条前提上：① 正态性——各组的因变量在总体中近似正态分布；② 方差齐性（homogeneity of variance）——各组的总体方差大致相等。前提被严重违反时，算出的 p 值会失真。应对办法不是无视，而是换工具：方差不齐用 Welch 校正，正态严重偏离且样本小则改用非参数检验（见下文实操与【边界与局限】）。

📘 关键术语（首次出现，先对齐定义）

t 检验（t-test）：比较一个或两个组的均值是否存在统计上可靠差异的参数检验。两组独立个体用独立样本 t 检验（independent-samples t-test），同一批个体两次测量用配对样本 t 检验（paired-samples t-test）。
方差分析（analysis of variance, ANOVA）：把 t 检验推广到三组及以上的均值比较；本课只涉及单一分组因素的单因素 ANOVA（one-way ANOVA）。
t 值（t statistic）：组间均值差除以该差异的标准误，是一个"差异相对于噪声"的标准化比值；绝对值越大越不像偶然。其正负只表示方向（哪组更高），不表示大小。
F 值（F statistic）：ANOVA 中组间均方与组内均方之比，作用与 t 值类似——衡量组间差异相对组内波动的突出程度。
自由度（degrees of freedom, df）：可自由变动的信息量，决定 t/F 分布的具体形状，从而决定同一个 t/F 值对应多大的 p。独立样本 t 检验 df ≈ N − 2（本课 N=500，故 df=498）；单因素 ANOVA 报两个自由度——组间 df₁ = 组数 − 1、组内 df₂ = N − 组数。
p 值（p-value）：在"两组总体均值其实相等"（零假设成立）的前提下，观测到当前或更极端差异的概率。p 小（惯例 < .05）说明这种差异不像抽样误差能解释，于是拒绝"无差异"。p 不是"差异为真的概率"，也不衡量差异大小。
效应量（effect size）：剥离样本量后、单纯刻画差异/关联大小的标准化指标。本课用 Cohen's d（t 检验）和 η² / ω²（ANOVA）。
Cohen's d：两组均值之差除以合并标准差，表示"两组相差多少个标准差"。常用参照：|d|≈0.2 小、≈0.5 中、≈0.8 大（Cohen, 1988）。
η²（eta squared，Eta 平方）：ANOVA 中分组因素解释的变异占总变异的比例。常用参照：≈.01 小、≈.06 中、≈.14 大。样本小时 η² 偏高估，ω²（omega squared）是其偏差更小的替代。
方差齐性（homogeneity of variance）：各组总体方差大致相等，是 t 检验/ANOVA 的前提之一；用 Levene 检验评估。违反时用 Welch 校正。
事后多重比较（post-hoc multiple comparison）：ANOVA 整体显著后，进一步检验"具体哪两组"有差异，并对多次比较做显著性校正（如 Bonferroni、Tukey HSD），以控制累积的假阳性。

🚀 拆解实战 A：独立样本 t 检验（性别差异）

Jamovi 操作

T-Tests → Independent Samples T-Test
Dependent Variables: Anxiety_Mean
Grouping Variable: Gender
勾选: Effect size (Cohen's d) + Descriptives + Assumption Checks: Normality / Homogeneity
运行

🔢 这一步只"读取"不"代算"

下面报告里的每一个数字（M、SD、t、p、d）都必须来自你在 Jamovi 里亲手跑出的输出。本课全程的红线是：AI 只负责把你已算出的结果翻译成规范段落，绝不替你计算或编造任何统计量（详见下文实操 E 与【边界与局限】）。

报告规范（APA）

独立样本 t 检验显示, 男生(M = 3.05, SD = 0.74)与女生(M = 3.35, SD = 0.79)
在 AI 学习焦虑上存在显著差异, t(498) = -4.32, p < .001, Cohen's d = -0.39。
女生的 AI 焦虑水平显著高于男生, 效应量为小到中等(接近中等, 按 Cohen 1988 标准)。

本段数字取自 Case A 清洗后数据（N=500）的实际独立样本 t 检验输出，是本课的真实教学锚点。你自己跑出的数若与此略有出入，以你的输出为准——这正是"先读取、再报告"的体现。

📐 Worked Example：把 t(498) = −4.32, p < .001, d = −0.39 逐项读懂

报告里这一串符号不是装饰，每一项都对应一个可以用中文讲出来的判断。以 Case A 性别差异为例，逐项翻译：

t = −4.32：t 值是"组间均值差 ÷ 该差异的标准误"。负号只表示方向——这里把男生设为前一组、女生设为后一组，差值（男 − 女 = 3.05 − 3.35 = −0.30）为负，故 t 为负；负号不代表差异小。绝对值 4.32 偏大，说明 0.30 这点差异相对于抽样波动相当突出，不像随便抽抽就能造成。
df = 498：自由度。两组共 N=500 人，独立样本 t 检验 df = N − 2 = 498。它决定了"多大的 t 值才算够极端"——df 越大，临界值越低。
p < .001：在"男女总体焦虑均值其实相等"的假设下，抽到 |t| ≥ 4.32 这么极端结果的概率小于千分之一。远小于 .05，故拒绝"无差异"，判定差异在统计上可靠。注意 p 只说"可靠"，没说"差多少"。
Cohen's d = −0.39：这才回答"差多少"。0.30 的均值差折算成约 0.39 个合并标准差，按 Cohen 标准（0.2/0.5/0.8）落在小到中等之间、接近中等。负号同样只表示方向（女 > 男）。
合起来的一句话：女生的 AI 焦虑显著高于男生（p < .001，统计可靠），且这一差异达到接近中等的实质程度（d≈−0.39，并非可忽略的微小差异）。

这一步示范了差异检验的核心动作：不是把 t、p、d 抄进句子就完事，而是把每个符号"翻译"成一句关于这两群人的、既讲可靠性又讲实质大小的话。

Cohen's d 解读

\|d\|	效应量
~0.2	小
~0.5	中
~0.8	大

解读 Cohen's d 只看绝对值——正负仅表示方向（哪组更高），与效应大小无关。本例 |d|≈0.39 介于"小"（.2）与"中"（.5）之间、更靠近中等。

🚀 拆解实战 B：配对样本 t 检验（前后测）

适用场景：同一群人在两个时点（如干预前 vs 干预后）、或两种条件下的测量对比。它与独立样本 t 检验的关键区别是——两次测量来自同一批个体，彼此配对、不独立，因此分析的是"每个人前后之差"而非"两组各自的均值"，这能剔除个体间的稳定差异、提高检验效力。Case A 是一次性横断面问卷，本身没有前后测；下面用一组演示数值说明操作与报告格式（非 Case A 真实统计量，仅示范技术）。

Jamovi 操作

T-Tests → Paired Samples T-Test
Paired Variables: 拖入两个前后测变量
同样勾选 Cohen's d + Assumption Checks（配对 t 的正态性前提针对差值，而非各时点原始分）

报告（演示数值，非 Case A 真值）

配对样本 t 检验显示, 干预后(M = 4.05, SD = 0.68)相比干预前(M = 3.85, SD = 0.72)
学习策略评分显著提升, t(499) = 5.21, p < .001, Cohen's d = 0.23。

上述前后测数字为演示用示例，用于展示配对 t 的报告格式。Case A 数据中没有前后测变量，请勿把这组数当作 Case A 的真实结果引用。

🚀 拆解实战 C：单因素 ANOVA（年级差异）

Jamovi 操作

ANOVA → One-Way ANOVA
Dependent Variables: Anxiety_Mean
Grouping Variable: Grade
关键勾选：
- Effect Size: η²（Eta squared）
- Post-Hoc Tests: Tukey 或 Bonferroni
- Assumption Checks: Homogeneity test (Levene's)

报告规范（演示数值）

单因素方差分析显示, 不同年级在 AI 学习焦虑上存在显著差异,
F(3, 496) = 8.42, p < .001, η² = .048。

事后多重比较(Bonferroni 校正)显示:
大四年级(M = 3.58, SD = 0.81)的焦虑显著高于大一(M = 2.98, SD = 0.69, p < .001)
和大二(M = 3.10, SD = 0.74, p = .003);
大一与大二、大二与大三、大三与大四之间差异不显著(p > .05)。

此处 F 与各年级均值为演示数值，用于完整展示 ANOVA + 事后比较的报告写法（自由度内部一致：4 个年级 → df₁=4−1=3，df₂=500−4=496）。请以你自己跑出的输出为准。
读 ANOVA 报告的三个要点：① F 显著（p<.001）只说明"四组里至少有两组不同"，不指明是哪两组；② 必须接着看事后比较，才能定位差异落在大四与大一/大二之间；③ η²=.048 落在"小到中"档（参照下表），说明年级虽与焦虑有可靠关联，但只解释了焦虑总变异的约 4.8%，实质强度有限——这正是 F 显著之后仍要报效应量的意义。

η² 解读

η²	效应量
~0.01	小
~0.06	中
~0.14	大

η² 衡量"分组解释了因变量多大比例的变异"，是 ANOVA 的标准效应量；其值偏向高估，样本小时尤甚，因此严谨写法常同时报偏差更小的 ω²（omega squared）。

🚀 拆解实战 D：前提假设检验（参数检验成立的条件）

t 检验与 ANOVA 的 p 值之所以可信，建立在两条前提上。检验前提不是走形式，而是决定"这个 p 值还能不能信"——下面给出判读规则与违反后的应对。

1. 正态性（Normality）

各组因变量在总体中近似正态。Jamovi 可输出 Shapiro-Wilk 检验（也可看 Q-Q 图）：

p > .05 → 未发现显著偏离正态，前提基本满足
p < .05 但样本较大 → 仍可用参数检验（原因见下方说明）
p < .05 且样本小（经验上 N < 30 左右） → 改用非参数检验（Mann-Whitney U / Kruskal-Wallis）

2. 方差齐性（Homogeneity of variance）

各组的总体方差大致相等。Jamovi 输出 Levene 检验：

p > .05 → 各组方差无显著差异，前提满足
p < .05 → 方差不齐，改用 Welch 校正的 t 检验 / ANOVA（自动调整自由度，Jamovi 一键勾选）

⚠️ 正确理解"大样本下参数检验仍稳健"

社科研究中常见"样本大但 Shapiro-Wilk 仍 p<.05"。这里要把机制说准：中心极限定理（central limit theorem）保证的是"样本均值的抽样分布"随 N 增大趋于正态，而不是"原始数据"变正态。 t 检验与 ANOVA 比较的正是均值，因此在大样本下即使原始分布略偏，检验也较稳健。

但要守住两条边界：① N>100 / N<30 都是经验阈值、不是硬线，应结合偏离程度与图形（Q-Q 图、直方图）判断，而非只看一个 p；② 稳健 ≠ 百病不侵——严重偏态、强离群、或本就关心"分布形状/中位数"的问题，仍应改用非参数方法。Shapiro-Wilk 本身也对样本量敏感：N 很大时极轻微的偏离也会"显著"，不必一见 p<.05 就放弃参数检验。

🚀 拆解实战 E：让 AI 把检验输出翻译成"假设检验"段落

到这一步，所有 t、F、p、效应量都已由你在 Jamovi 里算好。AI 的角色是翻译官而非计算器：把你粘贴进去的输出表，转写成符合 APA 规范、含可靠性与实质大小双重解读的段落。它不重新计算、不改动任何数值——这是本课乃至整个量化模块的红线。

t 检验 / ANOVA 翻译官 Prompt（中文）

markdown

【角色】熟悉 APA 第 7 版格式、严谨克制的论文编辑。

【任务】下面是我用 Jamovi 跑出的 t 检验与 ANOVA 输出（已粘贴）。
请据此撰写论文 4.2 节"假设检验"段落，要求如下：

1. 严格使用 APA 行内格式：t(df) = X.XX, p = .XXX, Cohen's d = X.XX；
   ANOVA 用 F(df1, df2) = X.XX, p = .XXX, η² = .XXX。
2. 每个检验都报全四件套：检验统计量(t/F) + 自由度(df) + p 值 + 效应量。
3. ANOVA 整体显著后，必须报告事后多重比较，写清"具体哪两组"差异显著及其校正方法。
4. 每个效应量后补一句中文实质解读（小/中/大），并把"统计显著"与"实质大小"分开陈述。
5. 红线：严禁重新计算、严禁改动我粘贴的任何数字，逐字照用；p 值不得四舍五入到跨越 .05
   （如 .051 不得写成 < .05）。

【Jamovi 输出】[在此粘贴整张输出表]

这一段：写砸 vs 写好

同一份 Jamovi 输出，写成段落可以"勉强合格"也可以"可投稿"。下面把假设检验段最常见的失分点逐项并排对照——左列是高频写法，右列是把同一处"拧紧"后的写法（以 Case A 性别差异为例）。

维度	写砸 ❌	写好 ✅	为什么
统计量是否报全	男女焦虑差异显著（p<.001）	男女焦虑差异显著，t(498)=−4.32, p<.001	只给 p 无法复核；t 与 df 缺一不可，否则审稿人无从判断
是否报效应量	t(498)=−4.32, p<.001	t(498)=−4.32, p<.001, Cohen's d=−0.39	漏报效应量是本课头号失分点——p 不说"差多少"
效应量是否解读	…d=−0.39。	…d=−0.39，差异达接近中等程度（女>男）	报了 d 不解读等于没报；要翻成"小/中/大"的实质判断
可靠与大小是否分开	差异非常显著、非常大	差异在统计上可靠（p<.001），实质上达接近中等（d≈0.39）	"非常显著"是把 p 误当大小；显著性与效应量是两件事
ANOVA 后是否定位	各年级焦虑差异显著（F 显著）	F 显著后经 Bonferroni 比较，差异主要在大四与大一/大二之间	F 只说"至少两组不同"，不接事后比较等于没回答"哪两组"
p 值措辞	p=.000；p=.051 显著	p<.001；p=.051（未达 .05，不显著）	p 永不写成 .000；临界值不得四舍五入跨线

💡 一句话判据

检验一段假设检验写得好不好，问三件事：每个检验有没有报全 t/F、df、p、效应量四件套？效应量有没有被翻成"小/中/大"？有没有把"显著"误当成"差异大"？ 三者都过关，这一段才从"报符号"升级成"讲清结论"。

跨案例迁移：把均值差异检验搬到 Case C（同一批文章、三模型评分）

前面用的是 Case A 心理问卷（人按性别/年级分组，组与组之间是不同的人）。均值差异检验的价值在于换数据只换"谁和谁比"，思路不变。下面换一个完全不同的领域——Case C：大模型生成质量评估，300 篇文章 × 3 个模型，每篇文章（Article_ID = PAPER_0001–PAPER_0300）被三个模型各写一稿并打质量分：Quality_GPT5 / Quality_Claude47 / Quality_Gemini25（均为 Fluency / Accuracy / Coverage 三维平均，1–5 分）。

这里多出一个关键判断：选独立样本还是配对？

📐 为什么 Case C 必须用"配对/重复测量"，不能用独立样本 t

独立样本 t 检验的前提是两组由互不相干的个体构成。Case C 不满足这个前提：Quality_GPT5 和 Quality_Claude47 这两列里，第 1 行都是 PAPER_0001、第 2 行都是 PAPER_0002——同一篇文章被三个模型分别评分，三列在行上一一对应、彼此配对。

比较两个模型（如 GPT-5 vs Claude 4.7）：用 配对样本 t 检验（Python 中 scipy.stats.ttest_rel）。它分析的是"每篇文章上两模型的得分之差"，从而剔除"文章本身有难有易"这一干扰——难写的文章拉低所有模型，但差值不受影响。若误用独立样本 t，会把同一批文章当成两批陌生人，白白损失配对带来的效力。
同时比较三个模型：这是重复测量（repeated measures）情形——三列对应同一批文章。可用重复测量 ANOVA；若评分的正态/球形性前提存疑，改用其非参数版本 Friedman 检验（Python 中 scipy.stats.friedmanchisquare）。Friedman 整体显著后，同样需要事后两两比较（并做多重比较校正）定位"具体哪两个模型"不同。

一句话：判断独立还是配对，看"两列数据是不是来自同一批个体、能否按行配对"——是 Case A 的男生女生（不同人）就独立，是 Case C 的同篇文章三评分（同一批）就配对。选错检验，p 值与效应量整段失真。

🔢 Case C 同样守红线：先算后写

本节涉及的 ttest_rel / Friedman 统计量，必须由你在 Python（或统计软件）里亲手跑出。把同篇文章被三模型评分的数据整理成"宽表"（每行一篇、三列分别是三模型得分），运行检验得到 t/F/p 与效应量，再把输出交给 AI 翻译。注意 Case C 的固定基准是 Claude 4.7 = Quality_Claude47（评估对象），与你在别处用到的通用助手版本号不要混淆。

🔁 迁移要点

对比 Case A 与 Case C：数据从"人按性别分两组"变成"同篇文章被三模型评分"，但均值差异检验的骨架没变——先判断独立还是配对、再选对应检验、显著后做事后比较、全程必报效应量。Case C 只是把"选独立 t"换成"选配对 t / 重复测量（Friedman）"这一步专门判断。把"谁和谁比"换成你学科的对象，教育、医学、计算语言学都能照搬。

常见误区与纠正

学员做差异检验时，问题高度集中在"漏报效应量""选错检验""误读 p"。下表是最高频的几种，照着对号入座即可：

常见误区	症状（输出会怎样）	纠正方法
只报 p、漏报效应量	写"差异显著（p<.001）"就收尾，无法判断实际意义	凡差异检验必同时报效应量（t→Cohen's d，ANOVA→η²/ω²）并解读小/中/大
把"显著"当成"差异大"	写"非常显著""差异巨大"，实则只是 p 很小	显著性（p）与效应量是两件事；p 小只说"可靠"，大小由 d/η² 决定
配对数据误用独立样本 t	Case C 同篇文章三评分当成三批陌生人比较	看两列能否按行配对：同一批个体→配对 t / 重复测量；不同个体→独立 t
ANOVA 显著后不做事后比较	只报"各组差异显著（F 显著）"，不说哪两组	F 只说"至少两组不同"；必接事后比较（Bonferroni/Tukey）并做校正
p 值写法越界	写成 p=.000，或把 p=.051 说成 <.05	p 永不写 .000（写 <.001）；临界值不得四舍五入跨 .05 线
一见 Shapiro p<.05 就放弃参数检验	大样本下也慌着全改非参数	大样本下检验比较的是均值、较稳健；结合偏离程度与 Q-Q 图判断，别只看一个 p
方差不齐仍用普通 t	Levene 显著却用未校正的 Student t，p 失真	方差不齐改用 Welch 校正（Jamovi 一键勾选，自动调 df）
让 AI 代算 t/F/p	把原始数据丢给 AI"帮我跑个 t 检验"	所有统计量自己在软件里算；AI 只翻译已算出的输出，绝不代算（见红线）

输出 / 结果不理想？如何排查与迭代

差异检验跑完，常见三类"不对劲"：结果不显著、软件报错或前提不满足、AI 生成的段落不达标。逐类对症排查，不要推倒重来。

结果不显著（p > .05）→ 先分清"真没差异"还是"没检测出来"，绝不为求显著而做手脚。
- 这是完全正常且常见的结果，不是失败。先看效应量与样本量：若 d/η² 很小，多半是真实差异本就微弱；若效应量不小但 p 不显著，可能是样本量不足（检验效力低），应在讨论里如实说明，而非删数据凑显著。
- 红线：严禁反复换分组、剔除"碍事"的被试、或挑一个显著的子样本来报告（即 p-hacking）。不显著就如实报不显著——审稿人能识别凑出来的显著。
软件报错 / 前提不满足 → 对症换工具，而非无视前提。
- 方差不齐（Levene 显著）→ 勾选 Welch 校正版 t / ANOVA。
- 正态严重偏离且样本小→ 改用非参数：两组独立用 Mann-Whitney U，配对用 Wilcoxon 符号秩，多组独立用 Kruskal-Wallis，多组配对用 Friedman（Case C 即属此类）。
- 分组只有一个水平、或某组样本为 0 → 多半是分组变量没设成因子或筛选条件写错，回数据检查编码（呼应第 23 课清洗）。
AI 段落不达标（漏效应量、改了数值、把显著当大小）→ 局部纠偏，永远以你的输出为准。
- 它改动或编造了数值 → 最危险，直接弃用该句并追加"严禁改动我粘贴的任何数字，逐字照用"；任何与你软件输出对不上的数字，一律以你的输出为准。
- 它漏报或不解读效应量 → 追加"每个检验后必须报 Cohen's d / η² 并解读小/中/大"。
- 它把"显著"写成"差异很大" → 追加"将统计显著（p）与效应量大小分开陈述，不得用 p 的大小形容差异的大小"。

一句话

首版不理想，先分清是数据/效力问题（不显著就如实报，绝不凑）、前提问题（对症换 Welch 或非参数）、还是翻译问题（局部纠偏 AI 段落）。无论哪种，红线不变：统计量只能由你算出，AI 只能翻译，不能代算、不能篡改、不能帮你"凑显著"。

边界与局限：差异检验与 AI 在这一步的能与不能

t 检验与 ANOVA 是"判断均值差异是否可靠"的工具，但它们有明确的能力边界；AI 在这一步的角色更要划清。把下面几条记牢，比多背一个阈值更重要。

边界 / 失效场景	为什么会这样	你应该怎么做
p 值受样本量左右	N 越大，抽样误差越小，微不足道的差异也会"显著"；p<.05 不等于差异重要	必报效应量（d/η²）并据其判断实质大小，显著性与重要性分开陈述
显著 ≠ 因果	t/ANOVA 只说明"组间均值差异不像抽样误差"，给不出"谁导致谁"	因果靠研究设计（随机分组/可信识别），不靠检验本身
横断面数据慎称因果	Case A 是一次性问卷，组间差异可能源于第三变量、选择效应等	横断面差异只描述"组间有别"，下"导致/影响"是越界，措辞止于"差异/关联"
前提违反会让 p 失真	正态/方差齐被严重违反时，参数检验的 p 值不再准确	检前提（Shapiro-Wilk / Levene），违反则用 Welch 或非参数方法
多重比较抬高假阳性	反复做两两 t 检验，"至少一次碰巧显著"的概率随比较次数累积	多组比较用 ANOVA 整体检验，事后比较做 Bonferroni/Tukey 校正
不显著 ≠ 证明无差异	不显著可能是真无差异，也可能是样本量不足、效力低	报告效应量与样本量，必要时讨论检验效力，不把"不显著"说成"已证明相等"
AI 只能翻译，不能代算	大模型不接入你的数据、不做可信计算，让它"算 t/F/p"只会得到看似合理实则编造的数字（幻觉 hallucination）	所有统计量在 Jamovi/SPSS/Python 亲手跑；AI 仅把你粘贴的输出转写成规范段落

⚠️ 本课红线：AI 翻译结果，绝不代算统计量

这是贯穿整个量化模块的硬规则：凡是 t 值、F 值、自由度、p 值、Cohen's d、η²——一律由你在统计软件里算出，AI 的唯一职责是把这些已经算好的数字翻译成符合 APA 的中文段落。任何时候 AI 给出的数字与你的软件输出不一致，以软件输出为准，并视为 AI 出错。把"算"留给软件、把"写"交给 AI、把"判断"（选哪种检验、能否谈因果、显著与否如何解读）留给自己——三者不可混淆。

📦 本课交付物

按本节实操任务完成并提交以下内容，提交 AI 初审，按 Module_Rubrics.md 对应维度评分：

[ ] 独立样本 t 检验结果：性别在 AI 焦虑上的差异（t/df/p）+ Cohen's d + APA 段落，含可靠性与实质大小双重解读
[ ] 单因素 ANOVA 结果：年级在某量表上的差异 + η²/ω² + 事后多重比较 + APA 段落
[ ] 前提假设检验报告：Shapiro-Wilk（正态）+ Levene（方差齐）结果及"是否改用 Welch/非参数"的判断
[ ] 效应量评估：每个显著结果标注小/中/大，并说明"统计显著"与"实质大小"的区别
[ ] Results 4.2 段草稿：AI 辅助翻译 + 人工核对（t/F/p/效应量逐一比对软件输出）
[ ] 四维质检记录：用 Course_QA_Checklists.md（事实/逻辑/格式/引用）核查 AI 段落，重点查"数字是否被改动、是否漏报效应量、是否把显著当成差异大"
[ ] 沉淀模板：将本课翻译官 Prompt + 检验选择判断流程加入个人工具箱

🏁 本章小结

把本课凝练成可据以复习的几条要点：

核心思路：t 检验与 ANOVA 同属一族——都在比较组间均值差异与组内噪声。t 检验比两组（独立或配对），ANOVA 把它推广到三组及以上；F 显著只说"至少两组不同"，要靠事后比较定位"哪两组"。
先选对检验：两组不同个体→独立样本 t；同一批个体两次测量/两条件→配对样本 t；三组及以上→单因素 ANOVA（+事后比较）。判断独立还是配对，看两列数据能否按行配对（Case A 男女是不同人→独立；Case C 同篇文章三评分→配对/重复测量）。
p 与效应量必须并报：p 回答"差异是否可靠"，受样本量放大；效应量（t→Cohen's d，ANOVA→η²/ω²）回答"差异有多大"。只报 p 是本课头号失分点；显著性与实质大小要分开陈述。
效应量阈值：Cohen's d 看绝对值——|d|≈.2 小、.5 中、.8 大；η²≈.01 小、.06 中、.14 大（η² 偏高估，可并报 ω²）。Case A 性别差异 d≈−0.39 属"接近中等"。
检前提、违反则换工具：正态性看 Shapiro-Wilk/Q-Q 图，方差齐看 Levene。大样本下检验比较均值、较稳健（中心极限定理作用于均值分布，非原始数据）；严重违反则用 Welch（方差不齐）或非参数（Mann-Whitney/Kruskal-Wallis/Wilcoxon/Friedman）。
边界要诚实：显著≠因果，横断面差异慎称"导致"；不显著≠证明无差异，可能是效力不足；多重比较要校正。统计量由你算出，AI 只翻译、绝不代算或篡改，更不帮你凑显著——数字对不上时一律以软件输出为准。

自测清单（可保留逐项打勾）

[ ] 我能说清 t 检验/ANOVA"在测什么"（组间差异 vs 组内噪声），并讲出 t、F、df、p、效应量各代表什么。
[ ] 我能根据"两列是否按行配对"选对检验（独立 t / 配对 t / ANOVA / 重复测量·Friedman），并解释 Case A 与 Case C 为何不同。
[ ] 我的报告永远不只报 p——必报效应量（Cohen's d 或 η²），并把"显著"与"差异大"分开说。
[ ] 我能解读效应量大小（d：.2/.5/.8；η²：.01/.06/.14），且只看 d 的绝对值。
[ ] 我做了前提假设检验（Shapiro-Wilk + Levene），理解大样本稳健的真正机制，并知道违反时换 Welch 或非参数。
[ ] ANOVA 显著后我必跑事后多重比较（Bonferroni/Tukey）；遇到不显著我如实报告，绝不凑。
[ ] 我能识别 AI 输出中的"虚报显著性"（如 p=.051 说成 <.05、把显著说成差异大、改动我的数值），并知道一律以软件输出为准。

✍️ 思考与练习

下列练习用于把本节概念用起来（区别于"本课交付物"里的任务），建议写在你的本地笔记中。

练习 1（原理辨析）。 有同学跑出 t(498) = −4.32, p < .001，于是在论文里写"男女焦虑差异非常巨大"。请用本课原理说明：仅凭这个 p 值能否断言差异"巨大"？要回答"差异有多大"，还必须报告并解读什么？

好答案要点：不能——p 只回答"差异是否可靠/是否像抽样误差"，且受样本量放大（N=500 时不大的差异也易显著）；"差异多大"由效应量 Cohen's d 回答，本例 d≈−0.39 属"小到中、接近中等"，应解读为"达接近中等程度"而非"巨大"；并指出显著性与效应量是两件事，不能用 p 的大小形容差异的大小。

练习 2（Worked Example 逐项读法，紧扣 Case A）。 取 Case A 性别差异结果：男 M=3.05、SD=0.74，女 M=3.35、SD=0.79，t(498)=−4.32, p<.001, d=−0.39。请逐项解释：t 为什么是负数、df 为什么是 498、p<.001 在"零假设"下意味着什么、d=−0.39 该怎么解读；最后用一句规范中文给出结论。

好答案要点：t 负号只表示方向（把男设为前一组，男−女=−0.30 为负），不代表差异小；df=N−2=500−2=498；p<.001 指"若男女总体均值其实相等，抽到 |t|≥4.32 这么极端结果的概率<千分之一"，故拒绝无差异；d 看绝对值≈0.39，介于小(.2)与中(.5)之间、近中等；结论如"女生 AI 焦虑显著高于男生（p<.001），差异达接近中等程度（d≈−0.39）"。

练习 3（选对检验，紧扣 Case C）。 取 Case C（300 篇文章，每篇被三模型各评一分：Quality_GPT5/Quality_Claude47/Quality_Gemini25）。你想检验"GPT-5 与 Claude 4.7 的质量分是否有差异"。有人主张用独立样本 t 检验。请说明这为何不对、应改用什么检验、以及若三模型一起比又该怎么做。

好答案要点：不对——Quality_GPT5 与 Quality_Claude47 两列按 Article_ID 同篇文章一一配对，不是两批陌生人，违反独立样本 t 的"互不相干个体"前提；应改用配对样本 t 检验（ttest_rel），它分析每篇文章上的得分差、剔除"文章有难有易"的干扰、效力更高；三模型同时比属重复测量，可用重复测量 ANOVA，前提存疑时改用 Friedman 检验，整体显著后再做事后两两比较并校正。

练习 4（结果不显著 + 红线）。 你跑某组间比较得到 p=.18（不显著），效应量也很小。同门建议你"剔除几个碍事的被试、或换一种分组方式，多试几次总能跑出 p<.05"。请指出这一建议踩中本课哪条红线，正确做法是什么。

好答案要点：这是 p-hacking（为求显著反复换分组/剔除数据/挑子样本），违反"绝不为求显著而做手脚"的红线，会制造假阳性、败坏研究可信度；正确做法是如实报告不显著，结合小效应量与样本量说明"很可能真无差异或检验效力不足"，必要时在讨论里谈效力/样本量，而不是篡改数据凑显著；同时统计量始终自己在软件里算、AI 只翻译。

第 25 课：统计分析（一）t 检验与方差分析 ​

📋 课前准备（5 分钟自检） ​

工具/账号 ​

数据/素材 ​

应急通道 ​

场景导入：只报 p 值，为什么不够 ​

🗺️ 三种均值差异检验：先选对方法 ​

原理：t 检验与 ANOVA 在"测什么"，为什么这样测 ​

🚀 拆解实战 A：独立样本 t 检验（性别差异） ​

Jamovi 操作 ​

报告规范（APA） ​

Cohen's d 解读 ​

🚀 拆解实战 B：配对样本 t 检验（前后测） ​

Jamovi 操作 ​

报告（演示数值，非 Case A 真值） ​

🚀 拆解实战 C：单因素 ANOVA（年级差异） ​

Jamovi 操作 ​

报告规范（演示数值） ​

η² 解读 ​

🚀 拆解实战 D：前提假设检验（参数检验成立的条件） ​

1. 正态性（Normality） ​

2. 方差齐性（Homogeneity of variance） ​

🚀 拆解实战 E：让 AI 把检验输出翻译成"假设检验"段落 ​

这一段：写砸 vs 写好 ​

跨案例迁移：把均值差异检验搬到 Case C（同一批文章、三模型评分） ​

常见误区与纠正 ​

输出 / 结果不理想？如何排查与迭代 ​

边界与局限：差异检验与 AI 在这一步的能与不能 ​

📦 本课交付物 ​

🏁 本章小结 ​

自测清单（可保留逐项打勾） ​

✍️ 思考与练习 ​

第 25 课：统计分析（一）t 检验与方差分析

📋 课前准备（5 分钟自检）

工具/账号

数据/素材

应急通道

场景导入：只报 p 值，为什么不够

🗺️ 三种均值差异检验：先选对方法

原理：t 检验与 ANOVA 在"测什么"，为什么这样测

🚀 拆解实战 A：独立样本 t 检验（性别差异）

Jamovi 操作

报告规范（APA）

Cohen's d 解读

🚀 拆解实战 B：配对样本 t 检验（前后测）

Jamovi 操作

报告（演示数值，非 Case A 真值）

🚀 拆解实战 C：单因素 ANOVA（年级差异）

Jamovi 操作

报告规范（演示数值）

η² 解读

🚀 拆解实战 D：前提假设检验（参数检验成立的条件）

1. 正态性（Normality）

2. 方差齐性（Homogeneity of variance）

🚀 拆解实战 E：让 AI 把检验输出翻译成"假设检验"段落

这一段：写砸 vs 写好

跨案例迁移：把均值差异检验搬到 Case C（同一批文章、三模型评分）

常见误区与纠正

输出 / 结果不理想？如何排查与迭代

边界与局限：差异检验与 AI 在这一步的能与不能

📦 本课交付物

🏁 本章小结

自测清单（可保留逐项打勾）

✍️ 思考与练习