Skip to content

第 25 课:统计分析(一)t 检验与方差分析

🎯 核心实操目标

学习目标:掌握三种最基础也最常用的均值差异检验——独立样本 t 检验 / 配对样本 t 检验 / 单因素 ANOVA,并能先判断"该用哪一种"。本课你将用 Case A 数据跑通"性别在 AI 焦虑上的差异"(真实教学锚点),并学会规范报告统计结果——p 值与效应量必须同时报、分开解读

📋 课前准备(5 分钟自检)

工具/账号

  • [ ] Jamovi 2.5+ 或 SPSS 29+
  • [ ] 第 23 课清洗后的数据 case_A_cleaned.csv

数据/素材

  • [ ] 包含 Gender / Grade 与三个量表均分的清洗数据

应急通道

  • 数据不满足正态分布 → 用非参数替代(Mann-Whitney U / Kruskal-Wallis)
  • 方差不齐 → 用 Welch's t 检验(Jamovi 自动选项)

场景导入:只报 p 值,为什么不够

量化论文的"假设检验"一节,常见的一种写法是:报告 t(498) = −4.32, p < .001,然后断言"两组存在显著差异",段落到此结束。这类写法触发的高频退稿意见是:报告了 p 值却未报告效应量,无法判断差异的实际意义(practical significance)

根源在于 p 值与效应量回答的是两个不同的问题。p 值回答"这点差异是不是抽样误差能解释的"(差异在统计上是否可靠);效应量回答"这点差异到底有多大"(差异在实质上是否值得在意)。二者并不互相替代。

二者必须并报的原因,是 p 值会被样本量放大:同样大小的真实差异,N 越大,抽样误差越小,p 值越容易跨过 .05。极端情形下,N = 5000 时,两组均值仅差 0.01 也可能 p < .001;但此时 Cohen's d 可能只有 0.05——这点差异在实际中几乎没有意义。只看 p 会把"统计显著"误读成"重要"。因此本课的第一条规范是:凡报告差异检验,p 值与效应量(Cohen's d 或 η²)必须同时出现。

🗺️ 三种均值差异检验:先选对方法

你想比较什么?用什么检验报告什么
两组独立样本均值(如男 vs 女)独立样本 t 检验t, df, p, Cohen's d
同一群人两次测量(如前测 vs 后测)配对样本 t 检验t, df, p, Cohen's d
三组及以上均值(如大一/大二/大三/大四)单因素 ANOVAF, df1, df2, p, η² 或 ω²
ANOVA 显著后细分哪两组差异事后多重比较Bonferroni / Tukey HSD

原理:t 检验与 ANOVA 在"测什么",为什么这样测

在套用任何一个检验之前,先弄清它在回答什么问题,比记住按钮顺序重要得多。t 检验与 ANOVA 同属一个家族,核心思路只有一句:把"组间的均值差异"和"组内本身就有的波动"做比较,看前者是否大到不像随机抽样能造成的。

  1. 它在测什么——"组间差异"相对于"组内噪声"的比值。 任何一次抽样,即使两个总体的均值完全相同,抽到的两组样本均值也几乎不会恰好相等——这部分纯由随机性造成的差异叫抽样误差(sampling error)。t 检验问的是:我观测到的两组均值之差(如女生 3.35 − 男生 3.05 = 0.30),是大到超出抽样误差能解释的范围,还是落在"随便抽抽也会有这么大"的区间内?t 值本质上就是"均值差 ÷ 该差异的标准误"——分子是组间差异,分母是这个差异因抽样而波动的幅度。t 的绝对值越大,说明观测到的差异相对于噪声越突出,越不像偶然。
  2. ANOVA 只是把这个思路从两组推广到多组。 当要比较三组及以上(如大一到大四四个年级)时,两两 t 检验会反复使用,多次检验会累积"假阳性"风险(做的比较越多,至少有一次"碰巧显著"的概率越高)。ANOVA 用一个整体检验回避这个问题:它把数据的总变异拆成组间变异(各组均值彼此差多远)与组内变异(每组内部个体差多远),二者之比即 F 值。F 越大,说明组间差异相对组内噪声越突出。ANOVA 的 F 显著只告诉你"这几组里至少有两组不一样",但不告诉你是哪两组——这正是需要紧接着做事后多重比较的原因。
  3. 为什么必须配效应量——p 值不报"差异有多大"。 t 值和 F 值经过自由度换算得到 p 值,而 p 值同时受差异真实大小样本量两个因素影响(见上一节)。要剥离样本量、单纯刻画"差异本身有多大",就需要效应量(effect size):t 检验用 Cohen's d(两组均值差折算成多少个标准差),ANOVA 用 η²(因变量的总变异中有多大比例由分组解释)。p 回答"可不可靠",效应量回答"重不重要",缺一不可。
  4. 前提假设——参数检验不是无条件成立的。 t 检验与 ANOVA 属于参数检验(parametric test),其 p 值的准确性建立在两条前提上:① 正态性——各组的因变量在总体中近似正态分布;② 方差齐性(homogeneity of variance)——各组的总体方差大致相等。前提被严重违反时,算出的 p 值会失真。应对办法不是无视,而是换工具:方差不齐用 Welch 校正,正态严重偏离且样本小则改用非参数检验(见下文实操与【边界与局限】)。
📘 关键术语(首次出现,先对齐定义)
  • t 检验(t-test):比较一个或两个组的均值是否存在统计上可靠差异的参数检验。两组独立个体用独立样本 t 检验(independent-samples t-test),同一批个体两次测量用配对样本 t 检验(paired-samples t-test)
  • 方差分析(analysis of variance, ANOVA):把 t 检验推广到三组及以上的均值比较;本课只涉及单一分组因素的单因素 ANOVA(one-way ANOVA)
  • t 值(t statistic):组间均值差除以该差异的标准误,是一个"差异相对于噪声"的标准化比值;绝对值越大越不像偶然。其正负只表示方向(哪组更高),不表示大小。
  • F 值(F statistic):ANOVA 中组间均方与组内均方之比,作用与 t 值类似——衡量组间差异相对组内波动的突出程度。
  • 自由度(degrees of freedom, df):可自由变动的信息量,决定 t/F 分布的具体形状,从而决定同一个 t/F 值对应多大的 p。独立样本 t 检验 df ≈ N − 2(本课 N=500,故 df=498);单因素 ANOVA 报两个自由度——组间 df₁ = 组数 − 1、组内 df₂ = N − 组数。
  • p 值(p-value):在"两组总体均值其实相等"(零假设成立)的前提下,观测到当前或更极端差异的概率。p 小(惯例 < .05)说明这种差异不像抽样误差能解释,于是拒绝"无差异"。p 不是"差异为真的概率",也不衡量差异大小
  • 效应量(effect size):剥离样本量后、单纯刻画差异/关联大小的标准化指标。本课用 Cohen's d(t 检验)和 η² / ω²(ANOVA)。
  • Cohen's d:两组均值之差除以合并标准差,表示"两组相差多少个标准差"。常用参照:|d|≈0.2 小、≈0.5 中、≈0.8 大(Cohen, 1988)。
  • η²(eta squared,Eta 平方):ANOVA 中分组因素解释的变异占总变异的比例。常用参照:≈.01 小、≈.06 中、≈.14 大。样本小时 η² 偏高估,ω²(omega squared)是其偏差更小的替代。
  • 方差齐性(homogeneity of variance):各组总体方差大致相等,是 t 检验/ANOVA 的前提之一;用 Levene 检验评估。违反时用 Welch 校正
  • 事后多重比较(post-hoc multiple comparison):ANOVA 整体显著后,进一步检验"具体哪两组"有差异,并对多次比较做显著性校正(如 Bonferroni、Tukey HSD),以控制累积的假阳性。

🚀 拆解实战 A:独立样本 t 检验(性别差异)

Jamovi 操作

  1. T-Tests → Independent Samples T-Test
  2. Dependent Variables: Anxiety_Mean
  3. Grouping Variable: Gender
  4. 勾选: Effect size (Cohen's d) + Descriptives + Assumption Checks: Normality / Homogeneity
  5. 运行

🔢 这一步只"读取"不"代算"

下面报告里的每一个数字(M、SD、t、p、d)都必须来自你在 Jamovi 里亲手跑出的输出。本课全程的红线是:AI 只负责把你已算出的结果翻译成规范段落,绝不替你计算或编造任何统计量(详见下文实操 E 与【边界与局限】)。

报告规范(APA)

独立样本 t 检验显示, 男生(M = 3.05, SD = 0.74)与女生(M = 3.35, SD = 0.79)
在 AI 学习焦虑上存在显著差异, t(498) = -4.32, p < .001, Cohen's d = -0.39。
女生的 AI 焦虑水平显著高于男生, 效应量为小到中等(接近中等, 按 Cohen 1988 标准)。

本段数字取自 Case A 清洗后数据(N=500)的实际独立样本 t 检验输出,是本课的真实教学锚点。你自己跑出的数若与此略有出入,以你的输出为准——这正是"先读取、再报告"的体现。

📐 Worked Example:把 t(498) = −4.32, p < .001, d = −0.39 逐项读懂

报告里这一串符号不是装饰,每一项都对应一个可以用中文讲出来的判断。以 Case A 性别差异为例,逐项翻译:

  • t = −4.32:t 值是"组间均值差 ÷ 该差异的标准误"。负号只表示方向——这里把男生设为前一组、女生设为后一组,差值(男 − 女 = 3.05 − 3.35 = −0.30)为负,故 t 为负;负号不代表差异小。绝对值 4.32 偏大,说明 0.30 这点差异相对于抽样波动相当突出,不像随便抽抽就能造成。
  • df = 498:自由度。两组共 N=500 人,独立样本 t 检验 df = N − 2 = 498。它决定了"多大的 t 值才算够极端"——df 越大,临界值越低。
  • p < .001:在"男女总体焦虑均值其实相等"的假设下,抽到 |t| ≥ 4.32 这么极端结果的概率小于千分之一。远小于 .05,故拒绝"无差异",判定差异在统计上可靠。注意 p 只说"可靠",没说"差多少"
  • Cohen's d = −0.39:这才回答"差多少"。0.30 的均值差折算成约 0.39 个合并标准差,按 Cohen 标准(0.2/0.5/0.8)落在小到中等之间、接近中等。负号同样只表示方向(女 > 男)。
  • 合起来的一句话:女生的 AI 焦虑显著高于男生(p < .001,统计可靠),且这一差异达到接近中等的实质程度(d≈−0.39,并非可忽略的微小差异)。

这一步示范了差异检验的核心动作:不是把 t、p、d 抄进句子就完事,而是把每个符号"翻译"成一句关于这两群人的、既讲可靠性又讲实质大小的话。

Cohen's d 解读

|d|效应量
~0.2
~0.5
~0.8

解读 Cohen's d 只看绝对值——正负仅表示方向(哪组更高),与效应大小无关。本例 |d|≈0.39 介于"小"(.2)与"中"(.5)之间、更靠近中等。

🚀 拆解实战 B:配对样本 t 检验(前后测)

适用场景同一群人在两个时点(如干预前 vs 干预后)、或两种条件下的测量对比。它与独立样本 t 检验的关键区别是——两次测量来自同一批个体,彼此配对、不独立,因此分析的是"每个人前后之差"而非"两组各自的均值",这能剔除个体间的稳定差异、提高检验效力。Case A 是一次性横断面问卷,本身没有前后测;下面用一组演示数值说明操作与报告格式(非 Case A 真实统计量,仅示范技术)。

Jamovi 操作

  1. T-Tests → Paired Samples T-Test
  2. Paired Variables: 拖入两个前后测变量
  3. 同样勾选 Cohen's d + Assumption Checks(配对 t 的正态性前提针对差值,而非各时点原始分)

报告(演示数值,非 Case A 真值)

配对样本 t 检验显示, 干预后(M = 4.05, SD = 0.68)相比干预前(M = 3.85, SD = 0.72)
学习策略评分显著提升, t(499) = 5.21, p < .001, Cohen's d = 0.23。

上述前后测数字为演示用示例,用于展示配对 t 的报告格式。Case A 数据中没有前后测变量,请勿把这组数当作 Case A 的真实结果引用。

🚀 拆解实战 C:单因素 ANOVA(年级差异)

Jamovi 操作

  1. ANOVA → One-Way ANOVA
  2. Dependent Variables: Anxiety_Mean
  3. Grouping Variable: Grade
  4. 关键勾选
    • Effect Size: η²(Eta squared)
    • Post-Hoc Tests: Tukey 或 Bonferroni
    • Assumption Checks: Homogeneity test (Levene's)

报告规范(演示数值)

单因素方差分析显示, 不同年级在 AI 学习焦虑上存在显著差异,
F(3, 496) = 8.42, p < .001, η² = .048。

事后多重比较(Bonferroni 校正)显示:
大四年级(M = 3.58, SD = 0.81)的焦虑显著高于大一(M = 2.98, SD = 0.69, p < .001)
和大二(M = 3.10, SD = 0.74, p = .003);
大一与大二、大二与大三、大三与大四之间差异不显著(p > .05)。

此处 F 与各年级均值为演示数值,用于完整展示 ANOVA + 事后比较的报告写法(自由度内部一致:4 个年级 → df₁=4−1=3,df₂=500−4=496)。请以你自己跑出的输出为准。

读 ANOVA 报告的三个要点:① F 显著(p<.001)只说明"四组里至少有两组不同",不指明是哪两组;② 必须接着看事后比较,才能定位差异落在大四与大一/大二之间;③ η²=.048 落在"小到中"档(参照下表),说明年级虽与焦虑有可靠关联,但只解释了焦虑总变异的约 4.8%,实质强度有限——这正是 F 显著之后仍要报效应量的意义。

η² 解读

η²效应量
~0.01
~0.06
~0.14

η² 衡量"分组解释了因变量多大比例的变异",是 ANOVA 的标准效应量;其值偏向高估,样本小时尤甚,因此严谨写法常同时报偏差更小的 ω²(omega squared)

🚀 拆解实战 D:前提假设检验(参数检验成立的条件)

t 检验与 ANOVA 的 p 值之所以可信,建立在两条前提上。检验前提不是走形式,而是决定"这个 p 值还能不能信"——下面给出判读规则与违反后的应对。

1. 正态性(Normality)

各组因变量在总体中近似正态。Jamovi 可输出 Shapiro-Wilk 检验(也可看 Q-Q 图):

  • p > .05 → 未发现显著偏离正态,前提基本满足
  • p < .05 但样本较大 → 仍可用参数检验(原因见下方说明)
  • p < .05 且样本小(经验上 N < 30 左右) → 改用非参数检验(Mann-Whitney U / Kruskal-Wallis)

2. 方差齐性(Homogeneity of variance)

各组的总体方差大致相等。Jamovi 输出 Levene 检验

  • p > .05 → 各组方差无显著差异,前提满足
  • p < .05 → 方差不齐,改用 Welch 校正的 t 检验 / ANOVA(自动调整自由度,Jamovi 一键勾选)

⚠️ 正确理解"大样本下参数检验仍稳健"

社科研究中常见"样本大但 Shapiro-Wilk 仍 p<.05"。这里要把机制说准:中心极限定理(central limit theorem)保证的是"样本均值的抽样分布"随 N 增大趋于正态,而不是"原始数据"变正态。 t 检验与 ANOVA 比较的正是均值,因此在大样本下即使原始分布略偏,检验也较稳健。

但要守住两条边界:① N>100 / N<30 都是经验阈值、不是硬线,应结合偏离程度与图形(Q-Q 图、直方图)判断,而非只看一个 p;② 稳健 ≠ 百病不侵——严重偏态、强离群、或本就关心"分布形状/中位数"的问题,仍应改用非参数方法。Shapiro-Wilk 本身也对样本量敏感:N 很大时极轻微的偏离也会"显著",不必一见 p<.05 就放弃参数检验。


🚀 拆解实战 E:让 AI 把检验输出翻译成"假设检验"段落

到这一步,所有 t、F、p、效应量都已由你在 Jamovi 里算好。AI 的角色是翻译官而非计算器:把你粘贴进去的输出表,转写成符合 APA 规范、含可靠性与实质大小双重解读的段落。它不重新计算、不改动任何数值——这是本课乃至整个量化模块的红线。

markdown
【角色】熟悉 APA 第 7 版格式、严谨克制的论文编辑。

【任务】下面是我用 Jamovi 跑出的 t 检验与 ANOVA 输出(已粘贴)。
请据此撰写论文 4.2 节"假设检验"段落,要求如下:

1. 严格使用 APA 行内格式:t(df) = X.XX, p = .XXX, Cohen's d = X.XX;
   ANOVA 用 F(df1, df2) = X.XX, p = .XXX, η² = .XXX。
2. 每个检验都报全四件套:检验统计量(t/F) + 自由度(df) + p 值 + 效应量。
3. ANOVA 整体显著后,必须报告事后多重比较,写清"具体哪两组"差异显著及其校正方法。
4. 每个效应量后补一句中文实质解读(小/中/大),并把"统计显著"与"实质大小"分开陈述。
5. 红线:严禁重新计算、严禁改动我粘贴的任何数字,逐字照用;p 值不得四舍五入到跨越 .05
   (如 .051 不得写成 < .05)。

【Jamovi 输出】[在此粘贴整张输出表]

这一段:写砸 vs 写好

同一份 Jamovi 输出,写成段落可以"勉强合格"也可以"可投稿"。下面把假设检验段最常见的失分点逐项并排对照——左列是高频写法,右列是把同一处"拧紧"后的写法(以 Case A 性别差异为例)。

维度写砸 ❌写好 ✅为什么
统计量是否报全男女焦虑差异显著(p<.001)男女焦虑差异显著,t(498)=−4.32, p<.001只给 p 无法复核;t 与 df 缺一不可,否则审稿人无从判断
是否报效应量t(498)=−4.32, p<.001t(498)=−4.32, p<.001, Cohen's d=−0.39漏报效应量是本课头号失分点——p 不说"差多少"
效应量是否解读…d=−0.39。…d=−0.39,差异达接近中等程度(女>男)报了 d 不解读等于没报;要翻成"小/中/大"的实质判断
可靠与大小是否分开差异非常显著、非常大差异在统计上可靠(p<.001),实质上达接近中等(d≈0.39)"非常显著"是把 p 误当大小;显著性与效应量是两件事
ANOVA 后是否定位各年级焦虑差异显著(F 显著)F 显著后经 Bonferroni 比较,差异主要在大四与大一/大二之间F 只说"至少两组不同",不接事后比较等于没回答"哪两组"
p 值措辞p=.000;p=.051 显著p<.001;p=.051(未达 .05,不显著)p 永不写成 .000;临界值不得四舍五入跨线

💡 一句话判据

检验一段假设检验写得好不好,问三件事:每个检验有没有报全 t/F、df、p、效应量四件套?效应量有没有被翻成"小/中/大"?有没有把"显著"误当成"差异大"? 三者都过关,这一段才从"报符号"升级成"讲清结论"。


跨案例迁移:把均值差异检验搬到 Case C(同一批文章、三模型评分)

前面用的是 Case A 心理问卷(人按性别/年级分组,组与组之间是不同的人)。均值差异检验的价值在于换数据只换"谁和谁比",思路不变。下面换一个完全不同的领域——Case C:大模型生成质量评估,300 篇文章 × 3 个模型,每篇文章(Article_ID = PAPER_0001–PAPER_0300)被三个模型各写一稿并打质量分:Quality_GPT5 / Quality_Claude47 / Quality_Gemini25(均为 Fluency / Accuracy / Coverage 三维平均,1–5 分)。

这里多出一个关键判断:选独立样本还是配对?

📐 为什么 Case C 必须用"配对/重复测量",不能用独立样本 t

独立样本 t 检验的前提是两组由互不相干的个体构成。Case C 不满足这个前提:Quality_GPT5Quality_Claude47 这两列里,第 1 行都是 PAPER_0001、第 2 行都是 PAPER_0002——同一篇文章被三个模型分别评分,三列在行上一一对应、彼此配对

  • 比较两个模型(如 GPT-5 vs Claude 4.7):用 配对样本 t 检验(Python 中 scipy.stats.ttest_rel)。它分析的是"每篇文章上两模型的得分之差",从而剔除"文章本身有难有易"这一干扰——难写的文章拉低所有模型,但差值不受影响。若误用独立样本 t,会把同一批文章当成两批陌生人,白白损失配对带来的效力。
  • 同时比较三个模型:这是重复测量(repeated measures)情形——三列对应同一批文章。可用重复测量 ANOVA;若评分的正态/球形性前提存疑,改用其非参数版本 Friedman 检验(Python 中 scipy.stats.friedmanchisquare)。Friedman 整体显著后,同样需要事后两两比较(并做多重比较校正)定位"具体哪两个模型"不同。

一句话:判断独立还是配对,看"两列数据是不是来自同一批个体、能否按行配对"——是 Case A 的男生女生(不同人)就独立,是 Case C 的同篇文章三评分(同一批)就配对。选错检验,p 值与效应量整段失真。

🔢 Case C 同样守红线:先算后写

本节涉及的 ttest_rel / Friedman 统计量,必须由你在 Python(或统计软件)里亲手跑出。把同篇文章被三模型评分的数据整理成"宽表"(每行一篇、三列分别是三模型得分),运行检验得到 t/F/p 与效应量,再把输出交给 AI 翻译。注意 Case C 的固定基准是 Claude 4.7 = Quality_Claude47(评估对象),与你在别处用到的通用助手版本号不要混淆。

🔁 迁移要点

对比 Case A 与 Case C:数据从"人按性别分两组"变成"同篇文章被三模型评分",但均值差异检验的骨架没变——先判断独立还是配对、再选对应检验、显著后做事后比较、全程必报效应量。Case C 只是把"选独立 t"换成"选配对 t / 重复测量(Friedman)"这一步专门判断。把"谁和谁比"换成你学科的对象,教育、医学、计算语言学都能照搬。


常见误区与纠正

学员做差异检验时,问题高度集中在"漏报效应量""选错检验""误读 p"。下表是最高频的几种,照着对号入座即可:

常见误区症状(输出会怎样)纠正方法
只报 p、漏报效应量写"差异显著(p<.001)"就收尾,无法判断实际意义凡差异检验必同时报效应量(t→Cohen's d,ANOVA→η²/ω²)并解读小/中/大
把"显著"当成"差异大"写"非常显著""差异巨大",实则只是 p 很小显著性(p)与效应量是两件事;p 小只说"可靠",大小由 d/η² 决定
配对数据误用独立样本 tCase C 同篇文章三评分当成三批陌生人比较看两列能否按行配对:同一批个体→配对 t / 重复测量;不同个体→独立 t
ANOVA 显著后不做事后比较只报"各组差异显著(F 显著)",不说哪两组F 只说"至少两组不同";必接事后比较(Bonferroni/Tukey)并做校正
p 值写法越界写成 p=.000,或把 p=.051 说成 <.05p 永不写 .000(写 <.001);临界值不得四舍五入跨 .05 线
一见 Shapiro p<.05 就放弃参数检验大样本下也慌着全改非参数大样本下检验比较的是均值、较稳健;结合偏离程度与 Q-Q 图判断,别只看一个 p
方差不齐仍用普通 tLevene 显著却用未校正的 Student t,p 失真方差不齐改用 Welch 校正(Jamovi 一键勾选,自动调 df)
让 AI 代算 t/F/p把原始数据丢给 AI"帮我跑个 t 检验"所有统计量自己在软件里算;AI 只翻译已算出的输出,绝不代算(见红线)

输出 / 结果不理想?如何排查与迭代

差异检验跑完,常见三类"不对劲":结果不显著、软件报错或前提不满足、AI 生成的段落不达标。逐类对症排查,不要推倒重来。

  1. 结果不显著(p > .05)→ 先分清"真没差异"还是"没检测出来",绝不为求显著而做手脚。
    • 这是完全正常且常见的结果,不是失败。先看效应量与样本量:若 d/η² 很小,多半是真实差异本就微弱;若效应量不小但 p 不显著,可能是样本量不足(检验效力低),应在讨论里如实说明,而非删数据凑显著。
    • 红线:严禁反复换分组、剔除"碍事"的被试、或挑一个显著的子样本来报告(即 p-hacking)。不显著就如实报不显著——审稿人能识别凑出来的显著。
  2. 软件报错 / 前提不满足 → 对症换工具,而非无视前提。
    • 方差不齐(Levene 显著)→ 勾选 Welch 校正版 t / ANOVA。
    • 正态严重偏离且样本小→ 改用非参数:两组独立用 Mann-Whitney U,配对用 Wilcoxon 符号秩,多组独立用 Kruskal-Wallis,多组配对用 Friedman(Case C 即属此类)。
    • 分组只有一个水平、或某组样本为 0 → 多半是分组变量没设成因子或筛选条件写错,回数据检查编码(呼应第 23 课清洗)。
  3. AI 段落不达标(漏效应量、改了数值、把显著当大小)→ 局部纠偏,永远以你的输出为准。
    • 改动或编造了数值 → 最危险,直接弃用该句并追加"严禁改动我粘贴的任何数字,逐字照用";任何与你软件输出对不上的数字,一律以你的输出为准。
    • 漏报或不解读效应量 → 追加"每个检验后必须报 Cohen's d / η² 并解读小/中/大"。
    • 把"显著"写成"差异很大" → 追加"将统计显著(p)与效应量大小分开陈述,不得用 p 的大小形容差异的大小"。

一句话

首版不理想,先分清是数据/效力问题(不显著就如实报,绝不凑)、前提问题(对症换 Welch 或非参数)、还是翻译问题(局部纠偏 AI 段落)。无论哪种,红线不变:统计量只能由你算出,AI 只能翻译,不能代算、不能篡改、不能帮你"凑显著"。


边界与局限:差异检验与 AI 在这一步的能与不能

t 检验与 ANOVA 是"判断均值差异是否可靠"的工具,但它们有明确的能力边界;AI 在这一步的角色更要划清。把下面几条记牢,比多背一个阈值更重要。

边界 / 失效场景为什么会这样你应该怎么做
p 值受样本量左右N 越大,抽样误差越小,微不足道的差异也会"显著";p<.05 不等于差异重要必报效应量(d/η²)并据其判断实质大小,显著性与重要性分开陈述
显著 ≠ 因果t/ANOVA 只说明"组间均值差异不像抽样误差",给不出"谁导致谁"因果靠研究设计(随机分组/可信识别),不靠检验本身
横断面数据慎称因果Case A 是一次性问卷,组间差异可能源于第三变量、选择效应等横断面差异只描述"组间有别",下"导致/影响"是越界,措辞止于"差异/关联"
前提违反会让 p 失真正态/方差齐被严重违反时,参数检验的 p 值不再准确检前提(Shapiro-Wilk / Levene),违反则用 Welch 或非参数方法
多重比较抬高假阳性反复做两两 t 检验,"至少一次碰巧显著"的概率随比较次数累积多组比较用 ANOVA 整体检验,事后比较做 Bonferroni/Tukey 校正
不显著 ≠ 证明无差异不显著可能是真无差异,也可能是样本量不足、效力低报告效应量与样本量,必要时讨论检验效力,不把"不显著"说成"已证明相等"
AI 只能翻译,不能代算大模型不接入你的数据、不做可信计算,让它"算 t/F/p"只会得到看似合理实则编造的数字(幻觉 hallucination)所有统计量在 Jamovi/SPSS/Python 亲手跑;AI 仅把你粘贴的输出转写成规范段落

⚠️ 本课红线:AI 翻译结果,绝不代算统计量

这是贯穿整个量化模块的硬规则:凡是 t 值、F 值、自由度、p 值、Cohen's d、η²——一律由你在统计软件里算出,AI 的唯一职责是把这些已经算好的数字翻译成符合 APA 的中文段落。任何时候 AI 给出的数字与你的软件输出不一致,以软件输出为准,并视为 AI 出错。把"算"留给软件、把"写"交给 AI、把"判断"(选哪种检验、能否谈因果、显著与否如何解读)留给自己——三者不可混淆。


📦 本课交付物

按本节实操任务完成并提交以下内容,提交 AI 初审,按 Module_Rubrics.md 对应维度评分:

  • [ ] 独立样本 t 检验结果:性别在 AI 焦虑上的差异(t/df/p)+ Cohen's d + APA 段落,含可靠性与实质大小双重解读
  • [ ] 单因素 ANOVA 结果:年级在某量表上的差异 + η²/ω² + 事后多重比较 + APA 段落
  • [ ] 前提假设检验报告:Shapiro-Wilk(正态)+ Levene(方差齐)结果及"是否改用 Welch/非参数"的判断
  • [ ] 效应量评估:每个显著结果标注小/中/大,并说明"统计显著"与"实质大小"的区别
  • [ ] Results 4.2 段草稿:AI 辅助翻译 + 人工核对(t/F/p/效应量逐一比对软件输出)
  • [ ] 四维质检记录:用 Course_QA_Checklists.md(事实/逻辑/格式/引用)核查 AI 段落,重点查"数字是否被改动、是否漏报效应量、是否把显著当成差异大"
  • [ ] 沉淀模板:将本课翻译官 Prompt + 检验选择判断流程加入个人工具箱

🏁 本章小结

把本课凝练成可据以复习的几条要点:

  1. 核心思路:t 检验与 ANOVA 同属一族——都在比较组间均值差异组内噪声。t 检验比两组(独立或配对),ANOVA 把它推广到三组及以上;F 显著只说"至少两组不同",要靠事后比较定位"哪两组"。
  2. 先选对检验:两组不同个体→独立样本 t;同一批个体两次测量/两条件→配对样本 t;三组及以上→单因素 ANOVA(+事后比较)。判断独立还是配对,看两列数据能否按行配对(Case A 男女是不同人→独立;Case C 同篇文章三评分→配对/重复测量)。
  3. p 与效应量必须并报:p 回答"差异是否可靠",受样本量放大;效应量(t→Cohen's d,ANOVA→η²/ω²)回答"差异有多大"。只报 p 是本课头号失分点;显著性与实质大小要分开陈述。
  4. 效应量阈值:Cohen's d 看绝对值——|d|≈.2 小、.5 中、.8 大;η²≈.01 小、.06 中、.14 大(η² 偏高估,可并报 ω²)。Case A 性别差异 d≈−0.39 属"接近中等"。
  5. 检前提、违反则换工具:正态性看 Shapiro-Wilk/Q-Q 图,方差齐看 Levene。大样本下检验比较均值、较稳健(中心极限定理作用于均值分布,非原始数据);严重违反则用 Welch(方差不齐)或非参数(Mann-Whitney/Kruskal-Wallis/Wilcoxon/Friedman)。
  6. 边界要诚实:显著≠因果,横断面差异慎称"导致";不显著≠证明无差异,可能是效力不足;多重比较要校正。统计量由你算出,AI 只翻译、绝不代算或篡改,更不帮你凑显著——数字对不上时一律以软件输出为准。

自测清单(可保留逐项打勾)

  • [ ] 我能说清 t 检验/ANOVA"在测什么"(组间差异 vs 组内噪声),并讲出 t、F、df、p、效应量各代表什么。
  • [ ] 我能根据"两列是否按行配对"选对检验(独立 t / 配对 t / ANOVA / 重复测量·Friedman),并解释 Case A 与 Case C 为何不同。
  • [ ] 我的报告永远不只报 p——必报效应量(Cohen's d 或 η²),并把"显著"与"差异大"分开说。
  • [ ] 我能解读效应量大小(d:.2/.5/.8;η²:.01/.06/.14),且只看 d 的绝对值。
  • [ ] 我做了前提假设检验(Shapiro-Wilk + Levene),理解大样本稳健的真正机制,并知道违反时换 Welch 或非参数。
  • [ ] ANOVA 显著后我必跑事后多重比较(Bonferroni/Tukey);遇到不显著我如实报告,绝不凑。
  • [ ] 我能识别 AI 输出中的"虚报显著性"(如 p=.051 说成 <.05、把显著说成差异大、改动我的数值),并知道一律以软件输出为准。

✍️ 思考与练习

下列练习用于把本节概念用起来(区别于"本课交付物"里的任务),建议写在你的本地笔记中。

练习 1(原理辨析)。 有同学跑出 t(498) = −4.32, p < .001,于是在论文里写"男女焦虑差异非常巨大"。请用本课原理说明:仅凭这个 p 值能否断言差异"巨大"?要回答"差异有多大",还必须报告并解读什么?

好答案要点:不能——p 只回答"差异是否可靠/是否像抽样误差",且受样本量放大(N=500 时不大的差异也易显著);"差异多大"由效应量 Cohen's d 回答,本例 d≈−0.39 属"小到中、接近中等",应解读为"达接近中等程度"而非"巨大";并指出显著性与效应量是两件事,不能用 p 的大小形容差异的大小。

练习 2(Worked Example 逐项读法,紧扣 Case A)。 取 Case A 性别差异结果:男 M=3.05、SD=0.74,女 M=3.35、SD=0.79,t(498)=−4.32, p<.001, d=−0.39。请逐项解释:t 为什么是负数、df 为什么是 498、p<.001 在"零假设"下意味着什么、d=−0.39 该怎么解读;最后用一句规范中文给出结论。

好答案要点:t 负号只表示方向(把男设为前一组,男−女=−0.30 为负),不代表差异小;df=N−2=500−2=498;p<.001 指"若男女总体均值其实相等,抽到 |t|≥4.32 这么极端结果的概率<千分之一",故拒绝无差异;d 看绝对值≈0.39,介于小(.2)与中(.5)之间、近中等;结论如"女生 AI 焦虑显著高于男生(p<.001),差异达接近中等程度(d≈−0.39)"。

练习 3(选对检验,紧扣 Case C)。 取 Case C(300 篇文章,每篇被三模型各评一分:Quality_GPT5/Quality_Claude47/Quality_Gemini25)。你想检验"GPT-5 与 Claude 4.7 的质量分是否有差异"。有人主张用独立样本 t 检验。请说明这为何不对、应改用什么检验、以及若三模型一起比又该怎么做。

好答案要点:不对——Quality_GPT5Quality_Claude47 两列按 Article_ID 同篇文章一一配对,不是两批陌生人,违反独立样本 t 的"互不相干个体"前提;应改用配对样本 t 检验ttest_rel),它分析每篇文章上的得分差、剔除"文章有难有易"的干扰、效力更高;三模型同时比属重复测量,可用重复测量 ANOVA,前提存疑时改用 Friedman 检验,整体显著后再做事后两两比较并校正。

练习 4(结果不显著 + 红线)。 你跑某组间比较得到 p=.18(不显著),效应量也很小。同门建议你"剔除几个碍事的被试、或换一种分组方式,多试几次总能跑出 p<.05"。请指出这一建议踩中本课哪条红线,正确做法是什么。

好答案要点:这是 p-hacking(为求显著反复换分组/剔除数据/挑子样本),违反"绝不为求显著而做手脚"的红线,会制造假阳性、败坏研究可信度;正确做法是如实报告不显著,结合小效应量与样本量说明"很可能真无差异或检验效力不足",必要时在讨论里谈效力/样本量,而不是篡改数据凑显著;同时统计量始终自己在软件里算、AI 只翻译。

助力学者在 AI 时代极速产出高质量学术成果 · 55 课时双轨制 · plan v3.3