第 26 课:统计分析(二)相关与多元回归
🎯 核心实操目标
学习目标:掌握 Pearson 相关 + 多元线性回归 + 前提假设检验(VIF、Durbin-Watson)+ "相关 ≠ 因果" 铁律。本课你将用 Case A 跑通"AI 焦虑 + 学习策略 → 自我效能"的多元回归,并学会规范报告标准化回归系数 β 与 R²;再用 Case B 经管面板演示"自变量高度相关时,共线性如何被诊断与处理"。
📋 课前准备(5 分钟自检)
工具/账号
- [ ] Jamovi 2.5+ 或 SPSS 29+
- [ ] 第 23 课清洗后的数据
case_A_cleaned.csv(N≈500)
数据/素材
- [ ] 三个量表均分变量
Anxiety_Mean/Strategy_Mean/Efficacy_Mean+ 控制变量(性别 / 年级 / 专业大类)
应急通道
- VIF > 10 共线性严重 → 删除最相关的预测变量,或合并为综合得分
- 残差非正态 → 用 Bootstrap 法估计回归系数的置信区间
- 结果不显著 / 系数符号反转 → 先查共线性与清洗,别急着改模型(见下文【结果不理想?如何排查】)
🔢 这一步只"读取"不"代算"
本课所有 r、β、R²、VIF、t、p 等数字,都必须来自你在 Jamovi/SPSS 里亲手跑出的输出。贯穿整个量化模块的红线是:AI 只负责把你已算出的结果翻译成规范段落,绝不替你计算或编造任何统计量(详见实操五与【边界与局限】)。
场景导入:相关 ≠ 因果
学生兴奋地报告:"AI 焦虑负向预测自我效能(β = −.21),所以 AI 焦虑导致了自我效能下降。"
审稿人立刻打回:"You cannot infer causation from cross-sectional correlations. The relationship could be reversed (low self-efficacy causes higher anxiety) or driven by a third variable (e.g., academic performance)."
横截面回归只能说"X 预测 Y",不能说"X 导致 Y"。这一条规则违反 = 论文方法学硬伤 = 退稿。
这一课是整个量化模块里最"硬"的一节:它既要你算对(相关系数、回归系数、共线性诊断不能错),又要你说对(横截面数据下,措辞越界比算错更致命)。下面先把"为什么这样做"讲透,再进入操作。
🗺️ 架构重组:相关 → 回归 → 因果的三个台阶
理解本课最关键的,是认清这三者不是同义词,而是层层递进、且横截面研究永远到不了顶层的三个台阶:
台阶 1: 相关(Pearson r)
↓ 只能说"X 与 Y 共变"——同涨同落,方向未知
台阶 2: 回归(β 系数)
↓ 可以说"X 预测 Y"(控制其他变量后),但仍是"相伴"
台阶 3: 因果
↓ 必须同时具备:时序优先 + 控制混淆 + 实验/可信识别策略
横截面研究(同一时点测完所有变量)永远到不了这一台阶!📐 原理:相关与回归在测什么、为什么这样做、前提是什么
进入操作前,先把三件事想清楚——这决定了你算出来的数字能不能用、怎么解读。
1. 它在测什么。
- 相关(correlation) 测的是两个变量"共同变化的方向与强度":一个变量取值偏高时,另一个倾向于偏高(正相关)还是偏低(负相关),以及这种"相伴"有多紧。Pearson r 把它压缩成一个 −1 到 +1 的数:符号是方向,绝对值是强度(|r| 越接近 1 越紧)。
- 多元回归(multiple regression) 测的是"在同时控制其他预测变量的前提下,某个预测变量每变化一个单位,因变量平均跟着变化多少"。它比相关多做了两件事:① 给出一个可解释方向与幅度的系数(回归系数);② 通过"控制其他变量",剥离出每个预测变量独有的贡献。
2. 为什么这样做——回归在"解释方差"并"控制混淆"。 因变量(如自我效能)在人群里有高有低,这种"高低不齐"就是它的方差(variance)。回归的本质,是用一组预测变量去解释这部分方差:能被预测变量联合解释的比例,就是 R²。同时,把多个预测变量一起放进模型,等于在问"控制住学习策略之后,AI 焦虑还剩多少独立的解释力"——这就是"控制变量"的统计含义:不是把变量删掉,而是把它的影响在统计上"扣除/保持恒定",再看目标变量的净效应。
3. 前提假设(违反会让系数失真)。 普通最小二乘(OLS)线性回归的核心前提包括:① 线性——预测变量与因变量大致呈线性关系;② 残差独立——观测之间不相互依赖(用 Durbin-Watson 粗查,时间序列/面板尤其要警惕);③ 残差正态 + 同方差——残差近似正态、离散程度不随预测值系统变化(看 Q-Q 图与残差散点);④ 无严重多重共线性——预测变量之间不能高度线性相关(用 VIF 诊断)。前提③在大样本下较宽松(受中心极限定理保护),但前提④一旦严重违反,会直接让系数不稳、符号反转、标准误膨胀——这正是本课 Case B 要重点演示的。
4. 最关键的边界——相关与回归都只能谈"相伴",不能谈"因果"。 无论 r 多大、β 多显著、R² 多高,只要数据是横截面(同一时点一次性测完 X 和 Y),就无法排除"反向因果"(是 Y 影响了 X)和"第三变量"(X、Y 同被某个未测变量驱动)。因果需要时序优先 + 控制混淆 + 干预/可信识别三者齐备——这是本课最后【边界与局限】的重头戏,也是审稿人最常下手的地方。
📘 关键术语(首次出现,先对齐定义)
- Pearson 相关系数(Pearson correlation coefficient, r):度量两个连续变量线性相关的方向与强度,取值 −1 到 +1。仅刻画线性关系,对非线性(如 U 形)不敏感。
- 回归系数(regression coefficient, B 或 b,非标准化):保持其他预测变量不变时,预测变量每变化 1 个原始单位,因变量平均变化的量。单位依变量而定,不同变量之间不可直接比大小。
- 标准化回归系数(standardized regression coefficient, β / Beta):把所有变量先标准化(化为均值 0、标准差 1)后得到的回归系数,消去了量纲,因此同一模型内不同预测变量的 β 可以横向比较"谁的相对贡献更大"。报告 APA 结果时通常报 β。
- 决定系数(coefficient of determination, R²):模型中所有预测变量联合解释的因变量方差比例,取值 0–1。R²=.22 即"解释了因变量 22% 的方差"。
- 调整后 R²(adjusted R²):对预测变量个数做惩罚后的 R²。每多放一个变量,R² 只会升不会降,调整后 R² 则会因"无用变量"而下降,故更适合比较不同变量数的模型、防止过拟合。
- 多重共线性(multicollinearity):两个或多个预测变量高度线性相关,导致难以分离各自的独立贡献,系数估计不稳定(符号可能反转、标准误膨胀)。
- 方差膨胀因子(variance inflation factor, VIF):度量某预测变量被其他预测变量线性解释的程度,是共线性的主诊断指标。VIF = 1/(1−R²ⱼ),其中 R²ⱼ 是把第 j 个预测变量对其余预测变量回归得到的 R²。常用经验阈值见下文。
- Durbin-Watson(DW)统计量:检验残差一阶自相关的指标,取值约 0–4,接近 2 表示残差独立;明显偏离 2(尤其 <1 或 >3)提示自相关,横截面较少见、时间序列/面板常见。
- 横截面数据(cross-sectional data):在同一时点对所有变量做一次性测量的数据(如一次问卷)。因缺乏时序信息,无法据以推断因果方向。
🚀 拆解实战 A:Pearson 相关分析
Jamovi 操作
- Regression → Correlation Matrix
- Variables: 拖入
Anxiety_Mean/Strategy_Mean/Efficacy_Mean/Age等 - 勾选:Pearson + Report significance + Flag significant correlations
Pearson 适用条件
| 条件 | 判断 |
|---|---|
| 连续变量 | ✅ 量表均分 / 年龄 |
| 大致正态分布 | ✅(N > 100 时较宽松) |
| 线性关系 | ✅(用散点图初步判断) |
| 无极端异常值 | ✅(清洗时已处理) |
不满足 → 用 Spearman 等级相关(适合非线性单调关系,或含序数变量 / 极端离群点时)。
Case A 的三条核心相关(取自清洗后数据 N=500)
在 Jamovi 里对三个量表均分跑相关矩阵,得到本课的教学锚点:
| 变量对 | Pearson r | 方向与强度 |
|---|---|---|
| AI 焦虑 ↔ 学习策略 | r ≈ −.30, p<.001 | 中等负相关 |
| AI 焦虑 ↔ 自我效能 | r ≈ −.26, p<.001 | 弱到中等负相关 |
| 学习策略 ↔ 自我效能 | r ≈ .42, p<.001 | 中等正相关 |
读法:焦虑越高,策略与效能倾向于越低;策略越好,效能越高。这三条相关恰好为后续第 29 课"焦虑→策略→效能"的中介模型铺路——但相关只是"相伴变化",方向与机制要到回归 / 中介阶段、并结合理论才能谈。
报告(APA)
Pearson 相关分析显示, AI 焦虑与学习策略呈中等负相关
(r = -.30, p < .001),
AI 焦虑与自我效能感呈弱到中等负相关(r = -.26, p < .001),
学习策略与自我效能感呈中等正相关(r = .42, p < .001)。
(详见表 3)。💡 相关强度判读要诚实
惯例参照:|r|<.10 极弱、.10–.30 弱、.30–.70 中等(社科最常见)、.70–.90 强(需警惕多重共线性)、>.90 几乎是同一变量。但区间是参照不是铁律——同样 r=.25,在噪声极大的社会调查里可能值得一提,在高度受控的实验里却可能微不足道。报告时除 r 的大小,还要看显著性 p 与样本量 N:N 很大时极弱的相关也会显著,但实际意义有限。这与上一课"p 值之外必报效应量"是同一个道理。
🚀 拆解实战 B:多元线性回归
Jamovi 操作
- Regression → Linear Regression
- Dependent Variable:
Efficacy_Mean - Covariates:
Anxiety_Mean,Strategy_Mean - Factors(控制变量):
Gender,Grade - Model Coefficients 中勾选:
- Standardized estimate(β)
- 95% Confidence interval
- Model Fit:R² + Adjusted R² + F-test
- Assumption Checks:
- Collinearity statistics (VIF)
- Autocorrelation (Durbin-Watson)
- Q-Q plot of residuals
输出关键字段
| 字段 | 含义 | 判断 |
|---|---|---|
| β(Std. Estimate) | 标准化回归系数 | 正/负方向 + 大小(同模型内可横向比) |
| t value | β/SE | 显著性检验统计量 |
| p value | 显著性 | < .05 显著 |
| 95% CI | 置信区间 | 不含 0 = 显著 |
| R² | 模型解释力 | 越大越好(社科 0.1–0.4 常见) |
| Adjusted R² | 调整后 R² | 防止过拟合;多变量比较看它 |
| F-test | 模型整体显著性 | p < .05 模型成立 |
| VIF | 多重共线性 | < 10 安全,> 10 严重 |
| Durbin-Watson | 残差独立性 | 接近 2 表示独立 |
📐 Worked Example:把 Case A 的回归输出逐字段读成结论
下面是 Case A(N=500)在 Jamovi 里跑出的回归输出原样(与第 30 课"AI 辅助 Results 写作"用的是同一份结果,便于你两课对照):
Model: Efficacy_Mean ~ Anxiety_Mean + Strategy_Mean + Gender + Grade
R² = .224, Adjusted R² = .218, F(4, 495) = 35.78, p < .001
Coefficients:
Estimate SE β t p
Intercept 2.512 .128 19.62 <.001
Anxiety_Mean -.187 .039 -.21 -4.79 <.001
Strategy_Mean .421 .046 .38 9.15 <.001
Gender(F) -.054 .062 -.04 -.87 .386
Grade .032 .025 .05 1.28 .200逐项翻译(这一步示范的核心动作是:不是把数字抄进表,而是把每个数字"翻译"成一句结论):
- R² = .224 / Adj. R² = .218:四个预测变量联合解释了自我效能 22.4% 的方差;调整后几乎没掉(.218),说明没有明显的"凑变量充数"。社科横截面回归 R² 落在 0.1–0.4 很正常,.22 是健康值,不必追求更高。
- F(4, 495) = 35.78, p < .001:模型整体显著——这组预测变量"合起来"对自我效能确有解释力,可以继续看单个系数。
- Anxiety β = −.21, t(495) = −4.79, p < .001:控制了学习策略、性别、年级之后,AI 焦虑仍显著负向预测自我效能;β 的负号是方向,绝对值 .21 是"小到中等"的相对强度。注意措辞——是"预测"不是"导致"。
- Strategy β = .38, t(495) = 9.15, p < .001:学习策略显著正向预测自我效能,β=.38 在本模型里相对贡献最大(.38 > |−.21|,因为已标准化,可直接比)。
- Gender β = −.04, p = .386 / Grade β = .05, p = .200:两个控制变量均不显著——它们在这里的作用是"控制混淆",不显著也要如实报告,不能因为"没故事"就删掉。
一句话:这张表讲的故事是"策略是自我效能更强的正向预测源,焦虑是较弱的负向预测源,且二者在彼此控制后仍各自成立"。
报告(APA)
为检验 H1, 以自我效能感为因变量, AI 焦虑与学习策略为预测变量,
控制性别和年级, 构建多元线性回归模型。
模型整体显著, F(4, 495) = 35.78, p < .001, R² = .224 (Adjusted R² = .218),
表明四个预测变量共解释了自我效能感 22.4% 的方差。
控制其他变量后, AI 焦虑显著负向预测自我效能感
(β = -.21, t(495) = -4.79, p < .001, 95% CI [-.29, -.13]),
学习策略显著正向预测自我效能感
(β = .38, t(495) = 9.15, p < .001, 95% CI [.30, .46])。
性别(β = -.04, p = .386)与年级(β = .05, p = .200)的预测作用不显著。
H1 得到支持。
多重共线性诊断: 所有预测变量 VIF < 2.5, 排除共线性问题;
残差 Durbin-Watson = 1.98, 满足独立性假设。🚀 拆解实战 C:⚠️ "相关 ≠ 因果" 铁律
⚠️ 学术语言红线
横截面回归只能用以下动词:
✅ "predict"(预测) ✅ "is associated with"(关联) ✅ "is related to"(相关)
❌ "cause"(导致) ❌ "lead to"(引起) ❌ "results in"(结果是) ❌ "determine"(决定)
替换对照表
| ❌ 不可用 | ✅ 应使用 |
|---|---|
| "AI 焦虑导致自我效能下降" | "AI 焦虑负向预测自我效能" |
| "策略不足引起了焦虑增加" | "策略不足与较高焦虑相关" |
| "性别决定了焦虑水平" | "性别与焦虑水平存在显著差异" |
🚧 为什么横截面"永远"下不了因果
不是"暂时证据不够",而是设计本身缺了两块基石:① 时序优先——你在同一时点测完 X 和 Y,无从知道谁先谁后,"低效能导致焦虑"与"焦虑导致低效能"在数据上完全对称;② 排除第三变量——学业表现、家庭支持等未测变量可能同时抬高焦虑、压低效能,制造出虚假关联。回归能"控制"的只有你测了并放进模型的变量,没测的混淆它无能为力。因此横截面回归的上限就是"预测/关联",要谈因果必须改设计(纵向追踪、实验干预、或带可信识别策略的准实验)。
🚀 拆解实战 D:多重共线性诊断
VIF(方差膨胀因子)越大,共线性越严重:
| VIF | 解释 | 行动 |
|---|---|---|
| < 5 | 安全 | 无需处理 |
| 5–10 | 中度共线性 | 警告,考虑合并变量 |
| > 10 | 严重 | 必须处理(删除/合并/降维) |
📐 VIF 到底在"膨胀"什么
VIF 度量的是"某个预测变量的方差,因为它和别的预测变量相关,被放大了多少倍"。VIF=8 意味着该系数的方差(标准误的平方)被膨胀到"无共线性时"的 8 倍——标准误约放大 √8≈2.8 倍。标准误一大,t 值就变小、p 值变大、置信区间变宽,于是本来该显著的变量变得不显著,系数符号甚至可能反转。这就是共线性的真正危害:它不一定降低 R²(模型整体可能还很好看),但会让你无法可靠解读单个系数。所以共线性是"解读层面的病",描述与建模阶段就要诊断。
Case B 案例(共线性偏高,需关注)
把同一套诊断搬到一个完全不同领域的教学用模拟面板数据集——Case B 经管面板,30 省 × 10 年(2014—2023)= 300 观测,含 DigEcon_Index(数字经济指数)、HumanCap_per10k(每万人专科以上人力资本)、Innovation_Index(创新指数)、IndustryStr_Tertiary(第三产业占比)。这正是横截面问卷里少见、经管实证里极常见的"自变量高度相关"场景:
DigEcon_Index 与 HumanCap_per10k 相关 r ≈ 0.86,跑回归时 HumanCap 的 VIF≈8、DigEcon 的 VIF≈5.5——都处于 5–10 的"需关注"区间,尚未到 >10 的"严重"档。
处理思路(视情况,不必都做):
- 优先保留理论更重要的变量,谨慎对待另一个的系数解读(共线性下它的符号 / 显著性都可能不稳);
- 必要时合并为综合得分,或中心化后再做交互;
- 进阶可用 Ridge / Lasso 正则化回归,并在论文中如实报告 VIF。
⚠️ Case B 的 R² 别当目标
Case B 是教学用模拟数据,回归 R²≈.95,远高于真实经管研究的常见水平。这个数字仅用来演示流程,不可当作你自己研究的达标线——真实面板数据的 R² 往往低得多,且异常高的 R² 常伴随共线性等隐患。把它当"反面参照":看到异常漂亮的拟合,第一反应该是查数据与共线性,而不是庆祝。
📐 Worked Example:Case B 的"高相关 + 中高 VIF"该怎么读、怎么处理
设你要做"数字经济能否提升区域创新",主回归是 Innovation_Index ~ DigEcon_Index + HumanCap_per10k + 控制变量。描述阶段已发现 r(DigEcon, HumanCap)≈.86,建模后 VIF:HumanCap≈8、DigEcon≈5.5。逐步判断:
- 预警信号:r≈.86 已逼近"强相关(.70–.90)需警惕共线性"区;VIF≈8 证实——这两个变量"说的是很相似的事"(数字经济发达的省,人力资本通常也高)。
- 危害定位:R² 可能依旧很高(甚至虚高到 .95),但
DigEcon与HumanCap各自的 β、显著性、符号都不可靠——模型分不清创新的提升该记在谁头上。 - 处理决策(按本课阈值,8 落在"需关注、尚未必须删"档):
- 首选:保留理论上更核心的
DigEcon_Index(研究问题就是它),对HumanCap的系数解读保持谨慎,或将其降格为控制变量而非解读重点; - 备选:若两者理论地位相当,可构造"数字经济—人力资本综合发展指数"合并入模,或对二者中心化后再观察;
- 进阶:上 Ridge / Lasso,并在论文方法 / 稳健性部分明确报告 VIF 与处理方式,让审稿人看到你"看见了并处理了"。
- 首选:保留理论上更核心的
- 不能做的事:① 不能因为"想要显著"就反复换变量组合直到 p<.05(数据捞取);② 共线性高不代表能下因果——面板能控制时不变混淆,但"数字经济提升创新"仍需识别策略支撑。
对照 Case A:Case A 三个量表均分通常 VIF<2.5,共线性不是问题;Case B 才是"共线性诊断"的真正用武之地。换数据只换变量与阈值判断,诊断流程(看相关→跑 VIF→按阈值决策→如实报告)一字不改。
🚀 拆解实战 E:AI 辅助报告生成
到这一步,所有统计量都已由你在 Jamovi 里算好。AI 的角色是翻译官而非计算器:把你粘贴进去的回归输出表,转写成符合 APA 规范、含解读与共线性结论的段落。它不重新计算、不改动任何数值。
【角色】APA 第 7 版格式极严谨的论文编辑,对横截面研究的因果话术零容忍。
【任务】下面是我从 Jamovi 跑出的多元回归输出(我会粘贴整张表),
请帮我撰写论文 4.3 节"假设检验"段落:
1. 严格使用 APA 格式:例如 "β = -.21, t(495) = -4.79, p < .001, 95% CI [-.29, -.13]"
2. 明确报告 R² + Adjusted R² + F 检验(F(df1, df2) = …, p = …)
3. 给出 VIF 共线性诊断结论(报告 VIF 范围)
4. 严格使用"预测 / 关联"而非"导致 / 决定 / 引起"等因果动词
5. 明确说明 H1 / H2 是否得到支持
6. 严禁改动我粘贴的任何数字,逐字照用;缺的统计量直接留空,绝不替我补算
【Jamovi 输出】[在此粘贴整张回归表]🔍 拿到 AI 段落后,先做两件核查
- 数字逐一比对:把 AI 段落里的每个 β / t / p / R² / CI 与你 Jamovi 输出逐字对,凡对不上一律以软件输出为准,并视为 AI 出错;
- 动词扫描:通读全段,标出所有动词,确认没有"导致 / 决定 / 引起 / 证明"等因果词——这是横截面研究最易被审稿人抓住的地方。
📊 回归报告:写砸 vs 写好
同一份回归输出,写成段落可以是"会被退稿"也可以是"可投稿"。下面把多元回归 Results 段最常见的失分点逐项拆开并排对照——左列是学员高频写法,右列是把同一处"拧紧"后的写法。
| 维度 | 写砸 ❌ | 写好 ✅ | 为什么 |
|---|---|---|---|
| 因果措辞 | AI 焦虑导致自我效能下降 | AI 焦虑显著负向预测自我效能(控制策略、性别、年级后) | 横截面下"导致"是方法学硬伤;只能说"预测/关联" |
| 报系数 | 焦虑的影响很大 | β = −.21, t(495) = −4.79, p < .001, 95% CI [−.29, −.13] | "很大"不可检验;必报 β + t + df + p + CI |
| 控制变量 | (只报显著的,删掉不显著的) | 如实报告性别 β=−.04 (p=.386)、年级 β=.05 (p=.200) 均不显著 | 控制变量"在场即报",删不显著项 = 选择性报告 |
| R² 解读 | R²=.22,模型解释力不足,需提高 | R²=.22,社科横截面回归常见区间,模型整体显著(F、p) | 误把社科正常 R² 当"不达标";0.1–0.4 很正常 |
| 共线性 | (只字未提) | 所有预测变量 VIF < 2.5,排除共线性问题 | 多元回归必须报共线性诊断,否则审稿人会追问 |
| β vs B | 用非标准化系数横向比"谁影响大" | 用标准化 β 比相对贡献(已消量纲) | 非标准化系数带单位,不可跨变量比大小 |
💡 一句话判据
检验一段回归报告写得好不好,问四件事:动词有没有越界(导致 vs 预测)?系数报全了吗(β/t/df/p/CI)?共线性诊断在不在?R² 有没有被误判为"不达标"? 四者都过关,这一段才从"贴数字"升级成"讲清楚模型"。
常见误区与纠正
本课的误区高度集中在"算对了但解读错"和"措辞越界"。下表是最高频的几种,照着对号入座即可:
| 常见误区 | 症状 | 纠正方法 |
|---|---|---|
| 相关说成因果 | 看到 r 显著 / β 显著就写"X 导致 Y" | 横截面只能"预测 / 关联";因果需时序 + 控混淆 + 干预(见实战 C) |
| 只看 R² 不看共线性 | R² 很高就庆祝,从不跑 VIF | R² 高也可能共线性严重;多元回归必跑 VIF + DW(见实战 D) |
| 追求高 R² | 嫌社科 R²=.22 太低,硬塞变量 | R² 在社科 0.1–0.4 常见;塞无用变量会被调整后 R² 揭穿 |
| 非标准化系数横向比 | 用 B 比"谁影响大" | 跨变量比相对贡献用标准化 β(已消量纲) |
| 删不显著的控制变量 | 只报显著系数,悄悄删掉其余 | 控制变量在场即如实报告,删项 = 选择性报告 |
| VIF 阈值一刀切 | 见 VIF>5 就立刻删变量 | 区分 5–10(关注)与 >10(必处理);8 属"关注不必立删"(见 Case B) |
| 让 AI 代算 r / β / VIF | 把原始 CSV 丢给 AI 让它"算个回归" | 所有统计量自己在 Jamovi 跑;AI 只翻译已算出的输出(见红线框) |
结果不理想?如何排查与迭代
回归跑完,常见三类"不对劲":系数不显著或符号反转、模型整体不成立、AI 段落不达标。逐类对症排查,不要推倒重来。
- 某系数符号反转 / 突然不显著 → 先查共线性,再查清洗。 这是共线性最典型的"案发现场":两个高度相关的预测变量同入模型,会互相"抢"解释力,导致一个或两个系数符号反常、显著性消失。第一步跑 VIF:若有变量 VIF 偏高(尤其 >10),按实战 D 处理(保留理论核心变量 / 合并 / 正则化)。VIF 正常却仍异常,再回查清洗——反向题(如
Anxiety_4_R)若忘了反向重编码,会让该量表方向整体反掉。系数永远不能手动"改顺眼"。 - 模型整体不显著(F 的 p ≥ .05)/ R² 极低 → 先看相关矩阵,别急着加变量。 若预测变量与因变量在相关层面就几乎无关(|r| 接近 0),回归里也很难有故事——这是数据 / 理论问题,不是模型设定问题。盲目堆变量只会被调整后 R²揭穿(无用变量会让它下降)。先回到相关矩阵确认"到底有没有可解释的关系"。
- AI 段落不达标(改了数值 / 漏报共线性 / 措辞越界)→ 局部纠偏,永远以你的输出为准。
- 它改动或编造了数值 → 最危险,直接弃用该句,并在提示词补"严禁改动我粘贴的任何数字,逐字照用";任何与 Jamovi 对不上的数字一律以软件为准;
- 它把"预测"写成"导致 / 决定" → 追加"横截面回归段不得出现任何因果动词,只用预测 / 关联 / 相关";
- 它漏报 VIF / 调整后 R² → 追加"必须报告 VIF 范围与 Adjusted R²,缺则留空不补算"。
一句话
首版不理想,先分清是共线性问题(查 VIF)、数据 / 理论问题(回看相关矩阵)、还是翻译问题(局部纠偏 AI 段落)。无论哪种,红线不变:数字只能由你算出,AI 只能翻译,不能代算或篡改。
边界与局限:相关、回归与 AI 在这一步的能与不能
回归是"解释方差 + 控制混淆"的强工具,但它有明确的能力边界;AI 在这一步的角色更要划清。把下面几条记牢,比多背一个指标更重要。
| 边界 / 失效场景 | 为什么会这样 | 你应该怎么做 |
|---|---|---|
| 相关 / 回归都不能下因果 | r 与 β 只反映"相伴变化";横截面缺时序、控不住未测的第三变量,无法排除反向因果与混淆 | 因果留给设计(纵向 / 实验 / 可信识别);横截面措辞止于"预测 / 关联" |
| p 值 ≠ 效应量 / 重要性 | 大样本下极小的 β 也会显著;显著只说"非零的把握大",不说"影响大" | 必同时看 β 大小(标准化后可比)、95% CI 与 N,结合实质判断 |
| R² 高 ≠ 模型正确 | R² 只看"解释了多少方差",对共线性、内生性、错设函数形式都不敏感;可虚高 | R² 配合 VIF、残差图、理论一起看;异常高的 R² 先查共线性(见 Case B) |
| 共线性让单个系数失真 | 预测变量高度相关时,标准误膨胀、系数符号 / 显著性不稳,但 R² 可能照样好看 | 跑 VIF 诊断;>10 必处理,5–10 谨慎解读;如实报告 |
| 前提违反会让推断失效 | 残差严重非正态 / 异方差 / 自相关时,标准误与 p 值不可靠 | 查 Q-Q 图、残差散点、Durbin-Watson;必要时用稳健标准误或 Bootstrap |
| AI 只能翻译,不能代算 | 大模型不接入你的数据、不做可信计算,让它"算个回归"只会得到看似合理实则编造的数字(幻觉 hallucination) | 所有统计量在 Jamovi/SPSS 亲手跑;AI 仅把你粘贴的输出转写成规范段落 |
⚠️ 本课红线:AI 翻译结果,绝不代算统计量
这是贯穿整个量化模块的硬规则:凡是相关系数、回归系数、R²、VIF、t、p、置信区间——一律由你在统计软件里算出,AI 的唯一职责是把这些已经算好的数字翻译成符合 APA 的中文段落。任何时候 AI 给出的数字与你的软件输出不一致,以软件输出为准,并视为 AI 出错。把"算"留给软件、把"写"交给 AI、把"判断"(用不用因果话术、共线性怎么处理)留给自己——三者不可混淆。
📦 本课交付物
按本节实操任务完成并提交以下内容,提交 AI 初审,按 Module_Rubrics.md 对应维度评分:
- [ ] APA 相关矩阵表:三量表均分 + 控制变量的 Pearson r + 显著性标注
- [ ] 多元回归结果表:含 β、SE、t、p、95% CI、R²、Adjusted R²、VIF 全字段
- [ ] 回归报告段落(约 300 字):含 H1 是否支持 + 共线性诊断(VIF 范围)+ DW
- [ ] "相关 ≠ 因果"自检:标出报告中所有动词,确认无"导致 / 决定 / 引起 / 证明"
- [ ] 四维质检记录:用
Course_QA_Checklists.md(事实 / 逻辑 / 格式 / 引用)核查 AI 段落,重点查"数字是否被改动、是否出现因果措辞、共线性是否漏报" - [ ] 沉淀模板:将本课回归翻译 Prompt 与 VIF 阈值表加入个人工具箱
🏁 本章小结
把本课凝练成可据以复习的几条要点:
- 三个台阶:相关(r,只能说"共变")→ 回归(β,可说"控制其他变量后预测")→ 因果(需时序 + 控混淆 + 干预,横截面到不了)。三者层层递进,绝不可混为一谈。
- 回归在做什么:用一组预测变量解释因变量方差(R²),并通过"同入模型"控制混淆、剥离出每个预测变量的独立贡献。报告相对贡献用标准化 β(已消量纲),整体解释力看 R² / 调整后 R²,整体是否成立看 F 检验。
- 共线性是"解读层面的病":预测变量高度相关时,VIF 膨胀 → 标准误膨胀 → 系数符号 / 显著性不稳,但 R² 可能照样好看。诊断流程:看相关 → 跑 VIF → 按阈值决策(<5 安全 / 5–10 关注 / >10 必处理)→ 如实报告。
- 跨案例可迁移:Case A 三量表 VIF 通常 <2.5,共线性非主要矛盾;Case B 经管面板 r≈.86、VIF≈8/5.5,才是共线性诊断的用武之地。换数据只换变量与阈值判断,诊断与报告流程不变。
- 边界要诚实:相关 / 回归都不能下因果;p 值 ≠ 效应量;R² 高 ≠ 模型正确;前提违反会让推断失效。涉及具体统计量,最终核验责任在你本人。
- 红线:所有统计量由你在软件里算出,AI 只翻译、绝不代算或篡改——数字对不上时一律以软件输出为准;横截面回归段一律用"预测 / 关联",绝不用"导致 / 决定"。
自测清单(可保留逐项打勾)
- [ ] 我能正确解读 Pearson r 的方向 + 强度 + 显著性,并知道 r 大也只是"相伴"。
- [ ] 我能跑多元回归并解读 β 系数 + R² + Adjusted R² + F 检验,且懂标准化 β 才可横向比。
- [ ] 我做了完整前提假设检验(VIF + Durbin-Watson + Q-Q plot),并能解读各自含义。
- [ ] 我的报告永远用"预测 / 关联"而非"导致 / 决定",并能讲清横截面为何下不了因果。
- [ ] 我清楚 R² 在社科 0.1–0.4 常见,不追求过高 R²,也知道 R² 高 ≠ 模型正确。
- [ ] 我清楚 VIF 阈值(<5 / 5–10 / >10)与共线性的危害,并知道 8 属"需关注不必立删"。
- [ ] 我能识别 AI 输出中的"过度解释"(把横截面回归说成因果证据)与"代算 / 改数"。
✍️ 思考与练习
下列练习用于把本节概念用起来(区别于"本课交付物"里的任务),建议写在你的本地笔记中。
练习 1(原理辨析,紧扣 Case A)。 已知 Case A 回归输出:Strategy β = .38 (p<.001)、Anxiety β = −.21 (p<.001),二者均显著。有同学据此写道:"学习策略对自我效能的影响几乎是 AI 焦虑的两倍,且学习策略提高了自我效能。"请指出这句话里一处可接受与一处越界的表述,并改写越界处。
好答案要点:① "几乎两倍"这一相对强度比较是可接受的——因为 β 已标准化、消去量纲,.38 与 |−.21| 可直接比;② "提高了自我效能"越界——横截面回归只能说"正向预测","提高"隐含因果与时序,应改为"学习策略显著正向预测自我效能(控制焦虑、性别、年级后)"。能点明"标准化 β 可比、但显著 ≠ 因果"即达标。
练习 2(共线性诊断,紧扣 Case B)。 取 Case B 经管面板(30 省 × 10 年)。已知 r(DigEcon_Index, HumanCap_per10k) ≈ .86、HumanCap 的 VIF≈8、DigEcon 的 VIF≈5.5,而模型 R²≈.95。请回答:① 这三个数字分别预警了什么?② 为何"R² 高达 .95"反而是警示信号而非好消息?③ 按本课阈值,VIF≈8 该不该立即删变量?你会怎么处理?
好答案要点:① r≈.86 逼近"强相关需警惕共线性"区、VIF≈8/5.5 证实多重共线性——两个自变量"说的是相似的事";② R² 高不代表模型正确,共线性下 R² 可虚高,而单个系数的符号 / 显著性已不可靠,且这是教学模拟数据、真实经管 R² 远低于此;③ 8 落在 5–10"需关注但尚未必须删"档——保留理论核心变量
DigEcon、谨慎解读HumanCap,或合并 / 中心化 / 上 Ridge-Lasso,并在论文中如实报告 VIF。能点明"R² 高先查共线性、VIF 8 不必立删"即达标。
练习 3(边界识别,紧扣 Case A)。 你让 AI 基于 Case A 的相关结果写讨论,它输出:"由于 AI 焦虑与自我效能呈负相关(r=−.26),降低学生的 AI 焦虑就能提升其自我效能。"请指出这句话踩中本课哪条核心边界,并写出你会如何修正这段表述。
好答案要点:识别为相关 / 横截面不能下因果这条边界——"降低焦虑就能提升效能"是把相关当成了可干预的因果链,忽略了反向因果(低效能可能反过来抬高焦虑)与第三变量(如学业表现同时影响二者);横截面 r 给不出方向与机制。修正:改为"AI 焦虑与自我效能呈显著负相关(r=−.26, p<.001),二者的因果方向需纵向或实验设计进一步检验",措辞止于"相关 / 关联"。
练习 4(红线识别,紧扣 Case A)。 你把 case_A_cleaned.csv 直接发给 AI,让它"帮我算一下 AI 焦虑、学习策略对自我效能的多元回归,给出 β、R² 和 VIF,并写成 Results 段落"。它很快给出一段格式完美、β / R² / VIF 俱全的文字。请指出这一操作同时踩中本课哪两条红线,以及正确做法。
好答案要点:① 让 AI 代算统计量——大模型不接入数据、不做可信计算,给出的 β / R² / VIF 极可能是幻觉(看似合理实则编造,与你真实数据无关);② 跳过了"自己在软件里算"的环节。正确做法:先在 Jamovi/SPSS 亲手跑出回归(含 β、R²、Adjusted R²、VIF、DW),再把输出粘给 AI 仅做翻译,并逐一比对数字、以软件输出为准;任何 AI 自报的统计量一律不可直接采信。
