第 31 课:案例综合实战与模块三复盘
🎯 核心实操目标
学习目标:把第 18—30 课产出的全部碎片,组装成 Case A 论文"方法 + 结果"两章的完整中期稿;并能为三类不同研究(Case A 横截面问卷 / Case B 经管面板 / Case C 配对实验)独立排出"该用哪些方法、按什么顺序、每一步为何"。本课是模块三的收尾——做完即可进入模块四"论文写作",或直接开始撰写自己的真实研究。
📋 课前准备(5 分钟自检)
工具/账号
- [ ] Jamovi 2.5+ / SPSS 29+ / Python(你做分析用的统计软件)
- [ ] Claude 4.8 Opus(仅用于"学术翻译官"——把已算好的结果转写成段落)
- [ ] Word / Markdown 编辑器
数据/素材
- [ ] 第 23 课 → 数据清洗日志(含反向题反转记录)
- [ ] 第 24 课 → 描述统计 + 相关矩阵
- [ ] 第 25 课 → t 检验 / ANOVA 结果(含效应量)
- [ ] 第 26 课 → 多元回归结果(含 VIF)
- [ ] 第 27 课 → 信度分析(Cronbach's α,全量表 + 分维度)
- [ ] 第 28 课 → EFA 探索性因子分析(若新编量表)
- [ ] 第 29 课 → Bootstrap 中介结果(含 95% CI)
- [ ] 第 30 课 → 各 Results 段落草稿
应急通道
- 某课结果缺失 → 回到对应课补跑,不要在本课"补算"或让 AI 替你算
- 各段衔接不顺 → 用 AI"全文一致性"检查(详见第 42 课),但数字一律以你的软件输出为准
场景导入:把碎片拼成章节,是"装配"不是"重做"
经过第 18 课到第 30 课的训练,你手上应该有:一份清洗日志、三份信度报告、一份描述统计表、一份相关矩阵、多个 t 检验/ANOVA/回归输出、一份 Bootstrap 中介结果、多段 Results 草稿。
但它们现在是碎片——审稿人要读的不是一堆零散输出,而是一条能从头读到尾、逻辑自洽的"方法 + 结果"叙事。本课要做的,就是把这些已经算好的碎片装配成符合期刊规范的完整章节。
这里要先立一条贯穿全课的纪律:装配阶段不产生任何新的统计量。所有数字在前面 13 课里已由你在软件里算出;本课只做三件事——排序(哪段先讲)、串联(段与段如何过渡)、翻译(把输出表写成规范段落)。一旦发现某个数字缺失,正确动作是回到对应课补跑,而不是在这一步"顺手算一下"或让 AI 替你补一个——那会直接踩中整个模块的红线。
原理:数据分析为什么是"一条链",而不是"一堆检验"
很多初学者把统计分析理解成"挑几个看起来高级的检验各跑一遍"。这是模块三最需要纠正的误解。规范的量化研究是一条有先后依赖的链:每一步的产出,是下一步能否成立的前提;顺序错了,后面的结论即使"跑出来了"也不可信。理解这条链的三层逻辑,比记住任何单个检验都重要。
- 它在测什么——一条从"原始数据"到"可下结论"的递进。 这条链的标准顺序是:清洗(数据是否干净)→ 描述(数据长什么样、有无异常)→ 信效度(测量工具是否可靠、测的是不是想测的东西)→ 关系/差异检验(变量间有无关联、组间有无差异)→ 机制(中介/调节,关系是怎么发生的)→ 翻译(把结果写成规范段落)。每一环回答一个递进的问题,前一环不过关,后一环就没有立足点。
- 为什么这样做——前提层层向上传递。 参数检验(t、ANOVA、相关、回归)都假设"数据近似正态、无极端离群、测量可靠"。这些前提不是在做回归时才检查的,而是在描述和信效度两步就已经验证过——所以它们必须排在回归之前。一个具体例子:如果信度分析显示某量表 α 只有 0.4(测量极不可靠),那么基于该量表均分做的任何相关、回归都是在"用一把不准的尺子量东西",结论无效。顺序不是习惯,而是前提依赖。
- 常见误用——跳步、乱序、或拿后一步结论倒推前一步。 三类高频错误:① 跳过描述直接做回归(不知道有没有离群点就建模,系数被极端值带偏);② 先做回归、再回头补信度(若信度不过关,回归白做);③ 拿显著的回归结果去"反推"数据没问题(显著不等于数据干净,垃圾进、垃圾出照样可能显著)。本课的"分析链"正是为了把这三类错误从根上堵住。
📘 关键术语(首次出现,先对齐定义)
- 分析链(analysis pipeline):一组有固定先后依赖的统计步骤,前一步的产出是后一步的输入或前提。本课特指"清洗 → 描述 → 信效度 → 关系/差异 → 机制 → 翻译"这条主链。
- 横截面研究(cross-sectional study):在同一时间点对一批个体测量多个变量(如 Case A 一次性回收的问卷)。只能观察变量"相伴变化",先天无法确立时间先后,因此一般只能谈预测/关联,不能直接下因果。
- 面板数据(panel data):同一组个体在多个时间点被重复观测(如 Case B 的 30 省 × 10 年)。可用固定效应控制"不随时间变化的混淆变量",因果识别力强于横截面,但仍非随机实验。
- 被试内设计 / 配对数据(within-subject / paired data):同一对象接受多种处理并被多次测量(如 Case C 同一篇文本被三个模型分别评分)。各测量互相配对、非独立,必须用配对/重复测量方法分析。
- 效应量(effect size):刻画差异或关联"有多大"的标准化指标(如 Cohen's d、r、R²),与"是否显著"(p 值)回答的是两个不同问题——p 说"差异是否可能由偶然造成",效应量说"差异在实际中有多大"。
- 学术翻译官:本模块对 AI 角色的定位——只把你已经算出的统计结果转写成规范段落,绝不代算、绝不编造任何统计量。
📐 为什么三个案例用三条不同的链
同样是"比较 / 找关系",三个案例的数据结构不同,分析链就必须不同——方法由数据结构决定,不由研究者偏好决定:
- Case A(横截面问卷):个体自评、一次性测量 → 需要信效度(量表是否可靠)+ 多元回归 + 中介,因果话术止于"预测"。
- Case B(面板):同省多年重复观测、二手统计指标 → 不做信度(不是量表),改做面板固定效应回归 + 共线性诊断(VIF),因果识别力更强但仍须谨慎。
- Case C(配对实验):同一对象被多模型评分 → 三列分数互相配对,必须用配对/重复测量(
ttest_rel配对 t 检验、Friedman 检验),评分可靠性用 ICC 而非 Cronbach's α。
记住这条总纲:先看数据是"谁、在什么时间、被测了几次",再决定用哪条链。 本课后半程的三条路径指引,本质就是这一句话的三次展开。
架构重组:完整章节结构(中期稿)
装配的第一步是搭骨架。下面是 Case A"方法 + 结果"两章的标准结构——注意小节顺序正是上文"分析链"的镜像:方法章按"设计 → 工具 → 程序 → 分析"铺垫,结果章按"描述 → 信效度 → 假设检验 → 机制"递进。
第 3 章 研究方法(约 1500-2000 字)
3.1 研究设计与样本(约 300 字)
- 横截面问卷调查 + 样本来源 + 伦理审查
3.2 测量工具(约 500 字)
- AI 学习焦虑量表(12 题, 3 维度, α = .83)
- 学习策略量表(8 题, α = .88)
- 学业自我效能感量表(7 题, α = .89)
- 每量表附:来源/维度/样题/信度
3.3 数据收集程序(约 300 字)
- 问卷星发放 + 回收时间 + 知情同意
- 清洗规则(剔除标准 + 反向题反转 Anxiety_4_R = 6 − Anxiety_4)
3.4 数据分析方法(约 400 字)
- 使用 Jamovi 2.5.x / SPSS 29
- 描述统计 + 相关 + 多元回归 + Bootstrap 中介第 4 章 研究结果(约 1500-2500 字)
4.1 描述统计与初步分析(约 300 字)
- 样本特征 + 三量表 M/SD/Skew/Kurt + 相关矩阵
4.2 量表信度与效度(约 200 字)
- 全量表 α + 分维度 α + EFA(如做)
4.3 假设检验 - H1(约 400 字)
- 多元回归: AI 焦虑 → 自我效能, 控制变量, R² ≈ .20
4.4 假设检验 - H2(约 400 字)
- Bootstrap 中介: AI 焦虑 → 学习策略 → 自我效能, ab ≈ −.14
4.5 调节效应检验 - H3(约 300 字, 可选)
- 性别 × AI 焦虑交互项
4.6 稳健性检验(约 200 字, 可选)
- 替换变量 / 分样本 / Bootstrap 加倍🔢 这一步只"排序"不"代算"
上面骨架里出现的 α=.83、R²≈.20、ab≈−.14 等数字,都来自你前面课里亲手跑出的输出,此处只是把它们摆进正确的小节位置。本课全程红线:AI 只负责把你已算出的结果翻译成规范段落,绝不替你计算或编造任何统计量(详见【边界与局限】)。
🚀 拆解实战 A:Case A 完整中期稿生成 Prompt
骨架搭好后,把所有碎片产出一次性交给 AI,让它按结构装配成连贯初稿。注意提示词里反复强调的两条铁律——"不重新计算、不修改数字"和"用预测/关联而非导致/决定"——这正是把 AI 锁死在"翻译官"角色的关键。
【角色】严谨的 SSCI 期刊审稿人 + APA 论文编辑。
【背景】我已完成 Case A 数据分析,有以下碎片化产出(逐一粘贴):
- 清洗日志:原始 540 行 → 清洗后 500 行(含反向题反转)
- 描述统计表(M / SD / 偏度 / 峰度)
- 相关矩阵(含显著性)
- 三个量表的 Cronbach's α
- 多元回归输出(含 R²、各系数、VIF)
- Bootstrap 中介输出(含 ab、95% CI、c')
【任务】请把上述碎片整合为论文第 3 章"方法"与第 4 章"结果"的完整初稿。
【铁律】
1. 严格遵循 APA 7th 格式。
2. 绝不重新计算、绝不修改我粘贴的任何数字——逐字照用。
3. 每章按上面列出的 6 小节结构组织。
4. 每个分析方法都简短说明"为什么用这个"。
5. 段落自然过渡,避免"首先……其次……最后"式机械列举。
6. 涉及变量关系时一律用"预测/关联",严禁"导致/决定/证明"等因果词。
【输出】两段连贯的 Markdown 文本(第 3 章 + 第 4 章),约 3000-4500 字。💡 拿到初稿后必做:逐字比对数字
AI 装配出的初稿,第一件事不是读流畅度,而是把每一个统计量与你的软件输出逐一对照。任何对不上的数字(哪怕只差小数点后一位),一律以你的输出为准,并视为 AI 出错。这是"翻译官"模式下唯一不能省的核验步骤。
🚀 拆解实战 B:Case A 完整结果数据参照
跑完整条分析链后,你的数字应当落在以下范围(基于 N = 500 清洗后样本)。把它当自检锚点:偏离太大,多半是某一环出了错。
| 指标 | Case A 标杆值 |
|---|---|
| 样本量 | N = 500(原始 540,剔除 40 份无效) |
| Cronbach's α (Anxiety) | ≈ .83 |
| Cronbach's α (Strategy) | ≈ .88 |
| Cronbach's α (Efficacy) | ≈ .89 |
| r(Anxiety, Strategy) | ≈ −.30, p<.001 |
| r(Anxiety, Efficacy) | ≈ −.26, p<.001 |
| r(Strategy, Efficacy) | ≈ .42, p<.001 |
| 性别差异 t 检验(焦虑) | 男 M=3.05 / 女 M=3.35, t(498)=−4.32, p<.001, d=−0.39 |
| 多元回归 R² | ≈ .20 |
| Bootstrap 间接效应 ab | ≈ −.14, 95% CI [−.20, −.09](不含 0,部分中介) |
| 直接效应 c' | 95% CI [−.22, −.08](仍显著) |
说明:上表所有数值取自 Case A 清洗后数据在前序各课(第 24—29 课)的实际输出。性别 t 检验中女生焦虑显著高于男生(d=−0.39,中等效应);中介为部分中介(间接效应 CI 不含 0,且 c' 仍显著)。你自己跑出的数字若与此略有出入,以你的输出为准。
💡 跑出来跟标杆值差距太大?
- 偏离 ±20% 以内 → 正常(随机抽样波动)。
- 偏离 >50% → 检查清洗步骤,最常见是反向题
Anxiety_4_R没反转(会让 Anxiety 量表的 α 与相关方向全错)。 - 完全反方向(如 r 由负变正)→ 必有错误,从清洗日志开始逐步回查,不要手动把数字"改顺眼"。
🚀 跨案例 Worked Example:用同一条链解读 Case A 的三个核心结果
参照表给的是"数字范围",但装配中期稿真正要练的是把每个数字翻译成一句关于这批人的话,并让它和上一句逻辑接上。下面以 Case A 结果章的三个核心结果为例,逐项示范"读数 → 翻译 → 串联"——这正是 AI 装配初稿后你要逐句核对的标准。
① 信度(4.2 节)→ 为后续分析"背书"。 读数:Anxiety α≈.83、Strategy α≈.88、Efficacy α≈.89。 翻译:三个量表的内部一致性信度均在 .80 以上,达到良好水平,说明用它们的均分代表对应构念是可靠的。 串联:这一句的作用是为 4.3、4.4 节的回归与中介"背书"——只有先确认量表可靠,后面基于均分的关系检验才站得住。所以信度必须排在假设检验之前。
② 性别差异(可放在 4.1 末或单列)→ 一个完整的差异结论长什么样。 读数:男 M=3.05、女 M=3.35,t(498)=−4.32,p<.001,Cohen's d=−0.39。 翻译:独立样本 t 检验显示,女生的 AI 学习焦虑(M=3.35)显著高于男生(M=3.05),t(498)=−4.32,p<.001;效应量 Cohen's d=−0.39,属小到中等(接近中等,按 Cohen 1988 标准)水平。 串联:注意这句同时报了 p 和 d——p 说明"差异不太可能是偶然",d 说明"差异有多大"。只报 p(如"存在显著差异")会被审稿人退稿,因为读者无法判断这点差异在实际中重不重要。这是第 25 课的硬规范。
③ 中介(4.4 节)→ 横截面下如何谨慎下结论。 读数:间接效应 ab≈−.14,95% CI [−.20, −.09](不含 0);直接效应 c' 的 95% CI [−.22, −.08](仍显著)。 翻译:Bootstrap 中介检验显示,学习策略在"AI 焦虑 → 自我效能"间的间接效应显著(ab≈−.14,95% CI [−.20, −.09],不含 0);同时直接效应 c' 仍然显著,表明学习策略起部分中介作用。 串联:这里有两个易错点。其一,判断中介是否成立看的是间接效应的置信区间是否含 0(不含 0 即显著),而非看某个 p 值;其二,由于 Case A 是横截面数据,所有变量同时测量,无法确立"焦虑先于策略、策略先于效能"的时间先后——因此即便统计上中介成立,结论也只能写成"数据与该中介模型一致 / 学习策略可能起中介作用",绝不能写成"焦虑通过降低策略导致效能下降"。横截面慎称因果,是这一段的红线。
🔍 这个 Worked Example 在示范什么
不是把三个数字抄进段落,而是三件事:每个数字翻译成一句人话;每句话说明它在链条里"承上启下"的作用;在横截面/效应量/置信区间这些地方守住统计纪律。 AI 装配的初稿,要逐句按这三条来核对。
🚀 拆解实战 C:Case B(经管面板)路径指引
Case B 采用 30 省 × 10 年 = 300 观测的面板数据,与 Case A 的横截面问卷有几处关键差异。换的不只是数据,是整条分析链:
| 维度 | Case A | Case B |
|---|---|---|
| 数据结构 | 问卷自评(横截面,500 人) | 二手统计年鉴(面板,300 个"省×年"观测) |
| 信效度 | 必须做 Cronbach's α | 不适用(不是量表,是客观指数) |
| 主分析 | 多元回归 + 中介 | 面板固定效应回归 + 中介 + 稳健性 |
| 共线性 | 通常 VIF < 5 | HumanCap VIF≈8(需关注)、DigEcon≈5.5 |
| 异质性 | 性别/年级分组 | 东/中/西地区分组 |
| 因果识别 | 横截面只能谈预测 | 面板固定效应可控制"不随时间变化的混淆变量",识别力更强 |
Case B 主分析推荐工具
- 通识轨:Jamovi 跑普通 OLS(注意:Jamovi 做不了完整的面板固定效应,只能作近似与教学)。
- 进阶轨:Python
statsmodels/linearmodels(from linearmodels.panel import PanelOLS),可做双向固定效应。
Case B 标杆值
| 指标 | Case B 标杆值 |
|---|---|
| 样本量 | N = 300(30 省 × 10 年,2014—2023) |
| 均值(量纲不同不可直接比) | DigEcon ≈ 72、Innovation ≈ 47 |
| r(DigEcon, Innovation) | ≈ .94, p<.001(极高) |
| r(DigEcon, HumanCap) | ≈ .86, p<.001(极高) |
| VIF | HumanCap ≈ 8、DigEcon ≈ 5.5(需关注,未到严重档) |
| 回归 R² | ≈ .95(模拟数据偏高,是反面参照,不可当目标) |
⚠️ Case B 的高相关与高 R² 是"陷阱",不是"成绩"
- DigEcon 与 Innovation 相关高达 r≈.94、与 HumanCap r≈.86——若不加判断就把它们一起塞进回归,会触发多重共线性(系数不稳、符号可能反转、标准误膨胀)。VIF(HumanCap≈8、DigEcon≈5.5)就是描述阶段就能抓到的预警。
- R²≈.95 是教学用模拟数据的特征,远高于真实经管研究的常见水平。看到异常漂亮的拟合,第一反应应该是查共线性与数据,而不是庆祝。这与第 24、26 课反复强调的一致:高 R² 常伴隐患。
- 这些数字必须由你在软件里亲手跑出。回顾第 18 课的红线:你只把"省×年=300、均值约 72/47"这类已知信息交给 AI,它若"顺手"告诉你两变量高度相关或给一个 R²,那就是越界编造。
🚀 拆解实战 D:Case C(LLM 评估)路径指引
Case C 采用 300 篇文本 × 3 个模型的被试内对比:同一篇文本分别由三个模型打质量分,列为 Quality_GPT5 / Quality_Claude47 / Quality_Gemini25(各为 Fluency / Accuracy / Coverage 三维的平均,1–5 分)。基准模型固定为 Claude 4.7(即 Quality_Claude47)。关键差异在于数据结构是"配对"而非"独立":
| 维度 | Case A | Case C |
|---|---|---|
| 数据结构 | 横截面问卷(个体自评) | 实验数据(同一篇文本被三模型评分,配对) |
| 主分析 | 多元回归 | 配对/重复测量:ttest_rel(配对 t)+ Friedman 检验 |
| 可靠性指标 | Cronbach's α(量表内部一致性) | ICC(评分者间一致性,inter-rater reliability) |
| 标识列 | 受访者编号 | Article_ID(PAPER_0001–PAPER_0300) |
| 软件 | Jamovi / SPSS | Python(pingouin 做 ICC / 配对检验)或 Jamovi |
Case C 标杆值
| 指标 | Case C 标杆值 |
|---|---|
| 样本量 | N = 300 篇文本(每篇 3 个模型评分) |
| 三模型 Quality 差异 | Friedman 检验显著,p < .001 |
| 评分者一致性 | Claude 的 Accuracy 维由 3 名标注者评,ICC(2,k) ≈ .76(接近可接受) |
🔍 Case C 最容易踩的两个错
- 误把配对当独立:三列分数指向同一批 300 篇文本,互相配对——比较三模型高低必须用配对/重复测量(
ttest_rel、Friedman),误用独立样本 t 检验会高估自由度、夸大显著性。判据见第 22 课"看清数据结构再选方法"。 - 把信度指标用错:Case C 不是量表,不能用 Cronbach's α;评"几位标注者评得一不一致"用的是 ICC(2,k)≈.76。这个数字也必须由你在软件里算出,绝不在装配阶段臆造一致性数值。
📘 关键术语:ICC 与 Cronbach's α 的分工
- 组内相关系数(intraclass correlation coefficient, ICC):度量"多个评分者对同一批对象的评分有多一致"。
ICC(2,k)中的 k 指取 k 名评分者的平均分作为最终分时的可靠性。Case C 中 3 名标注者对 Accuracy 维的 ICC(2,k)≈.76,属"中等偏上、接近可接受"。 - Cronbach's α:度量"一个量表内多个题项是否测同一构念",用于 Case A 这类问卷。
- 一句话区分:α 管"题项之间一不一致"(量表),ICC 管"评分者之间一不一致"(评分)。Case C 是评分数据,故用 ICC 而非 α。
跨案例总纲:给一个研究问题,如何排出它的分析链
三条路径指引讲完,把它们抽象成一张可迁移的"点菜单"。拿到任何一个研究问题,按下表逐行自问,就能排出该用哪些方法、按什么顺序——这也是本课思考练习的核心技能。
| 链条环节 | 自问 | 选择依据 | 三案例分别怎么走 |
|---|---|---|---|
| ① 数据结构 | 谁、在什么时间、被测了几次? | 横截面 / 面板 / 配对,决定后面所有方法 | A 横截面 · B 面板 · C 配对 |
| ② 清洗 | 数据干净吗?反向题转了吗? | 任何分析前必做 | 三者都做(C 注意保持配对结构) |
| ③ 描述 | 数据长什么样?有无离群、偏态? | 连续变量必看 M/SD/分布 | 三者都做 |
| ④ 信/效度 | 测量可靠吗?测的是想测的吗? | 仅量表数据需要 | A 做 α(+EFA) · B 不做 · C 做 ICC |
| ⑤ 关系/差异 | 变量间有无关联 / 组间有无差异? | 由结构定方法 | A 相关+回归 · B 面板回归 · C 配对/Friedman |
| ⑥ 机制 | 关系是怎么发生的(中介/调节)? | 有理论支撑才做 | A 中介 · B 中介+稳健性 · C(视设计) |
| ⑦ 翻译 | 把已算结果写成规范段落 | AI 仅翻译、不代算 | 三者同一红线 |
🔁 一句话总纲
结构定方法、前提定顺序、理论定机制、红线定 AI 角色。 任何研究问题,先认它的数据结构(第①行),整条链就基本定型;信/效度(第④行)是量表数据的"专属环节",面板和配对实验各有替代;机制(第⑥行)只在有理论依据时才做;而第⑦行的红线——AI 只翻译、不代算——三案例完全一致。
模块三能力全图:你已经会做什么
这张表是模块三的"能力地图",也是中期稿的装配清单。把 14 课产出逐项对齐,缺哪环回哪课补——注意它的顺序正是"分析链"的顺序。
| 课次 | 关键产出 | 在分析链中的位置 | 自检 |
|---|---|---|---|
| 18 | 工具安装验证 | 起点(环境就绪) | ☐ |
| 19 | 变量映射表 | 设计 | ☐ |
| 20 | 问卷草稿 | 设计 | ☐ |
| 21 | 在线问卷链接 | 数据收集 | ☐ |
| 22 | 数据字典(含数据结构判断) | 清洗准备 | ☐ |
| 23 | 清洗日志(含反向题反转) | ② 清洗 | ☐ |
| 24 | 描述统计 + 相关矩阵 | ③ 描述 | ☐ |
| 25 | t 检验 + ANOVA + 效应量 | ⑤ 差异 | ☐ |
| 26 | 多元回归 + VIF + 报告段 | ⑤ 关系 | ☐ |
| 27 | Cronbach's α(全量表 + 分维度) | ④ 信度 | ☐ |
| 28 | EFA 因子分析(若新编量表) | ④ 效度 | ☐ |
| 29 | Bootstrap 中介 + 95% CI | ⑥ 机制 | ☐ |
| 30 | Results 段落初稿 | ⑦ 翻译 | ☐ |
| 31 | 方法 + 结果完整中期稿 | 全链装配 | ☐ |
中期稿:装配得好 vs 装配得砸
同一批碎片,装配出的章节可以是"能投稿"也可以是"被退回"。下面把装配阶段最常见的失分点逐项拆开并排对照——左列是学员真实的高频写法,右列是把同一处"拧紧"后的写法。
| 维度 | 装配得砸 ❌ | 装配得好 ✅ | 为什么 |
|---|---|---|---|
| 小节顺序 | 先写回归结果,再补信度 | 严格按"描述 → 信度 → 假设检验 → 中介"递进 | 顺序是前提依赖:信度不过关,回归无意义(见原理) |
| 数字来源 | 让 AI"顺手把相关也算一下" | 所有数字来自自己软件输出,AI 只搬运 | 一旦让 AI 代算,得到的是幻觉数字,整章作废(红线) |
| 效应量 | "性别差异显著(p<.001)" | "女生显著更高,t(498)=−4.32, p<.001, d=−0.39(接近中等)" | 只报 p 无法判断实际意义,必并报效应量(第 25 课规范) |
| 因果措辞(横截面) | "AI 焦虑导致自我效能下降" | "AI 焦虑负向预测自我效能" | Case A 是横截面,无法确立时间先后,慎称因果 |
| 中介判读 | "因为 p<.05 所以中介成立" | "间接效应 95% CI [−.20,−.09] 不含 0,部分中介" | 中介看间接效应的置信区间是否含 0,不是看某个 p |
| 跨案例迁移 | 给 Case B 也跑 Cronbach's α | Case B 不做 α(非量表),改做 VIF 共线性诊断 | 方法由数据结构决定,量表方法不能套到面板指数上 |
| 段落衔接 | 各结果孤立罗列,无过渡 | 每段收尾为下一段铺路(如相关→引出中介) | 审稿人要读一条叙事,不是一堆输出 |
💡 一句话判据
检验一份中期稿装配得好不好,问四件事:小节顺序是否合分析链?每个数字是否来自自己的软件(而非 AI 代算)?差异检验有没有并报效应量?横截面有没有误下因果? 四者都过关,这份稿子才从"碎片堆砌"升级成"可投稿的章节"。
常见误区与纠正
模块三复盘阶段,学员的问题高度集中在"乱序装配"和"让 AI 越界"。下表是最高频的几种,照着对号入座即可:
| 常见误区 | 症状 | 纠正方法 |
|---|---|---|
| 跳过描述直接做回归 | 不看离群点就建模,系数被极端值带偏还不自知 | 严守分析链:清洗 → 描述(看分布/离群)→ 再进检验 |
| 乱序:先回归后信度 | 回归都跑完才发现某量表 α=0.4,前功尽弃 | 信效度排在假设检验之前;不可靠的尺子量不出可信结果 |
| 让 AI 代算统计量 | 把原始数据丢给 AI,让它"算相关/补个 R²" | 所有统计量自己在软件跑;AI 只翻译已算输出(见红线) |
| 横截面下了因果 | Case A 中期稿写"焦虑导致效能下降" | 横截面只能谈预测/关联;因果需纵向或实验设计支撑 |
| 方法套错数据结构 | 给 Case B 面板跑 Cronbach's α;给 Case C 配对数据用独立样本 t | 先认数据结构再选方法:面板用 VIF、配对用 ttest_rel/ICC |
| 中介只看 p 不看 CI | 写"间接效应 p<.05 所以中介成立" | Bootstrap 中介看间接效应的 95% CI 是否含 0 |
| 把高 R² 当成绩 | 看到 Case B 的 R²≈.95 沾沾自喜 | 高 R²(尤其模拟数据)常伴共线性,先查 VIF 与数据 |
结果不显著 / 装配出错?如何排查与迭代
综合实战阶段,常见三类"不对劲":某环结果缺失或反常、结果不显著与预期不符、AI 装配的初稿不达标。逐类对症排查,不要推倒重来。
- 某环结果缺失或数字反常 → 回到对应课补跑,而非在本课"补算"。 中期稿装配到一半发现少一个 VIF、或某量表 α 跑出负值、相关方向反了——几乎都是前面某课没做干净(最常见是反向题
Anxiety_4_R未反转,会让 Anxiety 的 α 与相关方向全错)。对照"能力全图"定位是哪一环,回到对应课按清洗日志逐步复核。统计量永远不能在装配阶段手动"改顺眼"或让 AI 补一个。 - 结果不显著、与假设相反 → 先确认不是数据/方法错,再如实报告。 不显著本身不是失败,但要先排除三类"假阴性":① 清洗错误(离群点、反向题)拉垮了效应;② 方法选错(如对配对数据误用独立检验,或共线性导致系数失真);③ 样本量不足(检验力低)。排除这些后若仍不显著,就如实报告并讨论可能原因(理论边界、测量、样本特征)——编造或反复换方法"凑显著"是学术不端。这与第 25 课"p 值之外必报效应量"一脉相承:哪怕不显著,效应量与置信区间仍提供信息。
- AI 初稿不达标(改了数值 / 下了因果 / 乱序)→ 局部纠偏,永远以你的输出为准。
- 它改动或编造了数值 → 最危险,直接弃用该句并追加"严禁改动我粘贴的任何数字,逐字照用";任何与软件输出对不上的数字一律以你的为准。
- 它把横截面写成因果 → 追加"本研究为横截面设计,所有结论只能用预测/关联,禁用导致/证明/影响等因果词"。
- 它打乱了小节顺序 → 追加"严格按 4.1 描述 → 4.2 信效度 → 4.3/4.4 假设检验 → 4.5/4.6 的顺序组织,不得调换"。
一句话
首版不理想,先分清是数据问题(回对应课查清洗)、显著性问题(先排错再如实报告,不凑显著)、还是翻译问题(局部纠偏 AI 初稿)。无论哪种,红线不变:数字只能由你算出,AI 只能翻译,不能代算、不能凑、不能编。
边界与局限:综合实战这一步的能与不能
走完整条分析链,最容易在收尾时松懈。把下面几条边界记牢,比多装配一段文字更重要。
| 边界 / 失效场景 | 为什么会这样 | 你应该怎么做 |
|---|---|---|
| 横截面慎称因果 | Case A 所有变量同时测量,无法确立时间先后;相关/中介只反映"相伴变化" | 结论止于"预测/关联";要因果须纵向追踪或实验设计 |
| 面板≠随机实验 | Case B 固定效应能控"不随时间变的混淆",但控不住时变混淆、反向因果 | 因果话术仍需谨慎,配合工具变量/稳健性检验,并写明前提 |
| p 值 ≠ 效应量 | 大样本下极小差异也会显著;显著不等于重要 | 凡差异/关系,必并报效应量(d / r / R²)与置信区间 |
| 相关 ≠ 因果 | 相关、回归系数显著只说明"相伴变化/可预测",给不出机制方向 | 方向与机制由理论与设计决定,不由统计显著性赋予 |
| 高 R² 可能是陷阱 | Case B 模拟数据 R²≈.95 远超真实水平,常伴共线性 | 见高拟合先查 VIF 与数据,不把它当达标线 |
| AI 只能翻译,不能代算 | 大模型不接入你的数据、不做可信计算,让它"算/补"统计量只会得到幻觉 | 所有统计量在软件亲手跑;AI 仅把你粘贴的输出转写成段落 |
⚠️ 本课红线:AI 翻译已算出的结果,绝不代算或编造统计量
这是贯穿整个量化模块的硬规则,在"综合装配"这一步尤其危险——因为碎片很多、装配很赶,最容易随口让 AI"顺手把某个相关/R²/一致性也算一下"。凡是均值、SD、相关系数、回归系数、R²、p 值、Cohen's d、间接效应 CI、ICC——一律由你在统计软件里算出;AI 的唯一职责是把这些已经算好的数字翻译成符合 APA 的中文段落。任何时候 AI 给出的数字与你的软件输出不一致,以软件输出为准,并视为 AI 出错。把"算"留给软件、把"写"交给 AI、把"判断"留给自己——三者不可混淆。
📦 本课交付物
按本节实操任务完成并提交以下内容,提交 AI 初审,按 Module_Rubrics.md 对应维度评分:
- [ ] Case A 中期稿:第 3 章方法 + 第 4 章结果(约 3000-4500 字 Word),数字逐一比对过软件输出
- [ ] 跨案例分析路径表:用"跨案例总纲"那张点菜单,为你的真实研究排出 A/B/C 哪条链(含每步理由)
- [ ] 模块三能力全图自检表:14 个产出每个标 ☑/⚠️/❌
- [ ] 统计输出归档:所有 Jamovi/SPSS/Python 输出截图汇总到一个 PDF(供数字溯源)
- [ ] 四维质检记录:用
Course_QA_Checklists.md(事实/逻辑/格式/引用)核查 AI 装配的初稿,重点查"数字是否被改动、是否出现因果措辞、小节是否乱序"
🏁 本章小结:模块三能力全图
把模块三凝练成可据以复习、也可据以自检的几条要点:
- 分析是一条链,不是一堆检验:标准顺序为"清洗 → 描述 → 信效度 → 关系/差异 → 机制 → 翻译"。前一环是后一环的前提,顺序由前提依赖决定,不可乱序或跳步。
- 方法由数据结构决定:先认数据是"谁、何时、被测几次"——横截面(Case A,做 α + 回归 + 中介)、面板(Case B,做面板回归 + VIF,不做 α)、配对(Case C,做
ttest_rel/Friedman + ICC,不做独立检验)走三条不同的链。 - 统计纪律要守住:差异/关系必并报效应量(p≠效应量);相关≠因果,横截面慎称因果;中介看间接效应的 95% CI 是否含 0;高 R²(尤其模拟数据)先查共线性。
- 三案例真值锚点:Case A——α≈.83/.88/.89,r 为 −.30/−.26/.42,性别 d=−0.39,R²≈.20,中介 ab≈−.14 [−.20,−.09] 部分中介;Case B——r(DigEcon,Innovation)≈.94、VIF(HumanCap)≈8、R²≈.95(反面参照);Case C——Friedman 显著、ICC(2,k)≈.76。
- 装配是排序+串联+翻译:把碎片摆进正确小节、让段落自然过渡、把输出表写成规范段落——不在装配阶段产生任何新数字。
- 红线贯穿全程:AI 是翻译官,只转写你已算出的结果,绝不代算、不凑显著、不编造。数字对不上时一律以软件输出为准。
自测清单(可保留逐项打勾)
- [ ] 我能说清"为什么分析是一条有先后依赖的链",并讲出每一环测什么、为何排在该位置。
- [ ] 给一个新研究问题,我能先判断它的数据结构,再排出该用哪些方法、按什么顺序、每步为何。
- [ ] 我完成了 Case A 的方法 + 结果中期稿,且数字与标杆值偏离在 ±20% 以内、逐一比对过软件输出。
- [ ] 我清楚 Case A/B/C 三条链的差异(α vs VIF vs ICC;回归 vs 面板 vs 配对),不会把方法套错数据结构。
- [ ] 我能讲出本课至少三条边界(横截面慎称因果 / p 值≠效应量 / 高 R² 是陷阱 / AI 不可代算)及对应动作。
- [ ] 我已完成模块三 14 课全流程产出,做好了进入模块四"论文写作"的准备。
✍️ 思考与练习
下列练习用于把本节概念用起来(区别于"本课交付物"里的任务),建议写在你的本地笔记中。核心技能是:给定一个研究问题,自己排出该用哪些方法、按什么顺序、每步为何。
练习 1(排分析链,紧扣 Case A)。 研究问题:"大学生的 AI 学习焦虑是否会通过削弱学习策略,进而降低学业自我效能感?"数据为 Case A(N=500 横截面问卷,含三个 Likert 量表与反向题 Anxiety_4_R)。请排出从拿到原始数据到能下结论的完整方法顺序,并说明:为什么信度必须排在回归之前?为什么这里只能用中介而非声称因果?
好答案要点:顺序为 清洗(含
Anxiety_4_R反转)→ 描述(看分布/离群)→ 信度(三量表 α)→ 相关 → 多元回归(H1)→ Bootstrap 中介(H2,看间接效应 CI 是否含 0)→ AI 翻译 Results。信度先于回归,因为量表不可靠则基于其均分的回归无意义(前提依赖)。横截面所有变量同时测量、无法确立时间先后,故即便中介统计成立,也只能写"数据与中介模型一致",不能称"导致"。
练习 2(换数据结构,紧扣 Case B vs Case C)。 同事把 Case A 的分析模板直接套用:对 Case B(30 省×10 年面板)也跑 Cronbach's α,对 Case C(300 篇×3 模型评分)用独立样本 t 检验比较三模型。请分别指出错在哪、应改用什么方法、为什么。
好答案要点:Case B 是客观统计指数、不是量表,不能做 α,应做面板固定效应回归并查 VIF(HumanCap≈8、DigEcon≈5.5)防多重共线性。Case C 三列分数指向同一批 300 篇文本、互相配对,用独立样本 t 会高估自由度、夸大显著性;应改用配对/重复测量(
ttest_rel、Friedman),评分者一致性用 ICC(2,k)≈.76 而非 α。核心原则:方法由数据结构决定。
练习 3(红线识别,综合三案例)。 装配中期稿时你赶时间,对 AI 说:"这是我三个案例的原始数据,帮我把缺的相关系数、Case B 的 R²、Case C 的 ICC 都算一下,再写成 Results。"它很快给出一段格式完美、数字俱全的文字。请指出这同时踩中本课哪些红线,正确做法是什么。
好答案要点:踩中"让 AI 代算统计量"——大模型不接入数据、不做可信计算,给出的相关/R²/ICC 极可能是幻觉(看似合理实则编造),且 Case B 的高相关/R² 本就是第 18 课明令不可让 AI"顺手给"的。正确做法:相关在第 24 课、Case B R² 在回归课、ICC 用
pingouin等亲手跑出,再把输出粘给 AI 仅做翻译,并逐一比对、以软件输出为准。
练习 4(结果不显著的处理)。 你用 Case A 跑"性别 × AI 焦虑"对自我效能的调节效应(H3),交互项不显著(p=.18)。一位同学建议"多换几个控制变量组合,总能跑出 p<.05"。请说明:不显著是否等于研究失败?同学的建议错在哪?你应如何处理与报告?
好答案要点:不显著不等于失败,它本身是一条信息(该调节效应在本样本/本设计下证据不足)。同学的建议是凑显著(p-hacking),属学术不端——反复换设定直到 p<.05 会制造假阳性。正确做法:先排除假阴性来源(清洗错误、方法误用、检验力不足);确认无误后如实报告交互不显著,并结合效应量与置信区间讨论可能原因(理论边界、测量、样本特征),而非删改或反复试。
