Skip to content

第 31 课:案例综合实战与模块三复盘

🎯 核心实操目标

学习目标:把第 18—30 课产出的全部碎片,组装成 Case A 论文"方法 + 结果"两章的完整中期稿;并能为三类不同研究(Case A 横截面问卷 / Case B 经管面板 / Case C 配对实验)独立排出"该用哪些方法、按什么顺序、每一步为何"。本课是模块三的收尾——做完即可进入模块四"论文写作",或直接开始撰写自己的真实研究。

📋 课前准备(5 分钟自检)

工具/账号

  • [ ] Jamovi 2.5+ / SPSS 29+ / Python(你做分析用的统计软件)
  • [ ] Claude 4.8 Opus(仅用于"学术翻译官"——把已算好的结果转写成段落)
  • [ ] Word / Markdown 编辑器

数据/素材

  • [ ] 第 23 课 → 数据清洗日志(含反向题反转记录)
  • [ ] 第 24 课 → 描述统计 + 相关矩阵
  • [ ] 第 25 课 → t 检验 / ANOVA 结果(含效应量)
  • [ ] 第 26 课 → 多元回归结果(含 VIF)
  • [ ] 第 27 课 → 信度分析(Cronbach's α,全量表 + 分维度)
  • [ ] 第 28 课 → EFA 探索性因子分析(若新编量表)
  • [ ] 第 29 课 → Bootstrap 中介结果(含 95% CI)
  • [ ] 第 30 课 → 各 Results 段落草稿

应急通道

  • 某课结果缺失 → 回到对应课补跑,不要在本课"补算"或让 AI 替你算
  • 各段衔接不顺 → 用 AI"全文一致性"检查(详见第 42 课),但数字一律以你的软件输出为准

场景导入:把碎片拼成章节,是"装配"不是"重做"

经过第 18 课到第 30 课的训练,你手上应该有:一份清洗日志、三份信度报告、一份描述统计表、一份相关矩阵、多个 t 检验/ANOVA/回归输出、一份 Bootstrap 中介结果、多段 Results 草稿。

但它们现在是碎片——审稿人要读的不是一堆零散输出,而是一条能从头读到尾、逻辑自洽的"方法 + 结果"叙事。本课要做的,就是把这些已经算好的碎片装配成符合期刊规范的完整章节。

这里要先立一条贯穿全课的纪律:装配阶段不产生任何新的统计量。所有数字在前面 13 课里已由你在软件里算出;本课只做三件事——排序(哪段先讲)、串联(段与段如何过渡)、翻译(把输出表写成规范段落)。一旦发现某个数字缺失,正确动作是回到对应课补跑,而不是在这一步"顺手算一下"或让 AI 替你补一个——那会直接踩中整个模块的红线。

原理:数据分析为什么是"一条链",而不是"一堆检验"

很多初学者把统计分析理解成"挑几个看起来高级的检验各跑一遍"。这是模块三最需要纠正的误解。规范的量化研究是一条有先后依赖的链:每一步的产出,是下一步能否成立的前提;顺序错了,后面的结论即使"跑出来了"也不可信。理解这条链的三层逻辑,比记住任何单个检验都重要。

  1. 它在测什么——一条从"原始数据"到"可下结论"的递进。 这条链的标准顺序是:清洗(数据是否干净)→ 描述(数据长什么样、有无异常)→ 信效度(测量工具是否可靠、测的是不是想测的东西)→ 关系/差异检验(变量间有无关联、组间有无差异)→ 机制(中介/调节,关系是怎么发生的)→ 翻译(把结果写成规范段落)。每一环回答一个递进的问题,前一环不过关,后一环就没有立足点。
  2. 为什么这样做——前提层层向上传递。 参数检验(t、ANOVA、相关、回归)都假设"数据近似正态、无极端离群、测量可靠"。这些前提不是在做回归时才检查的,而是在描述信效度两步就已经验证过——所以它们必须排在回归之前。一个具体例子:如果信度分析显示某量表 α 只有 0.4(测量极不可靠),那么基于该量表均分做的任何相关、回归都是在"用一把不准的尺子量东西",结论无效。顺序不是习惯,而是前提依赖。
  3. 常见误用——跳步、乱序、或拿后一步结论倒推前一步。 三类高频错误:① 跳过描述直接做回归(不知道有没有离群点就建模,系数被极端值带偏);② 先做回归、再回头补信度(若信度不过关,回归白做);③ 拿显著的回归结果去"反推"数据没问题(显著不等于数据干净,垃圾进、垃圾出照样可能显著)。本课的"分析链"正是为了把这三类错误从根上堵住。
📘 关键术语(首次出现,先对齐定义)
  • 分析链(analysis pipeline):一组有固定先后依赖的统计步骤,前一步的产出是后一步的输入或前提。本课特指"清洗 → 描述 → 信效度 → 关系/差异 → 机制 → 翻译"这条主链。
  • 横截面研究(cross-sectional study):在同一时间点对一批个体测量多个变量(如 Case A 一次性回收的问卷)。只能观察变量"相伴变化",先天无法确立时间先后,因此一般只能谈预测/关联,不能直接下因果。
  • 面板数据(panel data):同一组个体在多个时间点被重复观测(如 Case B 的 30 省 × 10 年)。可用固定效应控制"不随时间变化的混淆变量",因果识别力强于横截面,但仍非随机实验。
  • 被试内设计 / 配对数据(within-subject / paired data):同一对象接受多种处理并被多次测量(如 Case C 同一篇文本被三个模型分别评分)。各测量互相配对、非独立,必须用配对/重复测量方法分析。
  • 效应量(effect size):刻画差异或关联"有多大"的标准化指标(如 Cohen's d、r、R²),与"是否显著"(p 值)回答的是两个不同问题——p 说"差异是否可能由偶然造成",效应量说"差异在实际中有多大"。
  • 学术翻译官:本模块对 AI 角色的定位——只把你已经算出的统计结果转写成规范段落,绝不代算、绝不编造任何统计量

📐 为什么三个案例用三条不同的链

同样是"比较 / 找关系",三个案例的数据结构不同,分析链就必须不同——方法由数据结构决定,不由研究者偏好决定

  • Case A(横截面问卷):个体自评、一次性测量 → 需要信效度(量表是否可靠)+ 多元回归 + 中介,因果话术止于"预测"。
  • Case B(面板):同省多年重复观测、二手统计指标 → 不做信度(不是量表),改做面板固定效应回归 + 共线性诊断(VIF),因果识别力更强但仍须谨慎。
  • Case C(配对实验):同一对象被多模型评分 → 三列分数互相配对,必须用配对/重复测量(ttest_rel 配对 t 检验、Friedman 检验),评分可靠性用 ICC 而非 Cronbach's α。

记住这条总纲:先看数据是"谁、在什么时间、被测了几次",再决定用哪条链。 本课后半程的三条路径指引,本质就是这一句话的三次展开。


架构重组:完整章节结构(中期稿)

装配的第一步是搭骨架。下面是 Case A"方法 + 结果"两章的标准结构——注意小节顺序正是上文"分析链"的镜像:方法章按"设计 → 工具 → 程序 → 分析"铺垫,结果章按"描述 → 信效度 → 假设检验 → 机制"递进。

第 3 章 研究方法(约 1500-2000 字)

3.1 研究设计与样本(约 300 字)
   - 横截面问卷调查 + 样本来源 + 伦理审查
3.2 测量工具(约 500 字)
   - AI 学习焦虑量表(12 题, 3 维度, α = .83)
   - 学习策略量表(8 题, α = .88)
   - 学业自我效能感量表(7 题, α = .89)
   - 每量表附:来源/维度/样题/信度
3.3 数据收集程序(约 300 字)
   - 问卷星发放 + 回收时间 + 知情同意
   - 清洗规则(剔除标准 + 反向题反转 Anxiety_4_R = 6 − Anxiety_4)
3.4 数据分析方法(约 400 字)
   - 使用 Jamovi 2.5.x / SPSS 29
   - 描述统计 + 相关 + 多元回归 + Bootstrap 中介

第 4 章 研究结果(约 1500-2500 字)

4.1 描述统计与初步分析(约 300 字)
   - 样本特征 + 三量表 M/SD/Skew/Kurt + 相关矩阵
4.2 量表信度与效度(约 200 字)
   - 全量表 α + 分维度 α + EFA(如做)
4.3 假设检验 - H1(约 400 字)
   - 多元回归: AI 焦虑 → 自我效能, 控制变量, R² ≈ .20
4.4 假设检验 - H2(约 400 字)
   - Bootstrap 中介: AI 焦虑 → 学习策略 → 自我效能, ab ≈ −.14
4.5 调节效应检验 - H3(约 300 字, 可选)
   - 性别 × AI 焦虑交互项
4.6 稳健性检验(约 200 字, 可选)
   - 替换变量 / 分样本 / Bootstrap 加倍

🔢 这一步只"排序"不"代算"

上面骨架里出现的 α=.83、R²≈.20、ab≈−.14 等数字,都来自你前面课里亲手跑出的输出,此处只是把它们摆进正确的小节位置。本课全程红线:AI 只负责把你已算出的结果翻译成规范段落,绝不替你计算或编造任何统计量(详见【边界与局限】)。


🚀 拆解实战 A:Case A 完整中期稿生成 Prompt

骨架搭好后,把所有碎片产出一次性交给 AI,让它按结构装配成连贯初稿。注意提示词里反复强调的两条铁律——"不重新计算、不修改数字"和"用预测/关联而非导致/决定"——这正是把 AI 锁死在"翻译官"角色的关键。

markdown
【角色】严谨的 SSCI 期刊审稿人 + APA 论文编辑。

【背景】我已完成 Case A 数据分析,有以下碎片化产出(逐一粘贴):
- 清洗日志:原始 540 行 → 清洗后 500 行(含反向题反转)
- 描述统计表(M / SD / 偏度 / 峰度)
- 相关矩阵(含显著性)
- 三个量表的 Cronbach's α
- 多元回归输出(含 R²、各系数、VIF)
- Bootstrap 中介输出(含 ab、95% CI、c')

【任务】请把上述碎片整合为论文第 3 章"方法"与第 4 章"结果"的完整初稿。

【铁律】
1. 严格遵循 APA 7th 格式。
2. 绝不重新计算、绝不修改我粘贴的任何数字——逐字照用。
3. 每章按上面列出的 6 小节结构组织。
4. 每个分析方法都简短说明"为什么用这个"。
5. 段落自然过渡,避免"首先……其次……最后"式机械列举。
6. 涉及变量关系时一律用"预测/关联",严禁"导致/决定/证明"等因果词。

【输出】两段连贯的 Markdown 文本(第 3 章 + 第 4 章),约 3000-4500 字。

💡 拿到初稿后必做:逐字比对数字

AI 装配出的初稿,第一件事不是读流畅度,而是把每一个统计量与你的软件输出逐一对照。任何对不上的数字(哪怕只差小数点后一位),一律以你的输出为准,并视为 AI 出错。这是"翻译官"模式下唯一不能省的核验步骤。


🚀 拆解实战 B:Case A 完整结果数据参照

跑完整条分析链后,你的数字应当落在以下范围(基于 N = 500 清洗后样本)。把它当自检锚点:偏离太大,多半是某一环出了错。

指标Case A 标杆值
样本量N = 500(原始 540,剔除 40 份无效)
Cronbach's α (Anxiety)≈ .83
Cronbach's α (Strategy)≈ .88
Cronbach's α (Efficacy)≈ .89
r(Anxiety, Strategy)≈ −.30, p<.001
r(Anxiety, Efficacy)≈ −.26, p<.001
r(Strategy, Efficacy)≈ .42, p<.001
性别差异 t 检验(焦虑)男 M=3.05 / 女 M=3.35, t(498)=−4.32, p<.001, d=−0.39
多元回归 R²≈ .20
Bootstrap 间接效应 ab≈ −.14, 95% CI [−.20, −.09](不含 0,部分中介)
直接效应 c'95% CI [−.22, −.08](仍显著)

说明:上表所有数值取自 Case A 清洗后数据在前序各课(第 24—29 课)的实际输出。性别 t 检验中女生焦虑显著高于男生(d=−0.39,中等效应);中介为部分中介(间接效应 CI 不含 0,且 c' 仍显著)。你自己跑出的数字若与此略有出入,以你的输出为准

💡 跑出来跟标杆值差距太大?

  • 偏离 ±20% 以内 → 正常(随机抽样波动)。
  • 偏离 >50% → 检查清洗步骤,最常见是反向题 Anxiety_4_R 没反转(会让 Anxiety 量表的 α 与相关方向全错)。
  • 完全反方向(如 r 由负变正)→ 必有错误,从清洗日志开始逐步回查,不要手动把数字"改顺眼"

🚀 跨案例 Worked Example:用同一条链解读 Case A 的三个核心结果

参照表给的是"数字范围",但装配中期稿真正要练的是把每个数字翻译成一句关于这批人的话,并让它和上一句逻辑接上。下面以 Case A 结果章的三个核心结果为例,逐项示范"读数 → 翻译 → 串联"——这正是 AI 装配初稿后你要逐句核对的标准。

① 信度(4.2 节)→ 为后续分析"背书"。 读数:Anxiety α≈.83、Strategy α≈.88、Efficacy α≈.89。 翻译:三个量表的内部一致性信度均在 .80 以上,达到良好水平,说明用它们的均分代表对应构念是可靠的。 串联:这一句的作用是为 4.3、4.4 节的回归与中介"背书"——只有先确认量表可靠,后面基于均分的关系检验才站得住。所以信度必须排在假设检验之前。

② 性别差异(可放在 4.1 末或单列)→ 一个完整的差异结论长什么样。 读数:男 M=3.05、女 M=3.35,t(498)=−4.32,p<.001,Cohen's d=−0.39。 翻译:独立样本 t 检验显示,女生的 AI 学习焦虑(M=3.35)显著高于男生(M=3.05),t(498)=−4.32,p<.001;效应量 Cohen's d=−0.39,属小到中等(接近中等,按 Cohen 1988 标准)水平。 串联:注意这句同时报了 p 和 d——p 说明"差异不太可能是偶然",d 说明"差异有多大"。只报 p(如"存在显著差异")会被审稿人退稿,因为读者无法判断这点差异在实际中重不重要。这是第 25 课的硬规范。

③ 中介(4.4 节)→ 横截面下如何谨慎下结论。 读数:间接效应 ab≈−.14,95% CI [−.20, −.09](不含 0);直接效应 c' 的 95% CI [−.22, −.08](仍显著)。 翻译:Bootstrap 中介检验显示,学习策略在"AI 焦虑 → 自我效能"间的间接效应显著(ab≈−.14,95% CI [−.20, −.09],不含 0);同时直接效应 c' 仍然显著,表明学习策略起部分中介作用。 串联:这里有两个易错点。其一,判断中介是否成立看的是间接效应的置信区间是否含 0(不含 0 即显著),而非看某个 p 值;其二,由于 Case A 是横截面数据,所有变量同时测量,无法确立"焦虑先于策略、策略先于效能"的时间先后——因此即便统计上中介成立,结论也只能写成"数据与该中介模型一致 / 学习策略可能起中介作用",绝不能写成"焦虑通过降低策略导致效能下降"。横截面慎称因果,是这一段的红线。

🔍 这个 Worked Example 在示范什么

不是把三个数字抄进段落,而是三件事:每个数字翻译成一句人话;每句话说明它在链条里"承上启下"的作用;在横截面/效应量/置信区间这些地方守住统计纪律。 AI 装配的初稿,要逐句按这三条来核对。


🚀 拆解实战 C:Case B(经管面板)路径指引

Case B 采用 30 省 × 10 年 = 300 观测的面板数据,与 Case A 的横截面问卷有几处关键差异。换的不只是数据,是整条分析链

维度Case ACase B
数据结构问卷自评(横截面,500 人)二手统计年鉴(面板,300 个"省×年"观测)
信效度必须做 Cronbach's α不适用(不是量表,是客观指数)
主分析多元回归 + 中介面板固定效应回归 + 中介 + 稳健性
共线性通常 VIF < 5HumanCap VIF≈8(需关注)、DigEcon≈5.5
异质性性别/年级分组东/中/西地区分组
因果识别横截面只能谈预测面板固定效应可控制"不随时间变化的混淆变量",识别力更强

Case B 主分析推荐工具

  • 通识轨:Jamovi 跑普通 OLS(注意:Jamovi 做不了完整的面板固定效应,只能作近似与教学)。
  • 进阶轨:Python statsmodels / linearmodelsfrom linearmodels.panel import PanelOLS),可做双向固定效应。

Case B 标杆值

指标Case B 标杆值
样本量N = 300(30 省 × 10 年,2014—2023)
均值(量纲不同不可直接比)DigEcon ≈ 72、Innovation ≈ 47
r(DigEcon, Innovation)≈ .94, p<.001(极高)
r(DigEcon, HumanCap)≈ .86, p<.001(极高)
VIFHumanCap ≈ 8、DigEcon ≈ 5.5(需关注,未到严重档)
回归 R²≈ .95(模拟数据偏高,是反面参照,不可当目标

⚠️ Case B 的高相关与高 R² 是"陷阱",不是"成绩"

  • DigEcon 与 Innovation 相关高达 r≈.94、与 HumanCap r≈.86——若不加判断就把它们一起塞进回归,会触发多重共线性(系数不稳、符号可能反转、标准误膨胀)。VIF(HumanCap≈8、DigEcon≈5.5)就是描述阶段就能抓到的预警。
  • R²≈.95 是教学用模拟数据的特征,远高于真实经管研究的常见水平。看到异常漂亮的拟合,第一反应应该是查共线性与数据,而不是庆祝。这与第 24、26 课反复强调的一致:高 R² 常伴隐患。
  • 这些数字必须由你在软件里亲手跑出。回顾第 18 课的红线:你只把"省×年=300、均值约 72/47"这类已知信息交给 AI,它若"顺手"告诉你两变量高度相关或给一个 R²,那就是越界编造

🚀 拆解实战 D:Case C(LLM 评估)路径指引

Case C 采用 300 篇文本 × 3 个模型的被试内对比:同一篇文本分别由三个模型打质量分,列为 Quality_GPT5 / Quality_Claude47 / Quality_Gemini25(各为 Fluency / Accuracy / Coverage 三维的平均,1–5 分)。基准模型固定为 Claude 4.7(即 Quality_Claude47)。关键差异在于数据结构是"配对"而非"独立"

维度Case ACase C
数据结构横截面问卷(个体自评)实验数据(同一篇文本被三模型评分,配对
主分析多元回归配对/重复测量ttest_rel(配对 t)+ Friedman 检验
可靠性指标Cronbach's α(量表内部一致性)ICC(评分者间一致性,inter-rater reliability)
标识列受访者编号Article_ID(PAPER_0001–PAPER_0300)
软件Jamovi / SPSSPython(pingouin 做 ICC / 配对检验)或 Jamovi

Case C 标杆值

指标Case C 标杆值
样本量N = 300 篇文本(每篇 3 个模型评分)
三模型 Quality 差异Friedman 检验显著,p < .001
评分者一致性Claude 的 Accuracy 维由 3 名标注者评,ICC(2,k) ≈ .76(接近可接受)

🔍 Case C 最容易踩的两个错

  1. 误把配对当独立:三列分数指向同一批 300 篇文本,互相配对——比较三模型高低必须用配对/重复测量(ttest_rel、Friedman),误用独立样本 t 检验会高估自由度、夸大显著性。判据见第 22 课"看清数据结构再选方法"。
  2. 把信度指标用错:Case C 不是量表,不能用 Cronbach's α;评"几位标注者评得一不一致"用的是 ICC(2,k)≈.76。这个数字也必须由你在软件里算出,绝不在装配阶段臆造一致性数值
📘 关键术语:ICC 与 Cronbach's α 的分工
  • 组内相关系数(intraclass correlation coefficient, ICC):度量"多个评分者对同一批对象的评分有多一致"。ICC(2,k) 中的 k取 k 名评分者的平均分作为最终分时的可靠性。Case C 中 3 名标注者对 Accuracy 维的 ICC(2,k)≈.76,属"中等偏上、接近可接受"。
  • Cronbach's α:度量"一个量表内多个题项是否测同一构念",用于 Case A 这类问卷。
  • 一句话区分:α 管"题项之间一不一致"(量表),ICC 管"评分者之间一不一致"(评分)。Case C 是评分数据,故用 ICC 而非 α。

跨案例总纲:给一个研究问题,如何排出它的分析链

三条路径指引讲完,把它们抽象成一张可迁移的"点菜单"。拿到任何一个研究问题,按下表逐行自问,就能排出该用哪些方法、按什么顺序——这也是本课思考练习的核心技能。

链条环节自问选择依据三案例分别怎么走
① 数据结构谁、在什么时间、被测了几次?横截面 / 面板 / 配对,决定后面所有方法A 横截面 · B 面板 · C 配对
② 清洗数据干净吗?反向题转了吗?任何分析前必做三者都做(C 注意保持配对结构)
③ 描述数据长什么样?有无离群、偏态?连续变量必看 M/SD/分布三者都做
④ 信/效度测量可靠吗?测的是想测的吗?仅量表数据需要A 做 α(+EFA) · B 不做 · C 做 ICC
⑤ 关系/差异变量间有无关联 / 组间有无差异?由结构定方法A 相关+回归 · B 面板回归 · C 配对/Friedman
⑥ 机制关系是怎么发生的(中介/调节)?有理论支撑才做A 中介 · B 中介+稳健性 · C(视设计)
⑦ 翻译把已算结果写成规范段落AI 仅翻译、不代算三者同一红线

🔁 一句话总纲

结构定方法、前提定顺序、理论定机制、红线定 AI 角色。 任何研究问题,先认它的数据结构(第①行),整条链就基本定型;信/效度(第④行)是量表数据的"专属环节",面板和配对实验各有替代;机制(第⑥行)只在有理论依据时才做;而第⑦行的红线——AI 只翻译、不代算——三案例完全一致。


模块三能力全图:你已经会做什么

这张表是模块三的"能力地图",也是中期稿的装配清单。把 14 课产出逐项对齐,缺哪环回哪课补——注意它的顺序正是"分析链"的顺序

课次关键产出在分析链中的位置自检
18工具安装验证起点(环境就绪)
19变量映射表设计
20问卷草稿设计
21在线问卷链接数据收集
22数据字典(含数据结构判断)清洗准备
23清洗日志(含反向题反转)② 清洗
24描述统计 + 相关矩阵③ 描述
25t 检验 + ANOVA + 效应量⑤ 差异
26多元回归 + VIF + 报告段⑤ 关系
27Cronbach's α(全量表 + 分维度)④ 信度
28EFA 因子分析(若新编量表)④ 效度
29Bootstrap 中介 + 95% CI⑥ 机制
30Results 段落初稿⑦ 翻译
31方法 + 结果完整中期稿全链装配

中期稿:装配得好 vs 装配得砸

同一批碎片,装配出的章节可以是"能投稿"也可以是"被退回"。下面把装配阶段最常见的失分点逐项拆开并排对照——左列是学员真实的高频写法,右列是把同一处"拧紧"后的写法。

维度装配得砸 ❌装配得好 ✅为什么
小节顺序先写回归结果,再补信度严格按"描述 → 信度 → 假设检验 → 中介"递进顺序是前提依赖:信度不过关,回归无意义(见原理)
数字来源让 AI"顺手把相关也算一下"所有数字来自自己软件输出,AI 只搬运一旦让 AI 代算,得到的是幻觉数字,整章作废(红线)
效应量"性别差异显著(p<.001)""女生显著更高,t(498)=−4.32, p<.001, d=−0.39(接近中等)"只报 p 无法判断实际意义,必并报效应量(第 25 课规范)
因果措辞(横截面)"AI 焦虑导致自我效能下降""AI 焦虑负向预测自我效能"Case A 是横截面,无法确立时间先后,慎称因果
中介判读"因为 p<.05 所以中介成立""间接效应 95% CI [−.20,−.09] 不含 0,部分中介"中介看间接效应的置信区间是否含 0,不是看某个 p
跨案例迁移给 Case B 也跑 Cronbach's αCase B 不做 α(非量表),改做 VIF 共线性诊断方法由数据结构决定,量表方法不能套到面板指数上
段落衔接各结果孤立罗列,无过渡每段收尾为下一段铺路(如相关→引出中介)审稿人要读一条叙事,不是一堆输出

💡 一句话判据

检验一份中期稿装配得好不好,问四件事:小节顺序是否合分析链?每个数字是否来自自己的软件(而非 AI 代算)?差异检验有没有并报效应量?横截面有没有误下因果? 四者都过关,这份稿子才从"碎片堆砌"升级成"可投稿的章节"。


常见误区与纠正

模块三复盘阶段,学员的问题高度集中在"乱序装配"和"让 AI 越界"。下表是最高频的几种,照着对号入座即可:

常见误区症状纠正方法
跳过描述直接做回归不看离群点就建模,系数被极端值带偏还不自知严守分析链:清洗 → 描述(看分布/离群)→ 再进检验
乱序:先回归后信度回归都跑完才发现某量表 α=0.4,前功尽弃信效度排在假设检验之前;不可靠的尺子量不出可信结果
让 AI 代算统计量把原始数据丢给 AI,让它"算相关/补个 R²"所有统计量自己在软件跑;AI 只翻译已算输出(见红线)
横截面下了因果Case A 中期稿写"焦虑导致效能下降"横截面只能谈预测/关联;因果需纵向或实验设计支撑
方法套错数据结构给 Case B 面板跑 Cronbach's α;给 Case C 配对数据用独立样本 t先认数据结构再选方法:面板用 VIF、配对用 ttest_rel/ICC
中介只看 p 不看 CI写"间接效应 p<.05 所以中介成立"Bootstrap 中介看间接效应的 95% CI 是否含 0
把高 R² 当成绩看到 Case B 的 R²≈.95 沾沾自喜高 R²(尤其模拟数据)常伴共线性,先查 VIF 与数据

结果不显著 / 装配出错?如何排查与迭代

综合实战阶段,常见三类"不对劲":某环结果缺失或反常、结果不显著与预期不符、AI 装配的初稿不达标。逐类对症排查,不要推倒重来。

  1. 某环结果缺失或数字反常 → 回到对应课补跑,而非在本课"补算"。 中期稿装配到一半发现少一个 VIF、或某量表 α 跑出负值、相关方向反了——几乎都是前面某课没做干净(最常见是反向题 Anxiety_4_R 未反转,会让 Anxiety 的 α 与相关方向全错)。对照"能力全图"定位是哪一环,回到对应课按清洗日志逐步复核。统计量永远不能在装配阶段手动"改顺眼"或让 AI 补一个。
  2. 结果不显著、与假设相反 → 先确认不是数据/方法错,再如实报告。 不显著本身不是失败,但要先排除三类"假阴性":① 清洗错误(离群点、反向题)拉垮了效应;② 方法选错(如对配对数据误用独立检验,或共线性导致系数失真);③ 样本量不足(检验力低)。排除这些后若仍不显著,就如实报告并讨论可能原因(理论边界、测量、样本特征)——编造或反复换方法"凑显著"是学术不端。这与第 25 课"p 值之外必报效应量"一脉相承:哪怕不显著,效应量与置信区间仍提供信息。
  3. AI 初稿不达标(改了数值 / 下了因果 / 乱序)→ 局部纠偏,永远以你的输出为准。
    • 改动或编造了数值 → 最危险,直接弃用该句并追加"严禁改动我粘贴的任何数字,逐字照用";任何与软件输出对不上的数字一律以你的为准。
    • 把横截面写成因果 → 追加"本研究为横截面设计,所有结论只能用预测/关联,禁用导致/证明/影响等因果词"。
    • 打乱了小节顺序 → 追加"严格按 4.1 描述 → 4.2 信效度 → 4.3/4.4 假设检验 → 4.5/4.6 的顺序组织,不得调换"。

一句话

首版不理想,先分清是数据问题(回对应课查清洗)、显著性问题(先排错再如实报告,不凑显著)、还是翻译问题(局部纠偏 AI 初稿)。无论哪种,红线不变:数字只能由你算出,AI 只能翻译,不能代算、不能凑、不能编。


边界与局限:综合实战这一步的能与不能

走完整条分析链,最容易在收尾时松懈。把下面几条边界记牢,比多装配一段文字更重要。

边界 / 失效场景为什么会这样你应该怎么做
横截面慎称因果Case A 所有变量同时测量,无法确立时间先后;相关/中介只反映"相伴变化"结论止于"预测/关联";要因果须纵向追踪或实验设计
面板≠随机实验Case B 固定效应能控"不随时间变的混淆",但控不住时变混淆、反向因果因果话术仍需谨慎,配合工具变量/稳健性检验,并写明前提
p 值 ≠ 效应量大样本下极小差异也会显著;显著不等于重要凡差异/关系,必并报效应量(d / r / R²)与置信区间
相关 ≠ 因果相关、回归系数显著只说明"相伴变化/可预测",给不出机制方向方向与机制由理论与设计决定,不由统计显著性赋予
高 R² 可能是陷阱Case B 模拟数据 R²≈.95 远超真实水平,常伴共线性见高拟合先查 VIF 与数据,不把它当达标线
AI 只能翻译,不能代算大模型不接入你的数据、不做可信计算,让它"算/补"统计量只会得到幻觉所有统计量在软件亲手跑;AI 仅把你粘贴的输出转写成段落

⚠️ 本课红线:AI 翻译已算出的结果,绝不代算或编造统计量

这是贯穿整个量化模块的硬规则,在"综合装配"这一步尤其危险——因为碎片很多、装配很赶,最容易随口让 AI"顺手把某个相关/R²/一致性也算一下"。凡是均值、SD、相关系数、回归系数、R²、p 值、Cohen's d、间接效应 CI、ICC——一律由你在统计软件里算出;AI 的唯一职责是把这些已经算好的数字翻译成符合 APA 的中文段落。任何时候 AI 给出的数字与你的软件输出不一致,以软件输出为准,并视为 AI 出错。把"算"留给软件、把"写"交给 AI、把"判断"留给自己——三者不可混淆。


📦 本课交付物

按本节实操任务完成并提交以下内容,提交 AI 初审,按 Module_Rubrics.md 对应维度评分:

  • [ ] Case A 中期稿:第 3 章方法 + 第 4 章结果(约 3000-4500 字 Word),数字逐一比对过软件输出
  • [ ] 跨案例分析路径表:用"跨案例总纲"那张点菜单,为你的真实研究排出 A/B/C 哪条链(含每步理由)
  • [ ] 模块三能力全图自检表:14 个产出每个标 ☑/⚠️/❌
  • [ ] 统计输出归档:所有 Jamovi/SPSS/Python 输出截图汇总到一个 PDF(供数字溯源)
  • [ ] 四维质检记录:用 Course_QA_Checklists.md(事实/逻辑/格式/引用)核查 AI 装配的初稿,重点查"数字是否被改动、是否出现因果措辞、小节是否乱序"

🏁 本章小结:模块三能力全图

把模块三凝练成可据以复习、也可据以自检的几条要点:

  1. 分析是一条链,不是一堆检验:标准顺序为"清洗 → 描述 → 信效度 → 关系/差异 → 机制 → 翻译"。前一环是后一环的前提,顺序由前提依赖决定,不可乱序或跳步。
  2. 方法由数据结构决定:先认数据是"谁、何时、被测几次"——横截面(Case A,做 α + 回归 + 中介)、面板(Case B,做面板回归 + VIF,不做 α)、配对(Case C,做 ttest_rel/Friedman + ICC,不做独立检验)走三条不同的链。
  3. 统计纪律要守住:差异/关系必并报效应量(p≠效应量);相关≠因果横截面慎称因果;中介看间接效应的 95% CI 是否含 0;高 R²(尤其模拟数据)先查共线性。
  4. 三案例真值锚点:Case A——α≈.83/.88/.89,r 为 −.30/−.26/.42,性别 d=−0.39,R²≈.20,中介 ab≈−.14 [−.20,−.09] 部分中介;Case B——r(DigEcon,Innovation)≈.94、VIF(HumanCap)≈8、R²≈.95(反面参照);Case C——Friedman 显著、ICC(2,k)≈.76。
  5. 装配是排序+串联+翻译:把碎片摆进正确小节、让段落自然过渡、把输出表写成规范段落——不在装配阶段产生任何新数字
  6. 红线贯穿全程:AI 是翻译官,只转写你已算出的结果,绝不代算、不凑显著、不编造。数字对不上时一律以软件输出为准。

自测清单(可保留逐项打勾)

  • [ ] 我能说清"为什么分析是一条有先后依赖的链",并讲出每一环测什么、为何排在该位置。
  • [ ] 给一个新研究问题,我能先判断它的数据结构,再排出该用哪些方法、按什么顺序、每步为何。
  • [ ] 我完成了 Case A 的方法 + 结果中期稿,且数字与标杆值偏离在 ±20% 以内、逐一比对过软件输出。
  • [ ] 我清楚 Case A/B/C 三条链的差异(α vs VIF vs ICC;回归 vs 面板 vs 配对),不会把方法套错数据结构。
  • [ ] 我能讲出本课至少三条边界(横截面慎称因果 / p 值≠效应量 / 高 R² 是陷阱 / AI 不可代算)及对应动作。
  • [ ] 我已完成模块三 14 课全流程产出,做好了进入模块四"论文写作"的准备。

✍️ 思考与练习

下列练习用于把本节概念用起来(区别于"本课交付物"里的任务),建议写在你的本地笔记中。核心技能是:给定一个研究问题,自己排出该用哪些方法、按什么顺序、每步为何。

练习 1(排分析链,紧扣 Case A)。 研究问题:"大学生的 AI 学习焦虑是否会通过削弱学习策略,进而降低学业自我效能感?"数据为 Case A(N=500 横截面问卷,含三个 Likert 量表与反向题 Anxiety_4_R)。请排出从拿到原始数据到能下结论的完整方法顺序,并说明:为什么信度必须排在回归之前?为什么这里只能用中介而非声称因果?

好答案要点:顺序为 清洗(含 Anxiety_4_R 反转)→ 描述(看分布/离群)→ 信度(三量表 α)→ 相关 → 多元回归(H1)→ Bootstrap 中介(H2,看间接效应 CI 是否含 0)→ AI 翻译 Results。信度先于回归,因为量表不可靠则基于其均分的回归无意义(前提依赖)。横截面所有变量同时测量、无法确立时间先后,故即便中介统计成立,也只能写"数据与中介模型一致",不能称"导致"。

练习 2(换数据结构,紧扣 Case B vs Case C)。 同事把 Case A 的分析模板直接套用:对 Case B(30 省×10 年面板)也跑 Cronbach's α,对 Case C(300 篇×3 模型评分)用独立样本 t 检验比较三模型。请分别指出错在哪、应改用什么方法、为什么。

好答案要点:Case B 是客观统计指数、不是量表,不能做 α,应做面板固定效应回归并查 VIF(HumanCap≈8、DigEcon≈5.5)防多重共线性。Case C 三列分数指向同一批 300 篇文本、互相配对,用独立样本 t 会高估自由度、夸大显著性;应改用配对/重复测量(ttest_rel、Friedman),评分者一致性用 ICC(2,k)≈.76 而非 α。核心原则:方法由数据结构决定

练习 3(红线识别,综合三案例)。 装配中期稿时你赶时间,对 AI 说:"这是我三个案例的原始数据,帮我把缺的相关系数、Case B 的 R²、Case C 的 ICC 都算一下,再写成 Results。"它很快给出一段格式完美、数字俱全的文字。请指出这同时踩中本课哪些红线,正确做法是什么。

好答案要点:踩中"让 AI 代算统计量"——大模型不接入数据、不做可信计算,给出的相关/R²/ICC 极可能是幻觉(看似合理实则编造),且 Case B 的高相关/R² 本就是第 18 课明令不可让 AI"顺手给"的。正确做法:相关在第 24 课、Case B R² 在回归课、ICC 用 pingouin 等亲手跑出,再把输出粘给 AI 仅做翻译,并逐一比对、以软件输出为准。

练习 4(结果不显著的处理)。 你用 Case A 跑"性别 × AI 焦虑"对自我效能的调节效应(H3),交互项不显著(p=.18)。一位同学建议"多换几个控制变量组合,总能跑出 p<.05"。请说明:不显著是否等于研究失败?同学的建议错在哪?你应如何处理与报告?

好答案要点:不显著不等于失败,它本身是一条信息(该调节效应在本样本/本设计下证据不足)。同学的建议是凑显著(p-hacking),属学术不端——反复换设定直到 p<.05 会制造假阳性。正确做法:先排除假阴性来源(清洗错误、方法误用、检验力不足);确认无误后如实报告交互不显著,并结合效应量与置信区间讨论可能原因(理论边界、测量、样本特征),而非删改或反复试。

助力学者在 AI 时代极速产出高质量学术成果 · 55 课时双轨制 · plan v3.3