第 31 课：案例综合实战与模块三复盘

🎯 核心实操目标

学习目标：把第 18—30 课产出的全部碎片，组装成 Case A 论文"方法 + 结果"两章的完整中期稿；并能为三类不同研究（Case A 横截面问卷 / Case B 经管面板 / Case C 配对实验）独立排出"该用哪些方法、按什么顺序、每一步为何"。本课是模块三的收尾——做完即可进入模块四"论文写作"，或直接开始撰写自己的真实研究。

📋 课前准备（5 分钟自检）

工具/账号

[ ] Jamovi 2.5+ / SPSS 29+ / Python（你做分析用的统计软件）
[ ] Claude 4.8 Opus（仅用于"学术翻译官"——把已算好的结果转写成段落）
[ ] Word / Markdown 编辑器

数据/素材

[ ] 第 23 课 → 数据清洗日志（含反向题反转记录）
[ ] 第 24 课 → 描述统计 + 相关矩阵
[ ] 第 25 课 → t 检验 / ANOVA 结果（含效应量）
[ ] 第 26 课 → 多元回归结果（含 VIF）
[ ] 第 27 课 → 信度分析（Cronbach's α，全量表 + 分维度）
[ ] 第 28 课 → EFA 探索性因子分析（若新编量表）
[ ] 第 29 课 → Bootstrap 中介结果（含 95% CI）
[ ] 第 30 课 → 各 Results 段落草稿

应急通道

某课结果缺失 → 回到对应课补跑，不要在本课"补算"或让 AI 替你算
各段衔接不顺 → 用 AI"全文一致性"检查（详见第 42 课），但数字一律以你的软件输出为准

场景导入：把碎片拼成章节，是"装配"不是"重做"

经过第 18 课到第 30 课的训练，你手上应该有：一份清洗日志、三份信度报告、一份描述统计表、一份相关矩阵、多个 t 检验/ANOVA/回归输出、一份 Bootstrap 中介结果、多段 Results 草稿。
但它们现在是碎片——审稿人要读的不是一堆零散输出，而是一条能从头读到尾、逻辑自洽的"方法 + 结果"叙事。本课要做的，就是把这些已经算好的碎片装配成符合期刊规范的完整章节。
这里要先立一条贯穿全课的纪律：装配阶段不产生任何新的统计量。所有数字在前面 13 课里已由你在软件里算出；本课只做三件事——排序（哪段先讲）、串联（段与段如何过渡）、翻译（把输出表写成规范段落）。一旦发现某个数字缺失，正确动作是回到对应课补跑，而不是在这一步"顺手算一下"或让 AI 替你补一个——那会直接踩中整个模块的红线。

原理：数据分析为什么是"一条链"，而不是"一堆检验"

很多初学者把统计分析理解成"挑几个看起来高级的检验各跑一遍"。这是模块三最需要纠正的误解。规范的量化研究是一条有先后依赖的链：每一步的产出，是下一步能否成立的前提；顺序错了，后面的结论即使"跑出来了"也不可信。理解这条链的三层逻辑，比记住任何单个检验都重要。

它在测什么——一条从"原始数据"到"可下结论"的递进。 这条链的标准顺序是：清洗（数据是否干净）→ 描述（数据长什么样、有无异常）→ 信效度（测量工具是否可靠、测的是不是想测的东西）→ 关系/差异检验（变量间有无关联、组间有无差异）→ 机制（中介/调节，关系是怎么发生的）→ 翻译（把结果写成规范段落）。每一环回答一个递进的问题，前一环不过关，后一环就没有立足点。
为什么这样做——前提层层向上传递。 参数检验（t、ANOVA、相关、回归）都假设"数据近似正态、无极端离群、测量可靠"。这些前提不是在做回归时才检查的，而是在描述和信效度两步就已经验证过——所以它们必须排在回归之前。一个具体例子：如果信度分析显示某量表 α 只有 0.4（测量极不可靠），那么基于该量表均分做的任何相关、回归都是在"用一把不准的尺子量东西"，结论无效。顺序不是习惯，而是前提依赖。
常见误用——跳步、乱序、或拿后一步结论倒推前一步。 三类高频错误：① 跳过描述直接做回归（不知道有没有离群点就建模，系数被极端值带偏）；② 先做回归、再回头补信度（若信度不过关，回归白做）；③ 拿显著的回归结果去"反推"数据没问题（显著不等于数据干净，垃圾进、垃圾出照样可能显著）。本课的"分析链"正是为了把这三类错误从根上堵住。

📘 关键术语（首次出现，先对齐定义）

分析链（analysis pipeline）：一组有固定先后依赖的统计步骤，前一步的产出是后一步的输入或前提。本课特指"清洗 → 描述 → 信效度 → 关系/差异 → 机制 → 翻译"这条主链。
横截面研究（cross-sectional study）：在同一时间点对一批个体测量多个变量（如 Case A 一次性回收的问卷）。只能观察变量"相伴变化"，先天无法确立时间先后，因此一般只能谈预测/关联，不能直接下因果。
面板数据（panel data）：同一组个体在多个时间点被重复观测（如 Case B 的 30 省 × 10 年）。可用固定效应控制"不随时间变化的混淆变量"，因果识别力强于横截面，但仍非随机实验。
被试内设计 / 配对数据（within-subject / paired data）：同一对象接受多种处理并被多次测量（如 Case C 同一篇文本被三个模型分别评分）。各测量互相配对、非独立，必须用配对/重复测量方法分析。
效应量（effect size）：刻画差异或关联"有多大"的标准化指标（如 Cohen's d、r、R²），与"是否显著"（p 值）回答的是两个不同问题——p 说"差异是否可能由偶然造成"，效应量说"差异在实际中有多大"。
学术翻译官：本模块对 AI 角色的定位——只把你已经算出的统计结果转写成规范段落，绝不代算、绝不编造任何统计量。

📐 为什么三个案例用三条不同的链

同样是"比较 / 找关系"，三个案例的数据结构不同，分析链就必须不同——方法由数据结构决定，不由研究者偏好决定：

Case A（横截面问卷）：个体自评、一次性测量 → 需要信效度（量表是否可靠）+ 多元回归 + 中介，因果话术止于"预测"。
Case B（面板）：同省多年重复观测、二手统计指标 → 不做信度（不是量表），改做面板固定效应回归 + 共线性诊断（VIF），因果识别力更强但仍须谨慎。
Case C（配对实验）：同一对象被多模型评分 → 三列分数互相配对，必须用配对/重复测量（ttest_rel 配对 t 检验、Friedman 检验），评分可靠性用 ICC 而非 Cronbach's α。

记住这条总纲：先看数据是"谁、在什么时间、被测了几次"，再决定用哪条链。 本课后半程的三条路径指引，本质就是这一句话的三次展开。

架构重组：完整章节结构（中期稿）

装配的第一步是搭骨架。下面是 Case A"方法 + 结果"两章的标准结构——注意小节顺序正是上文"分析链"的镜像：方法章按"设计 → 工具 → 程序 → 分析"铺垫，结果章按"描述 → 信效度 → 假设检验 → 机制"递进。

第 3 章研究方法（约 1500-2000 字）

3.1 研究设计与样本(约 300 字)
   - 横截面问卷调查 + 样本来源 + 伦理审查
3.2 测量工具(约 500 字)
   - AI 学习焦虑量表(12 题, 3 维度, α = .83)
   - 学习策略量表(8 题, α = .88)
   - 学业自我效能感量表(7 题, α = .89)
   - 每量表附:来源/维度/样题/信度
3.3 数据收集程序(约 300 字)
   - 问卷星发放 + 回收时间 + 知情同意
   - 清洗规则(剔除标准 + 反向题反转 Anxiety_4_R = 6 − Anxiety_4)
3.4 数据分析方法(约 400 字)
   - 使用 Jamovi 2.5.x / SPSS 29
   - 描述统计 + 相关 + 多元回归 + Bootstrap 中介

第 4 章研究结果（约 1500-2500 字）

4.1 描述统计与初步分析(约 300 字)
   - 样本特征 + 三量表 M/SD/Skew/Kurt + 相关矩阵
4.2 量表信度与效度(约 200 字)
   - 全量表 α + 分维度 α + EFA(如做)
4.3 假设检验 - H1(约 400 字)
   - 多元回归: AI 焦虑 → 自我效能, 控制变量, R² ≈ .20
4.4 假设检验 - H2(约 400 字)
   - Bootstrap 中介: AI 焦虑 → 学习策略 → 自我效能, ab ≈ −.14
4.5 调节效应检验 - H3(约 300 字, 可选)
   - 性别 × AI 焦虑交互项
4.6 稳健性检验(约 200 字, 可选)
   - 替换变量 / 分样本 / Bootstrap 加倍

🔢 这一步只"排序"不"代算"

上面骨架里出现的 α=.83、R²≈.20、ab≈−.14 等数字，都来自你前面课里亲手跑出的输出，此处只是把它们摆进正确的小节位置。本课全程红线：AI 只负责把你已算出的结果翻译成规范段落，绝不替你计算或编造任何统计量（详见【边界与局限】）。

🚀 拆解实战 A：Case A 完整中期稿生成 Prompt

骨架搭好后，把所有碎片产出一次性交给 AI，让它按结构装配成连贯初稿。注意提示词里反复强调的两条铁律——"不重新计算、不修改数字"和"用预测/关联而非导致/决定"——这正是把 AI 锁死在"翻译官"角色的关键。

章节整合提示词（一键复制）

markdown

【角色】严谨的 SSCI 期刊审稿人 + APA 论文编辑。

【背景】我已完成 Case A 数据分析，有以下碎片化产出（逐一粘贴）：
- 清洗日志：原始 540 行 → 清洗后 500 行（含反向题反转）
- 描述统计表（M / SD / 偏度 / 峰度）
- 相关矩阵（含显著性）
- 三个量表的 Cronbach's α
- 多元回归输出（含 R²、各系数、VIF）
- Bootstrap 中介输出（含 ab、95% CI、c'）

【任务】请把上述碎片整合为论文第 3 章"方法"与第 4 章"结果"的完整初稿。

【铁律】
1. 严格遵循 APA 7th 格式。
2. 绝不重新计算、绝不修改我粘贴的任何数字——逐字照用。
3. 每章按上面列出的 6 小节结构组织。
4. 每个分析方法都简短说明"为什么用这个"。
5. 段落自然过渡，避免"首先……其次……最后"式机械列举。
6. 涉及变量关系时一律用"预测/关联"，严禁"导致/决定/证明"等因果词。

【输出】两段连贯的 Markdown 文本（第 3 章 + 第 4 章），约 3000-4500 字。

💡 拿到初稿后必做：逐字比对数字

AI 装配出的初稿，第一件事不是读流畅度，而是把每一个统计量与你的软件输出逐一对照。任何对不上的数字（哪怕只差小数点后一位），一律以你的输出为准，并视为 AI 出错。这是"翻译官"模式下唯一不能省的核验步骤。

🚀 拆解实战 B：Case A 完整结果数据参照

跑完整条分析链后，你的数字应当落在以下范围（基于 N = 500 清洗后样本）。把它当自检锚点：偏离太大，多半是某一环出了错。

指标	Case A 标杆值
样本量	N = 500（原始 540，剔除 40 份无效）
Cronbach's α (Anxiety)	≈ .83
Cronbach's α (Strategy)	≈ .88
Cronbach's α (Efficacy)	≈ .89
r(Anxiety, Strategy)	≈ −.30, p<.001
r(Anxiety, Efficacy)	≈ −.26, p<.001
r(Strategy, Efficacy)	≈ .42, p<.001
性别差异 t 检验（焦虑）	男 M=3.05 / 女 M=3.35, t(498)=−4.32, p<.001, d=−0.39
多元回归 R²	≈ .20
Bootstrap 间接效应 ab	≈ −.14, 95% CI [−.20, −.09]（不含 0，部分中介）
直接效应 c'	95% CI [−.22, −.08]（仍显著）

说明：上表所有数值取自 Case A 清洗后数据在前序各课（第 24—29 课）的实际输出。性别 t 检验中女生焦虑显著高于男生（d=−0.39，中等效应）；中介为部分中介（间接效应 CI 不含 0，且 c' 仍显著）。你自己跑出的数字若与此略有出入，以你的输出为准。

💡 跑出来跟标杆值差距太大？

偏离 ±20% 以内 → 正常（随机抽样波动）。
偏离 >50% → 检查清洗步骤，最常见是反向题 Anxiety_4_R 没反转（会让 Anxiety 量表的 α 与相关方向全错）。
完全反方向（如 r 由负变正）→ 必有错误，从清洗日志开始逐步回查，不要手动把数字"改顺眼"。

🚀 跨案例 Worked Example：用同一条链解读 Case A 的三个核心结果

参照表给的是"数字范围"，但装配中期稿真正要练的是把每个数字翻译成一句关于这批人的话，并让它和上一句逻辑接上。下面以 Case A 结果章的三个核心结果为例，逐项示范"读数 → 翻译 → 串联"——这正是 AI 装配初稿后你要逐句核对的标准。

① 信度（4.2 节）→ 为后续分析"背书"。 读数：Anxiety α≈.83、Strategy α≈.88、Efficacy α≈.89。翻译：三个量表的内部一致性信度均在 .80 以上，达到良好水平，说明用它们的均分代表对应构念是可靠的。串联：这一句的作用是为 4.3、4.4 节的回归与中介"背书"——只有先确认量表可靠，后面基于均分的关系检验才站得住。所以信度必须排在假设检验之前。

② 性别差异（可放在 4.1 末或单列）→ 一个完整的差异结论长什么样。 读数：男 M=3.05、女 M=3.35，t(498)=−4.32，p<.001，Cohen's d=−0.39。翻译：独立样本 t 检验显示，女生的 AI 学习焦虑（M=3.35）显著高于男生（M=3.05），t(498)=−4.32，p<.001；效应量 Cohen's d=−0.39，属小到中等（接近中等，按 Cohen 1988 标准）水平。串联：注意这句同时报了 p 和 d——p 说明"差异不太可能是偶然"，d 说明"差异有多大"。只报 p（如"存在显著差异"）会被审稿人退稿，因为读者无法判断这点差异在实际中重不重要。这是第 25 课的硬规范。

③ 中介（4.4 节）→ 横截面下如何谨慎下结论。 读数：间接效应 ab≈−.14，95% CI [−.20, −.09]（不含 0）；直接效应 c' 的 95% CI [−.22, −.08]（仍显著）。翻译：Bootstrap 中介检验显示，学习策略在"AI 焦虑 → 自我效能"间的间接效应显著（ab≈−.14，95% CI [−.20, −.09]，不含 0）；同时直接效应 c' 仍然显著，表明学习策略起部分中介作用。串联：这里有两个易错点。其一，判断中介是否成立看的是间接效应的置信区间是否含 0（不含 0 即显著），而非看某个 p 值；其二，由于 Case A 是横截面数据，所有变量同时测量，无法确立"焦虑先于策略、策略先于效能"的时间先后——因此即便统计上中介成立，结论也只能写成"数据与该中介模型一致 / 学习策略可能起中介作用"，绝不能写成"焦虑通过降低策略导致效能下降"。横截面慎称因果，是这一段的红线。

🔍 这个 Worked Example 在示范什么

不是把三个数字抄进段落，而是三件事：每个数字翻译成一句人话；每句话说明它在链条里"承上启下"的作用；在横截面/效应量/置信区间这些地方守住统计纪律。 AI 装配的初稿，要逐句按这三条来核对。

🚀 拆解实战 C：Case B（经管面板）路径指引

Case B 采用 30 省 × 10 年 = 300 观测的面板数据，与 Case A 的横截面问卷有几处关键差异。换的不只是数据，是整条分析链：

维度	Case A	Case B
数据结构	问卷自评（横截面，500 人）	二手统计年鉴（面板，300 个"省×年"观测）
信效度	必须做 Cronbach's α	不适用（不是量表，是客观指数）
主分析	多元回归 + 中介	面板固定效应回归 + 中介 + 稳健性
共线性	通常 VIF < 5	HumanCap VIF≈8（需关注）、DigEcon≈5.5
异质性	性别/年级分组	东/中/西地区分组
因果识别	横截面只能谈预测	面板固定效应可控制"不随时间变化的混淆变量"，识别力更强

Case B 主分析推荐工具

通识轨：Jamovi 跑普通 OLS（注意：Jamovi 做不了完整的面板固定效应，只能作近似与教学）。
进阶轨：Python statsmodels / linearmodels（from linearmodels.panel import PanelOLS），可做双向固定效应。

Case B 标杆值

指标	Case B 标杆值
样本量	N = 300（30 省 × 10 年，2014—2023）
均值（量纲不同不可直接比）	DigEcon ≈ 72、Innovation ≈ 47
r(DigEcon, Innovation)	≈ .94, p<.001（极高）
r(DigEcon, HumanCap)	≈ .86, p<.001（极高）
VIF	HumanCap ≈ 8、DigEcon ≈ 5.5（需关注，未到严重档）
回归 R²	≈ .95（模拟数据偏高，是反面参照，不可当目标）

⚠️ Case B 的高相关与高 R² 是"陷阱"，不是"成绩"

DigEcon 与 Innovation 相关高达 r≈.94、与 HumanCap r≈.86——若不加判断就把它们一起塞进回归，会触发多重共线性（系数不稳、符号可能反转、标准误膨胀）。VIF（HumanCap≈8、DigEcon≈5.5）就是描述阶段就能抓到的预警。
R²≈.95 是教学用模拟数据的特征，远高于真实经管研究的常见水平。看到异常漂亮的拟合，第一反应应该是查共线性与数据，而不是庆祝。这与第 24、26 课反复强调的一致：高 R² 常伴隐患。
这些数字必须由你在软件里亲手跑出。回顾第 18 课的红线：你只把"省×年=300、均值约 72/47"这类已知信息交给 AI，它若"顺手"告诉你两变量高度相关或给一个 R²，那就是越界编造。

🚀 拆解实战 D：Case C（LLM 评估）路径指引

Case C 采用 300 篇文本 × 3 个模型的被试内对比：同一篇文本分别由三个模型打质量分，列为 Quality_GPT5 / Quality_Claude47 / Quality_Gemini25（各为 Fluency / Accuracy / Coverage 三维的平均，1–5 分）。基准模型固定为 Claude 4.7（即 Quality_Claude47）。关键差异在于数据结构是"配对"而非"独立"：

维度	Case A	Case C
数据结构	横截面问卷（个体自评）	实验数据（同一篇文本被三模型评分，配对）
主分析	多元回归	配对/重复测量：`ttest_rel`（配对 t）+ Friedman 检验
可靠性指标	Cronbach's α（量表内部一致性）	ICC（评分者间一致性，inter-rater reliability）
标识列	受访者编号	`Article_ID`（PAPER_0001–PAPER_0300）
软件	Jamovi / SPSS	Python（`pingouin` 做 ICC / 配对检验）或 Jamovi

Case C 标杆值

指标	Case C 标杆值
样本量	N = 300 篇文本（每篇 3 个模型评分）
三模型 Quality 差异	Friedman 检验显著，p < .001
评分者一致性	Claude 的 Accuracy 维由 3 名标注者评，ICC(2,k) ≈ .76（接近可接受）

🔍 Case C 最容易踩的两个错

误把配对当独立：三列分数指向同一批 300 篇文本，互相配对——比较三模型高低必须用配对/重复测量（ttest_rel、Friedman），误用独立样本 t 检验会高估自由度、夸大显著性。判据见第 22 课"看清数据结构再选方法"。
把信度指标用错：Case C 不是量表，不能用 Cronbach's α；评"几位标注者评得一不一致"用的是 ICC(2,k)≈.76。这个数字也必须由你在软件里算出，绝不在装配阶段臆造一致性数值。

📘 关键术语：ICC 与 Cronbach's α 的分工

组内相关系数（intraclass correlation coefficient, ICC）：度量"多个评分者对同一批对象的评分有多一致"。ICC(2,k) 中的 k 指取 k 名评分者的平均分作为最终分时的可靠性。Case C 中 3 名标注者对 Accuracy 维的 ICC(2,k)≈.76，属"中等偏上、接近可接受"。
Cronbach's α：度量"一个量表内多个题项是否测同一构念"，用于 Case A 这类问卷。
一句话区分：α 管"题项之间一不一致"（量表），ICC 管"评分者之间一不一致"（评分）。Case C 是评分数据，故用 ICC 而非 α。

跨案例总纲：给一个研究问题，如何排出它的分析链

三条路径指引讲完，把它们抽象成一张可迁移的"点菜单"。拿到任何一个研究问题，按下表逐行自问，就能排出该用哪些方法、按什么顺序——这也是本课思考练习的核心技能。

链条环节	自问	选择依据	三案例分别怎么走
① 数据结构	谁、在什么时间、被测了几次？	横截面 / 面板 / 配对，决定后面所有方法	A 横截面 · B 面板 · C 配对
② 清洗	数据干净吗？反向题转了吗？	任何分析前必做	三者都做（C 注意保持配对结构）
③ 描述	数据长什么样？有无离群、偏态？	连续变量必看 M/SD/分布	三者都做
④ 信/效度	测量可靠吗？测的是想测的吗？	仅量表数据需要	A 做 α(+EFA) · B 不做 · C 做 ICC
⑤ 关系/差异	变量间有无关联 / 组间有无差异？	由结构定方法	A 相关+回归 · B 面板回归 · C 配对/Friedman
⑥ 机制	关系是怎么发生的（中介/调节）？	有理论支撑才做	A 中介 · B 中介+稳健性 · C（视设计）
⑦ 翻译	把已算结果写成规范段落	AI 仅翻译、不代算	三者同一红线

🔁 一句话总纲

结构定方法、前提定顺序、理论定机制、红线定 AI 角色。 任何研究问题，先认它的数据结构（第①行），整条链就基本定型；信/效度（第④行）是量表数据的"专属环节"，面板和配对实验各有替代；机制（第⑥行）只在有理论依据时才做；而第⑦行的红线——AI 只翻译、不代算——三案例完全一致。

模块三能力全图：你已经会做什么

这张表是模块三的"能力地图"，也是中期稿的装配清单。把 14 课产出逐项对齐，缺哪环回哪课补——注意它的顺序正是"分析链"的顺序。

课次	关键产出	在分析链中的位置	自检
18	工具安装验证	起点（环境就绪）	☐
19	变量映射表	设计	☐
20	问卷草稿	设计	☐
21	在线问卷链接	数据收集	☐
22	数据字典（含数据结构判断）	清洗准备	☐
23	清洗日志（含反向题反转）	② 清洗	☐
24	描述统计 + 相关矩阵	③ 描述	☐
25	t 检验 + ANOVA + 效应量	⑤ 差异	☐
26	多元回归 + VIF + 报告段	⑤ 关系	☐
27	Cronbach's α（全量表 + 分维度）	④ 信度	☐
28	EFA 因子分析（若新编量表）	④ 效度	☐
29	Bootstrap 中介 + 95% CI	⑥ 机制	☐
30	Results 段落初稿	⑦ 翻译	☐
31	方法 + 结果完整中期稿	全链装配	☐

中期稿：装配得好 vs 装配得砸

同一批碎片，装配出的章节可以是"能投稿"也可以是"被退回"。下面把装配阶段最常见的失分点逐项拆开并排对照——左列是学员真实的高频写法，右列是把同一处"拧紧"后的写法。

维度	装配得砸 ❌	装配得好 ✅	为什么
小节顺序	先写回归结果，再补信度	严格按"描述 → 信度 → 假设检验 → 中介"递进	顺序是前提依赖：信度不过关，回归无意义（见原理）
数字来源	让 AI"顺手把相关也算一下"	所有数字来自自己软件输出，AI 只搬运	一旦让 AI 代算，得到的是幻觉数字，整章作废（红线）
效应量	"性别差异显著（p<.001）"	"女生显著更高，t(498)=−4.32, p<.001, d=−0.39（接近中等）"	只报 p 无法判断实际意义，必并报效应量（第 25 课规范）
因果措辞（横截面）	"AI 焦虑导致自我效能下降"	"AI 焦虑负向预测自我效能"	Case A 是横截面，无法确立时间先后，慎称因果
中介判读	"因为 p<.05 所以中介成立"	"间接效应 95% CI [−.20,−.09] 不含 0，部分中介"	中介看间接效应的置信区间是否含 0，不是看某个 p
跨案例迁移	给 Case B 也跑 Cronbach's α	Case B 不做 α（非量表），改做 VIF 共线性诊断	方法由数据结构决定，量表方法不能套到面板指数上
段落衔接	各结果孤立罗列，无过渡	每段收尾为下一段铺路（如相关→引出中介）	审稿人要读一条叙事，不是一堆输出

💡 一句话判据

检验一份中期稿装配得好不好，问四件事：小节顺序是否合分析链？每个数字是否来自自己的软件（而非 AI 代算）？差异检验有没有并报效应量？横截面有没有误下因果？ 四者都过关，这份稿子才从"碎片堆砌"升级成"可投稿的章节"。

常见误区与纠正

模块三复盘阶段，学员的问题高度集中在"乱序装配"和"让 AI 越界"。下表是最高频的几种，照着对号入座即可：

常见误区	症状	纠正方法
跳过描述直接做回归	不看离群点就建模，系数被极端值带偏还不自知	严守分析链：清洗 → 描述（看分布/离群）→ 再进检验
乱序：先回归后信度	回归都跑完才发现某量表 α=0.4，前功尽弃	信效度排在假设检验之前；不可靠的尺子量不出可信结果
让 AI 代算统计量	把原始数据丢给 AI，让它"算相关/补个 R²"	所有统计量自己在软件跑；AI 只翻译已算输出（见红线）
横截面下了因果	Case A 中期稿写"焦虑导致效能下降"	横截面只能谈预测/关联；因果需纵向或实验设计支撑
方法套错数据结构	给 Case B 面板跑 Cronbach's α；给 Case C 配对数据用独立样本 t	先认数据结构再选方法：面板用 VIF、配对用 `ttest_rel`/ICC
中介只看 p 不看 CI	写"间接效应 p<.05 所以中介成立"	Bootstrap 中介看间接效应的 95% CI 是否含 0
把高 R² 当成绩	看到 Case B 的 R²≈.95 沾沾自喜	高 R²（尤其模拟数据）常伴共线性，先查 VIF 与数据

结果不显著 / 装配出错？如何排查与迭代

综合实战阶段，常见三类"不对劲"：某环结果缺失或反常、结果不显著与预期不符、AI 装配的初稿不达标。逐类对症排查，不要推倒重来。

某环结果缺失或数字反常 → 回到对应课补跑，而非在本课"补算"。 中期稿装配到一半发现少一个 VIF、或某量表 α 跑出负值、相关方向反了——几乎都是前面某课没做干净（最常见是反向题 Anxiety_4_R 未反转，会让 Anxiety 的 α 与相关方向全错）。对照"能力全图"定位是哪一环，回到对应课按清洗日志逐步复核。统计量永远不能在装配阶段手动"改顺眼"或让 AI 补一个。
结果不显著、与假设相反 → 先确认不是数据/方法错，再如实报告。 不显著本身不是失败，但要先排除三类"假阴性"：① 清洗错误（离群点、反向题）拉垮了效应；② 方法选错（如对配对数据误用独立检验，或共线性导致系数失真）；③ 样本量不足（检验力低）。排除这些后若仍不显著，就如实报告并讨论可能原因（理论边界、测量、样本特征）——编造或反复换方法"凑显著"是学术不端。这与第 25 课"p 值之外必报效应量"一脉相承：哪怕不显著，效应量与置信区间仍提供信息。
AI 初稿不达标（改了数值 / 下了因果 / 乱序）→ 局部纠偏，永远以你的输出为准。
- 它改动或编造了数值 → 最危险，直接弃用该句并追加"严禁改动我粘贴的任何数字，逐字照用"；任何与软件输出对不上的数字一律以你的为准。
- 它把横截面写成因果 → 追加"本研究为横截面设计，所有结论只能用预测/关联，禁用导致/证明/影响等因果词"。
- 它打乱了小节顺序 → 追加"严格按 4.1 描述 → 4.2 信效度 → 4.3/4.4 假设检验 → 4.5/4.6 的顺序组织，不得调换"。

一句话

首版不理想，先分清是数据问题（回对应课查清洗）、显著性问题（先排错再如实报告，不凑显著）、还是翻译问题（局部纠偏 AI 初稿）。无论哪种，红线不变：数字只能由你算出，AI 只能翻译，不能代算、不能凑、不能编。

边界与局限：综合实战这一步的能与不能

走完整条分析链，最容易在收尾时松懈。把下面几条边界记牢，比多装配一段文字更重要。

边界 / 失效场景	为什么会这样	你应该怎么做
横截面慎称因果	Case A 所有变量同时测量，无法确立时间先后；相关/中介只反映"相伴变化"	结论止于"预测/关联"；要因果须纵向追踪或实验设计
面板≠随机实验	Case B 固定效应能控"不随时间变的混淆"，但控不住时变混淆、反向因果	因果话术仍需谨慎，配合工具变量/稳健性检验，并写明前提
p 值 ≠ 效应量	大样本下极小差异也会显著；显著不等于重要	凡差异/关系，必并报效应量（d / r / R²）与置信区间
相关 ≠ 因果	相关、回归系数显著只说明"相伴变化/可预测"，给不出机制方向	方向与机制由理论与设计决定，不由统计显著性赋予
高 R² 可能是陷阱	Case B 模拟数据 R²≈.95 远超真实水平，常伴共线性	见高拟合先查 VIF 与数据，不把它当达标线
AI 只能翻译，不能代算	大模型不接入你的数据、不做可信计算，让它"算/补"统计量只会得到幻觉	所有统计量在软件亲手跑；AI 仅把你粘贴的输出转写成段落

⚠️ 本课红线：AI 翻译已算出的结果，绝不代算或编造统计量

这是贯穿整个量化模块的硬规则，在"综合装配"这一步尤其危险——因为碎片很多、装配很赶，最容易随口让 AI"顺手把某个相关/R²/一致性也算一下"。凡是均值、SD、相关系数、回归系数、R²、p 值、Cohen's d、间接效应 CI、ICC——一律由你在统计软件里算出；AI 的唯一职责是把这些已经算好的数字翻译成符合 APA 的中文段落。任何时候 AI 给出的数字与你的软件输出不一致，以软件输出为准，并视为 AI 出错。把"算"留给软件、把"写"交给 AI、把"判断"留给自己——三者不可混淆。

📦 本课交付物

按本节实操任务完成并提交以下内容，提交 AI 初审，按 Module_Rubrics.md 对应维度评分：

[ ] Case A 中期稿：第 3 章方法 + 第 4 章结果（约 3000-4500 字 Word），数字逐一比对过软件输出
[ ] 跨案例分析路径表：用"跨案例总纲"那张点菜单，为你的真实研究排出 A/B/C 哪条链（含每步理由）
[ ] 模块三能力全图自检表：14 个产出每个标 ☑/⚠️/❌
[ ] 统计输出归档：所有 Jamovi/SPSS/Python 输出截图汇总到一个 PDF（供数字溯源）
[ ] 四维质检记录：用 Course_QA_Checklists.md（事实/逻辑/格式/引用）核查 AI 装配的初稿，重点查"数字是否被改动、是否出现因果措辞、小节是否乱序"

🏁 本章小结：模块三能力全图

把模块三凝练成可据以复习、也可据以自检的几条要点：

分析是一条链，不是一堆检验：标准顺序为"清洗 → 描述 → 信效度 → 关系/差异 → 机制 → 翻译"。前一环是后一环的前提，顺序由前提依赖决定，不可乱序或跳步。
方法由数据结构决定：先认数据是"谁、何时、被测几次"——横截面（Case A，做 α + 回归 + 中介）、面板（Case B，做面板回归 + VIF，不做 α）、配对（Case C，做 ttest_rel/Friedman + ICC，不做独立检验）走三条不同的链。
统计纪律要守住：差异/关系必并报效应量（p≠效应量）；相关≠因果，横截面慎称因果；中介看间接效应的 95% CI 是否含 0；高 R²（尤其模拟数据）先查共线性。
三案例真值锚点：Case A——α≈.83/.88/.89，r 为 −.30/−.26/.42，性别 d=−0.39，R²≈.20，中介 ab≈−.14 [−.20,−.09] 部分中介；Case B——r(DigEcon,Innovation)≈.94、VIF(HumanCap)≈8、R²≈.95（反面参照）；Case C——Friedman 显著、ICC(2,k)≈.76。
装配是排序+串联+翻译：把碎片摆进正确小节、让段落自然过渡、把输出表写成规范段落——不在装配阶段产生任何新数字。
红线贯穿全程：AI 是翻译官，只转写你已算出的结果，绝不代算、不凑显著、不编造。数字对不上时一律以软件输出为准。

自测清单（可保留逐项打勾）

[ ] 我能说清"为什么分析是一条有先后依赖的链"，并讲出每一环测什么、为何排在该位置。
[ ] 给一个新研究问题，我能先判断它的数据结构，再排出该用哪些方法、按什么顺序、每步为何。
[ ] 我完成了 Case A 的方法 + 结果中期稿，且数字与标杆值偏离在 ±20% 以内、逐一比对过软件输出。
[ ] 我清楚 Case A/B/C 三条链的差异（α vs VIF vs ICC；回归 vs 面板 vs 配对），不会把方法套错数据结构。
[ ] 我能讲出本课至少三条边界（横截面慎称因果 / p 值≠效应量 / 高 R² 是陷阱 / AI 不可代算）及对应动作。
[ ] 我已完成模块三 14 课全流程产出，做好了进入模块四"论文写作"的准备。

✍️ 思考与练习

下列练习用于把本节概念用起来（区别于"本课交付物"里的任务），建议写在你的本地笔记中。核心技能是：给定一个研究问题，自己排出该用哪些方法、按什么顺序、每步为何。

练习 1（排分析链，紧扣 Case A）。 研究问题："大学生的 AI 学习焦虑是否会通过削弱学习策略，进而降低学业自我效能感？"数据为 Case A（N=500 横截面问卷，含三个 Likert 量表与反向题 Anxiety_4_R）。请排出从拿到原始数据到能下结论的完整方法顺序，并说明：为什么信度必须排在回归之前？为什么这里只能用中介而非声称因果？

好答案要点：顺序为清洗（含 Anxiety_4_R 反转）→ 描述（看分布/离群）→ 信度（三量表 α）→ 相关 → 多元回归（H1）→ Bootstrap 中介（H2，看间接效应 CI 是否含 0）→ AI 翻译 Results。信度先于回归，因为量表不可靠则基于其均分的回归无意义（前提依赖）。横截面所有变量同时测量、无法确立时间先后，故即便中介统计成立，也只能写"数据与中介模型一致"，不能称"导致"。

练习 2（换数据结构，紧扣 Case B vs Case C）。 同事把 Case A 的分析模板直接套用：对 Case B（30 省×10 年面板）也跑 Cronbach's α，对 Case C（300 篇×3 模型评分）用独立样本 t 检验比较三模型。请分别指出错在哪、应改用什么方法、为什么。

好答案要点：Case B 是客观统计指数、不是量表，不能做 α，应做面板固定效应回归并查 VIF（HumanCap≈8、DigEcon≈5.5）防多重共线性。Case C 三列分数指向同一批 300 篇文本、互相配对，用独立样本 t 会高估自由度、夸大显著性；应改用配对/重复测量（ttest_rel、Friedman），评分者一致性用 ICC(2,k)≈.76 而非 α。核心原则：方法由数据结构决定。

练习 3（红线识别，综合三案例）。 装配中期稿时你赶时间，对 AI 说："这是我三个案例的原始数据，帮我把缺的相关系数、Case B 的 R²、Case C 的 ICC 都算一下，再写成 Results。"它很快给出一段格式完美、数字俱全的文字。请指出这同时踩中本课哪些红线，正确做法是什么。

好答案要点：踩中"让 AI 代算统计量"——大模型不接入数据、不做可信计算，给出的相关/R²/ICC 极可能是幻觉（看似合理实则编造），且 Case B 的高相关/R² 本就是第 18 课明令不可让 AI"顺手给"的。正确做法：相关在第 24 课、Case B R² 在回归课、ICC 用 pingouin 等亲手跑出，再把输出粘给 AI 仅做翻译，并逐一比对、以软件输出为准。

练习 4（结果不显著的处理）。 你用 Case A 跑"性别 × AI 焦虑"对自我效能的调节效应（H3），交互项不显著（p=.18）。一位同学建议"多换几个控制变量组合，总能跑出 p<.05"。请说明：不显著是否等于研究失败？同学的建议错在哪？你应如何处理与报告？

好答案要点：不显著不等于失败，它本身是一条信息（该调节效应在本样本/本设计下证据不足）。同学的建议是凑显著（p-hacking），属学术不端——反复换设定直到 p<.05 会制造假阳性。正确做法：先排除假阴性来源（清洗错误、方法误用、检验力不足）；确认无误后如实报告交互不显著，并结合效应量与置信区间讨论可能原因（理论边界、测量、样本特征），而非删改或反复试。

第 31 课：案例综合实战与模块三复盘 ​

📋 课前准备（5 分钟自检） ​

工具/账号 ​

数据/素材 ​

应急通道 ​

场景导入：把碎片拼成章节，是"装配"不是"重做" ​

原理：数据分析为什么是"一条链"，而不是"一堆检验" ​

架构重组：完整章节结构（中期稿） ​

第 3 章 研究方法（约 1500-2000 字） ​

第 4 章 研究结果（约 1500-2500 字） ​

🚀 拆解实战 A：Case A 完整中期稿生成 Prompt ​

🚀 拆解实战 B：Case A 完整结果数据参照 ​

🚀 跨案例 Worked Example：用同一条链解读 Case A 的三个核心结果 ​

🚀 拆解实战 C：Case B（经管面板）路径指引 ​

Case B 主分析推荐工具 ​

Case B 标杆值 ​

🚀 拆解实战 D：Case C（LLM 评估）路径指引 ​

Case C 标杆值 ​

跨案例总纲：给一个研究问题，如何排出它的分析链 ​

模块三能力全图：你已经会做什么 ​

中期稿：装配得好 vs 装配得砸 ​

常见误区与纠正 ​

结果不显著 / 装配出错？如何排查与迭代 ​

边界与局限：综合实战这一步的能与不能 ​

📦 本课交付物 ​

🏁 本章小结：模块三能力全图 ​

自测清单（可保留逐项打勾） ​

✍️ 思考与练习 ​