第 24 课：描述统计与图表

🎯 核心实操目标

学习目标：跑出完整的描述统计（频数/百分比/均值/SD/偏度/峰度）+ 制作 APA 规范的描述统计三线表 + 学术级图表（柱状/直方/箱线/折线）。本课你将用 Case A 数据完成符合 SSCI 投稿水准的描述统计章节。

📋 课前准备（5 分钟自检）

工具/账号

[ ] Jamovi 2.5+ 或 SPSS 29+
[ ] Excel / WPS（图表精修）
[ ] GPT-5 / Claude 4.8（AI 辅助生成描述性文字）

数据/素材

[ ] 第 23 课清洗后的 case_A_cleaned.csv（N≈500）
[ ] 数据字典（明确每个变量类型）

应急通道

Jamovi 直出图不够美 → 把数据复制到 Excel 重绘
三线表 Word 不会做 → 用 Markdown 表格写好再粘进 Word

场景导入：描述统计不是“报数字”，而是“给后续分析定调”

论文 Results 的第一段，常见的一种写法是：“本研究有效样本共 416 人，其中男性 200 人、女性 216 人，平均年龄 22 岁。”——然后段落就结束了。审稿人读到这里，通常会留下一句批注：“然后呢？这组数字说明了什么？”
问题不在于这些数字是错的，而在于它们只完成了“呈现”，没有完成“解读”。规范的描述统计承担三项任务：① 交代样本的构成与代表性；② 报告核心变量处于什么水平（偏高、中等还是偏低）、分布是否接近正态；③ 给出变量间的相关情况，为后续的回归或差异检验做铺垫。
可以把描述统计理解为正式分析的“地基勘察”：在动用 t 检验、回归这些重型工具之前，先把数据的形状、异常与变量间的初步关系看清楚。一段合格的描述统计 = 数字 + 解读 + 自然引出下一步分析。

本课的三项产出

整节课围绕三件交付物展开，对应描述统计在论文中的标准结构：

产出	内容	报告形式
① 样本特征（demographics）	N、性别比、年龄、年级分布	文字 + 频数表
② 核心变量描述	均值 / 标准差 / 偏度 / 峰度 / 最小值 / 最大值	APA 三线表
③ 相关矩阵（为回归铺垫）	变量间 Pearson r + 显著性	APA 相关矩阵表

原理：分析之前，为什么必须先“看描述”

在套用任何统计检验之前，先理解一件事：描述统计不是论文的“开场客套”，而是决定后续分析能否成立的前置检查。 跳过它直接做 t 检验、回归，等于在没勘察地基的地块上盖楼。可以从三个角度理解“为什么先看描述”。

它在测什么——数据的集中趋势、离散程度与分布形状。 均值（mean）刻画数据的中心位置，标准差（SD）刻画数据围绕中心的离散程度，偏度（skewness）与峰度（kurtosis）刻画分布偏离正态钟形的方向与程度。这四个量合起来回答一个问题：“这组数据长什么样？”——而几乎所有参数检验（t 检验、ANOVA、Pearson 相关、回归）都对“数据长什么样”有前提要求，最常见的就是近似正态与无极端离群值。
为什么这样做——先排雷，再分析。 描述阶段最该揪出的是两类问题：一是录入或编码错误（如某题出现 6 分、年龄出现 99，超出量表/合理范围），二是分布严重偏态或离群点。这两类问题若带进正式分析，会让 t 值、回归系数严重失真，而事后往往很难察觉。先看描述，相当于在分析前做一遍体检。
常见误用——只报均值、不看分布。 最典型的错误是“均值掩盖一切”：两组数据均值相同，分布可能天差地别（一组集中、一组两极分化）。只盯着 M 而不看 SD、不画直方图，会把重要的分布信息整段丢掉——这正是本课【边界与局限】反复强调的“先看图，再下结论”。

📘 关键术语（首次出现，先对齐定义）

描述统计（descriptive statistics）：用少量数字或图形概括一批数据的整体特征（中心、离散、形状），区别于推断统计（inferential statistics）——后者用样本去推断总体、做显著性检验。
均值（mean, M）：所有取值之和除以个数，反映数据的中心位置。对极端值敏感，离群点会把均值“拉走”。
标准差（standard deviation, SD）：各取值偏离均值的平均离散程度，单位与原变量相同。SD 越大，数据越分散。
偏度（skewness）：分布的不对称程度。偏度为正（右偏）表示长尾拖向高值端，为负（左偏）表示长尾拖向低值端，为 0 表示左右对称。
峰度（kurtosis）：分布尾部的厚薄与峰的尖平。统计软件（含 Jamovi/SPSS）默认报告超额峰度（excess kurtosis），即以正态分布为基准（正态的超额峰度=0）；正值表示比正态更尖、尾更厚（易出现离群值），负值表示更平。
直方图（histogram）：把连续变量分箱后画出的频数柱状图，用来直观判断分布形状、偏态与是否多峰——是“看分布”最直接的工具。
频数表（frequency table）：分类变量各类别的计数（N）与百分比（%），用于报告样本的人口结构。

实操一：样本特征报告（文字 + 频数表）

样本特征段回答审稿人的第一个问题：“你研究的是谁？”分类变量（性别、年级、专业大类）用频数与百分比报告，连续变量（年龄）用均值与标准差报告。

Jamovi 操作

Exploration → Descriptives → 选 Gender / Grade / Major_Category
在 Statistics 中勾选 Frequency tables
跑出每类的 N 和 %；把 Age 也拖进来，勾选 Mean / Std deviation

🔢 这一步只“读取”不“代算”

下面文字写法里的所有数字，都必须来自你在 Jamovi 里亲手跑出的输出。本课全程的红线是：AI 只负责把你已算出的结果翻译成规范段落，绝不替你计算或编造任何统计量（详见下文实操五与【边界与局限】）。

标准文字写法

本研究有效样本共 500 人(原始 N=540,经清洗剔除 40 份无效问卷,详见 3.4 节)。
其中男性 240 人(48.0%),女性 260 人(52.0%);
年龄范围 18-24 岁,M = 20.6 岁,SD = 1.6 岁;
大一 / 大二 / 大三 / 大四 占比分别为 30.4% / 27.6% / 24.8% / 17.2%;
专业大类(文史哲 / 理学 / 工程 / 艺体及其他)占比为 30.2% / 24.8% / 25.4% / 19.6%。

说明：年龄的 M=20.6、SD=1.6 取自 Case A 清洗后数据（N=500）的实际描述统计；性别与年级、专业的百分比为该样本的构成示例。你自己跑出的数字若与此略有出入，以你的输出为准——这正是“先读取、再报告”的体现。

实操二：核心变量描述（APA 三线表）

核心变量描述回答第二个问题：“你的关键变量处于什么水平、分布是否正常？”这里要把均值、标准差、极值、偏度、峰度一并报出，并据此判断能否进入参数检验。

Jamovi 操作

Exploration → Descriptives → 选 Anxiety_Mean / Strategy_Mean / Efficacy_Mean
Statistics 中勾选：Mean / Std deviation / Minimum / Maximum / Skewness / Kurtosis
跑出三个变量的完整描述

APA 三线表格式

═══════════════════════════════════════════════════════════
 变量              N     M     SD    Min   Max   Skew  Kurt
───────────────────────────────────────────────────────────
 1. AI 焦虑       500  3.21  0.78   1.00  5.00  -.12  -.34
 2. 学习策略      500  3.85  0.65   1.50  5.00  -.45   .12
 3. 自我效能感    500  3.92  0.70   1.00  5.00  -.38  -.21
───────────────────────────────────────────────────────────
 注: 所有变量均为 5 点 Likert 量表(1=非常不同意 ~ 5=非常同意)。
     Kurt 为超额峰度(以正态分布为基准,正态=0)。
═══════════════════════════════════════════════════════════

📐 Worked Example：单题项 Anxiety_1 的描述统计逐项读法

表里报的是三个量表的均分；落到单个题项上，读法完全一样。以认知焦虑首题 Anxiety_1（“我担心自己不会使用 AI 工具会影响学业成绩”）为例，Case A 清洗后数据跑出：M = 3.18，SD = 0.94（5 点量表，取值 1–5）。逐项翻译：

M = 3.18：均值落在量表中点 3 附近、略偏向 4，说明受访者对“不会用 AI 影响成绩”这一担忧整体处于中等略偏高水平——既非普遍焦虑，也非普遍无感。
SD = 0.94：标准差接近 1，意味着回答相当分散——有人选 1（完全不担心）、有人选 5（非常担心），并非高度一致。SD 这么大时，只报均值会掩盖“人群内部分歧明显”这一重要事实。
结合判断：M≈中点 + SD≈1，提示该题分布较平、覆盖整个量程，不太可能严重偏态——但这只是推测，最终仍要用直方图确认（见实操四）。

这一步示范了描述统计的核心动作：不是把 M、SD 抄进表格就完事，而是把每个数字“翻译”成关于这批人的一句话。

💡 偏度 / 峰度怎么读（务必区分阈值，不要一刀切）

偏度和峰度用来判断“分布离正态有多远”，但学界并没有唯一的硬阈值，宽严取决于你接下来要做什么。常用的两档参照：

保守判据（“近似对称”）：|偏度| < 1 且 |超额峰度| < 1，可较有把握地称分布“接近正态”。上表三个变量均落在此范围内。
宽松判据（参数检验的容忍线）：许多方法学文献（如 Kline 对 SEM 的建议）认为 |偏度| ≤ 2、|超额峰度| ≤ 7 时，参数检验（t、ANOVA、回归）仍大体稳健，尤其在大样本下。

注意两点：① Jamovi/SPSS 报的是超额峰度（正态=0），不要拿“正态峰度=3”的旧口径去比；② 偏度/峰度只是辅助判据，不能替代直方图——数值达标但图上明显双峰或有离群尾，仍需处理。超出容忍线时的应对（数据变换 / 非参数方法）见本课【边界与局限】。

实操三：相关矩阵（为回归铺垫）

相关矩阵回答第三个问题：“这些变量之间初步有没有关系？”它是后续回归与中介分析的“预告片”——若 X 与 Y 在相关层面就毫无关联，回归里也很难有故事。

Jamovi 操作

Regression → Correlation Matrix
Variables 拖入 Anxiety_Mean / Strategy_Mean / Efficacy_Mean
勾选 Pearson + Report significance + Flag significant correlations

标准 APA 表

═══════════════════════════════════════════════
 变量          1         2         3
───────────────────────────────────────────────
 1. AI 焦虑    —
 2. 学习策略  -.30**     —
 3. 自我效能  -.26**   .42**       —
───────────────────────────────────────────────
 注: N = 500. **p < .01, *p < .05.
═══════════════════════════════════════════════

上表取自 Case A 清洗后数据的相关分析：AI 焦虑与学习策略呈中等负相关（r≈−.30），与自我效能呈弱到中等负相关（r≈−.26），学习策略与自我效能呈中等正相关（r≈.42）。这三条相关恰好为后续第 29 课的“焦虑→策略→效能”中介模型铺好了路——但相关只是“相伴变化”，不等于因果，方向与机制要到回归/中介阶段、并结合理论才能谈。

\|r\|	强度
< .10	极弱 / 无
.10 – .30	弱
.30 – .70	中等（社科最常见）
.70 – .90	强（需警惕多重共线性 multicollinearity）
> .90	几乎是同一变量

实操四：学术图表四件套（不同图回答不同问题）

图表不是论文的装饰，而是“看分布、找异常”的主力工具——尤其当数字（偏度/峰度）模棱两可时，一张图往往一眼定胜负。四类常用图各有分工，选错图比不画图更误导：

1. 柱状图（分类变量的构成）

适用：性别 / 年级 / 专业分布

Jamovi → Descriptives → Plots → Bar plot
字号 ≥ 8pt，标注百分比
用途：直观呈现各类别占比，配合样本特征段使用

2. 直方图（连续变量的分布形状）

适用：年龄 / 量表均分

重点观察：是否近似正态（单峰、对称、无极端长尾）
这是判断偏度/峰度的“图形版”——数值达标但图上双峰或重尾，仍需在文字中说明并考虑数据变换

3. 箱线图（离群值检测 + 组间对比）

适用：跨性别 / 跨年级的量表均分对比

箱体上下沿 = 上下四分位数（Q1、Q3），箱内横线 = 中位数
箱须之外的点 = 离群值候选（异常值嫌疑，需回原始数据核查，不可不看就删）

4. 折线图（趋势 / 时间）

适用：纵向追踪或面板数据的时间趋势（本课不用，第 38 课介绍；Case B 经管面板即属此类）

图表生成 Prompt

markdown

【Role】Seaborn + matplotlib 学术可视化专家。

【任务】我有 Case A 清洗后数据,请生成 Python 代码画 4 张学术图:
1. 性别 + 年级的双柱状对比图
2. 三个量表均分的直方图(2x2 子图,含正态曲线)
3. 三个量表均分按性别分组的箱线图
4. 三个量表均分的相关散点矩阵(下三角散点 + 上三角相关系数)

【美学规范】
- 配色: 学术冷色系(蓝 + 灰 + 偶尔橘色作强调)
- 字体: Times New Roman 11pt
- 分辨率: dpi=300
- 标题: Figure 1/2/3/4. [简洁标题]
- 输出: PDF + PNG 双格式

[贴入数据 CSV 或 DataFrame head]

实操五：让 AI 把描述统计输出翻译成 Results 第一段

到这一步，所有统计量都已由你在 Jamovi 里算好。AI 的角色是翻译官而非计算器：把你粘贴进去的输出表，转写成符合 APA 规范、含解读与过渡的段落。它不重新计算、不改动任何数值，这是本课乃至整个模块的红线。

描述统计 → APA 段落 Prompt

markdown

【Role】APA 7th 格式严谨的论文编辑。

【任务】下面是我用 Jamovi 跑出的描述统计输出(粘贴整张表)。
请帮我撰写论文 4.1 节"描述统计"段落(约 250 字):

1. 第一句:报告样本规模与人口结构
2. 第二句:报告三个核心变量的均值水平评估
   (如"焦虑均值 3.21,处于中等水平")
3. 第三句:报告偏度/峰度,说明数据近似正态
4. 第四句:简述相关矩阵的核心发现
   (如"AI 焦虑与学习策略呈中等负相关 r=-.30")
5. 末句:自然过渡到下一节"假设检验"

【严格 APA 格式】
- 数字保留 2 位小数
- 显著性用 ** p<.01, * p<.05
- N 写完整: N = 500, 不要省

【粘贴 Jamovi 输出】[贴入]

描述统计段落：写砸 vs 写好

同一份输出，写成段落可以是“合格”也可以是“可投稿”。下面把描述统计 Results 段最常见的失分点逐项拆开，并排对照——左列是学员的高频写法，右列是把同一处“拧紧”后的写法。

维度	写砸 ❌	写好 ✅	为什么
样本交代	共 500 人参与调查	有效样本 500 人（原始 540，剔除 40 份无效问卷），男 48.0% / 女 52.0%，M_age=20.6（SD=1.6）	只给总数无法判断代表性；写清来源、构成与年龄分布，审稿人才能评估外部效度
变量水平	焦虑均值是 3.21	AI 焦虑均值为 3.21（SD=0.78），处于量表中点附近、属中等水平	光报 M 不解读等于没说；要把数字翻译成“高/中/低”的判断，并带上 SD
分布形状	数据正常	各变量偏度 \|<.45\|、超额峰度 \|<.35\|，结合直方图判断分布近似正态，满足参数检验前提	“正常”不可检验；给出偏度/峰度数值 + 图形依据 + 阈值判据，才站得住
相关发现	变量之间存在相关	AI 焦虑与学习策略呈中等负相关（r=−.30, p<.01），与自我效能呈弱负相关（r=−.26, p<.01）	笼统说“有相关”毫无信息量；报出 r 的大小、方向与显著性才有意义
因果措辞	焦虑导致效能下降	焦虑与效能呈负相关（方向与机制待回归/中介检验）	描述统计只能谈“相伴变化”，下“导致”是越界——相关≠因果
段落收尾	（戛然而止）	上述相关为后续“焦虑→策略→效能”的中介检验提供了初步证据，详见 4.2 节	描述段要为下一步铺路，自然过渡，而非孤立堆数字

💡 一句话判据

检验一段描述统计写得好不好，问三件事：每个数字有没有被解读？分布判断有没有图形与阈值支撑？有没有把相关误说成因果？ 三者都过关，这一段才从“报数字”升级成“讲清楚数据”。

跨案例迁移：把同一套描述统计流程搬到 Case B 经管面板

上面用的是 Case A 心理问卷（横截面、Likert 量表）。描述统计的价值在于换数据只换变量与解读，流程不变。下面换一个完全不同的领域——Case B 经管面板数据，30 省 × 10 年（2014—2023）= 300 观测，含 DigEcon_Index（数字经济指数）、HumanCap_per10k（每万人专科以上人力资本）、Innovation_Index（创新指数）、IndustryStr_Tertiary（第三产业占比）——演示同一套“描述 → 看分布 → 看相关”如何照搬，以及面板数据多出来的一个关键检查。

描述与相关（同样先读取、再报告）

在 Jamovi 里对四个连续变量跑 Descriptives + Correlation Matrix，得到的教学锚点数值如下（均为 Case B 模拟数据的实际输出）：

═══════════════════════════════════════════════════════════
 变量                  M       SD     与 DigEcon 的相关 r
───────────────────────────────────────────────────────────
 DigEcon_Index       ≈72      —          —
 HumanCap_per10k       —       —        ≈.86 **
 Innovation_Index    ≈47      —        ≈.94 **
───────────────────────────────────────────────────────────
 注: N = 300（省 × 年）。**p < .01。
═══════════════════════════════════════════════════════════

读法和 Case A 一致：DigEcon 均值约 72、Innovation 均值约 47，量纲不同不可直接比大小；要看的是变量间关系——数字经济与人力资本（r≈.86）、与创新（r≈.94）都高度正相关。

面板数据多出的一步：相关过高，要查多重共线性

到这里就出现了横截面问卷里不常见、却在经管实证里极常见的问题：自变量之间相关太高。DigEcon_Index 与 HumanCap_per10k 相关高达 r≈.86，与 Innovation_Index 更达 r≈.94。如果不加判断就把它们一起塞进回归，会触发多重共线性（multicollinearity）——回归系数变得不稳定、符号可能反转、标准误膨胀。

描述阶段就能预警：跑出方差膨胀因子（VIF），Case B 的结果是 HumanCap_per10k 的 VIF≈8、DigEcon_Index 的 VIF≈5.5。

📐 关键术语：多重共线性与 VIF

多重共线性（multicollinearity）：回归模型中两个或多个自变量高度线性相关，导致难以分离各自对因变量的独立贡献，系数估计不稳定。
方差膨胀因子（variance inflation factor, VIF）：度量某自变量被其他自变量解释的程度。常用经验参照——VIF < 5 通常无忧；5 ≤ VIF < 10 需关注；VIF ≥ 10 普遍视为严重共线性，须处理（删变量、合并、岭回归等）。

按此口径，Case B 的 HumanCap_per10k（VIF≈8）与 DigEcon_Index（VIF≈5.5）都落在“需关注但尚未到严重档”——提示你在建模时要留意，而非立刻删变量。这正是描述统计“先排雷”价值的体现：问题在分析前就被看见了。

⚠️ Case B 的 R² 别当目标

Case B 是教学用模拟数据，回归 R²≈.95，远高于真实经管研究的常见水平。这个数字用来演示流程，不可当作你自己研究的达标线——真实面板数据的 R² 往往低得多，高 R² 也常伴随共线性等隐患。把它当作“反面参照”：看到异常漂亮的拟合，第一反应该是查数据与共线性，而不是庆祝。

🔁 迁移要点

对比 Case A 与 Case B：数据类型（横截面 vs 面板）、变量（量表均分 vs 经济指数）全变了，但描述统计的三步骨架没变——先报集中趋势与离散（M/SD）、再看分布与异常、再看变量间相关。面板数据只是多出“查 VIF 防共线性”这一项专门检查。把变量名和解读换成你学科的，理工、经管、教育都能照搬。

常见误区与纠正

描述统计阶段，学员的问题高度集中在“只报不读”和“图选错”。下表是最高频的几种，照着对号入座即可：

常见误区	症状	纠正方法
只报均值，不看分布	写“M=3.21”就过，从不画图、不看 SD	均值会被离群值与偏态掩盖；连续变量必画直方图，必报 SD（见原理与实操四）
偏度/峰度阈值一刀切	死记“\|值\|<1 才正态”，稍超就慌着做变换	区分保守判据（<1 近似对称）与参数检验容忍线（偏度≤2、超额峰度≤7），并以图形为准
把超额峰度当原始峰度	看到峰度 0 就以为“数据有问题”	Jamovi/SPSS 报的是超额峰度，正态基准=0 而非 3，别用旧口径误判
相关说成因果	描述段写“X 导致 Y”	描述统计只能谈相伴变化；方向与机制留到回归/中介，且需理论支撑
图表选错类型	用柱状图画连续变量分布、用饼图比组间均值	分类构成→柱状，连续分布→直方，组间对比/找离群→箱线，时间趋势→折线
让 AI 代算统计量	把原始数据丢给 AI，让它“算一下 M、SD、相关”	所有统计量自己在 Jamovi 跑；AI 只翻译已算出的输出，绝不代算（见下方红线）

输出 / 结果不理想？如何排查与迭代

描述统计跑完，常见三类“不对劲”：数字明显反常、分布严重偏态、AI 生成的段落不达标。逐类对症排查，不要推倒重来。

数字反常（如均值越界、SD 异常大）→ 先回查清洗，而非改数字。 量表均分跑出 6.x、年龄出现 99、SD 大得离谱，几乎都是清洗没做干净：反向题忘了反转会让该量表均值与方向全错，缺失值用 99 标记却没声明会被当真实分计入。回到第 23 课的清洗日志逐步复核，统计量永远不能手动“改顺眼”。
分布严重偏态/有离群点 → 先看图定性，再决定处理方式。 直方图明显右偏或箱线图冒出离群点时，按顺序处理：① 核查离群点是不是录入错误（是→改正或剔除并记录，否→保留）；② 若是真实的偏态，可考虑数据变换（如对数变换）或改用非参数方法（下一课的 Mann-Whitney U / Kruskal-Wallis）。不要因为“想要正态”就偷偷删点。
AI 段落不达标（漏报效应量、改了数值、措辞越界）→ 局部纠偏，且永远以你的输出为准。
- 它改动或编造了数值 → 这是最危险的情况，直接弃用该句并在提示词里补一句“严禁改动我粘贴的任何数字，逐字照用”；任何与你 Jamovi 输出对不上的数字，一律以你的输出为准。
- 它把相关写成因果 → 追加“描述统计段不得出现‘导致/证明/影响’等因果词，只描述相关与方向”。
- 它漏了解读、只堆数字 → 追加“每个统计量后补一句中文解读（高/中/低、是否近似正态）”。

一句话

首版不理想，先分清是数据问题（回去查清洗）、分布问题（看图再定处理）、还是翻译问题（局部纠偏 AI 段落）。无论哪种，红线不变：数字只能由你算出，AI 只能翻译，不能代算或篡改。

边界与局限：描述统计与 AI 在这一步的能与不能

描述统计是“看清数据”的工具，但它有明确的能力边界；AI 在这一步的角色更要划清。把下面几条记牢，比多背一个指标更重要。

边界 / 失效场景	为什么会这样	你应该怎么做
均值掩盖分布	M 是单一中心点，两组 M 相同但分布（双峰、偏态、离散度）可能完全不同；只看 M 会丢掉关键信息	连续变量先画直方图与箱线图，M 必与 SD、分布形状一起读
偏度/峰度只是辅助判据	数值达标不代表分布真“正态”，仍可能多峰或有重尾；阈值本身也因方法而宽严不一	数值与图形结合判断；阈值分保守（近似对称）与参数检验容忍线两档使用
描述统计不能下因果	相关、均值差异只反映“相伴变化/分布差异”，给不出方向与机制	因果留给设计（实验/可信识别策略）与后续模型；描述段措辞止于“相关/差异”
离群点不能见到就删	离群点可能是录入错误，也可能是真实且重要的极端个案，盲删会引入偏倚	先判明来源：录入错→改正/剔除并记录；真实极端值→保留并在文中说明
p 值与效应量易被误读	大样本下极弱的相关也会“显著”，显著≠重要；只盯 p 会高估实际意义	报 r/差异的大小（效应量）与 N，结合实质判断，呼应下一课“必报效应量”
AI 只能翻译，不能代算	大模型不接入你的数据、不做可信计算，让它“算 M/SD/相关”只会得到看似合理实则编造的数字（幻觉 hallucination）	所有统计量在 Jamovi/SPSS 亲手跑；AI 仅把你粘贴的输出转写成规范段落

⚠️ 本课红线：AI 翻译结果，绝不代算统计量

这是贯穿整个量化模块的硬规则：凡是均值、标准差、偏度、峰度、相关系数、p 值——一律由你在统计软件里算出，AI 的唯一职责是把这些已经算好的数字翻译成符合 APA 的中文段落。任何时候 AI 给出的数字与你的软件输出不一致，以软件输出为准，并视为 AI 出错。把“算”留给软件、把“写”交给 AI、把“判断”留给自己——三者不可混淆。

📦 本课交付物

按本节实操任务完成并提交以下内容，提交 AI 初审，按 Module_Rubrics.md 对应维度评分：

[ ] 样本特征段（约 100 字）：N + 性别 / 年龄 / 年级 / 专业分布，含构成解读
[ ] APA 描述统计表：含 M / SD / Min / Max / Skew / Kurt 完整字段
[ ] APA 相关矩阵表：三个核心变量的 Pearson r + 显著性标注
[ ] 4 张学术图表：柱状 + 直方 + 箱线 + 散点（300 dpi PDF）
[ ] Results 第一段草稿（约 250 字）：AI 辅助翻译 + 人工核对（数字逐一比对 Jamovi 输出）
[ ] 四维质检记录：用 Course_QA_Checklists.md（事实 / 逻辑 / 格式 / 引用）核查 AI 段落，重点查“数字是否被改动、是否出现因果措辞”
[ ] 沉淀模板：将本课两个 Prompt（图表生成、描述统计翻译）加入个人工具箱

🏁 本章小结

把本课凝练成可据以复习的几条要点：

为什么先看描述：描述统计是正式分析的“地基勘察”——先看清数据的集中趋势（M）、离散（SD）、分布形状（偏度/峰度）与异常，才能判断后续参数检验的前提是否满足。跳过它直接做检验，等于不勘察就盖楼。
三项产出：① 样本特征（频数表 + 文字）；② 核心变量描述（APA 三线表，含 M/SD/极值/偏度/峰度）；③ 相关矩阵（为回归铺垫）。三者构成论文 Results 的标准开篇。
核心术语要precise：均值（mean）报中心、标准差（SD）报离散、偏度（skewness）报对称性、峰度（kurtosis，软件报的是超额峰度、正态=0）报尾部。读这些数字不是抄表，而是把每个数“翻译”成关于这批人的一句话。
图先于数：偏度/峰度只是辅助判据（保守判据 |值|<1 称近似对称；参数检验容忍线约偏度≤2、超额峰度≤7），最终以直方图、箱线图为准——均值掩盖分布，先看图再下结论。
跨案例可迁移：Case A（横截面问卷）与 Case B（经管面板）共用“描述→看分布→看相关”三步骨架；面板数据多出“查 VIF 防多重共线性”一项（VIF<5 无忧、5–10 关注、≥10 严重）。
红线：描述统计只能谈相关与分布差异，不能下因果；所有统计量由你在软件里算出，AI 只翻译、绝不代算或篡改——数字对不上时一律以软件输出为准。

自测清单（可保留逐项打勾）

[ ] 我能说清“分析前为什么先看描述”，并讲出均值/SD/偏度/峰度各测什么。
[ ] 我能跑出完整描述统计（N / M / SD / Min / Max / Skew / Kurt），并把表做成 APA 三线表。
[ ] 我能解读相关矩阵中的强度（弱 / 中 / 强）与显著性，并知道相关 ≠ 因果。
[ ] 我的图表分辨率 ≥ 300 dpi、字号 ≥ 8pt，且能为不同问题选对图（柱状/直方/箱线/折线）。
[ ] 我清楚偏度/峰度的两档判据，知道软件报的是超额峰度（正态=0），并以图形为最终依据。
[ ] 我的 Results 描述段含解读且自然过渡，AI 生成后我逐一比对过数字、删除了任何因果措辞。

✍️ 思考与练习

下列练习用于把本节概念用起来（区别于“本课交付物”里的任务），建议写在你的本地笔记中。

练习 1（原理辨析）。 有同学说：“我两个班的考试均分都是 75 分，所以两个班水平一样。”请用本课原理说明，为什么仅凭均值相同就断言“水平一样”可能是错的；你会再看哪两个量、画哪张图来检验？

好答案要点：指出均值掩盖分布——M 相同但 SD、偏度、是否双峰可能完全不同（如一班集中在 75、另一班两极分化）；应再看 SD 与分布形状，并画直方图/箱线图，必要时比较离散度，而非只比中心。

练习 2（描述统计读法，紧扣 Case A）。 取 Case A 清洗后数据，已知认知焦虑首题 Anxiety_1 的 M=3.18、SD=0.94（5 点量表）。请用一段规范文字报告并解读这两个数字，并说明：为什么仅凭 M、SD 还不足以断定该题“近似正态”，你会补做什么？

好答案要点：M≈3.18 落在量表中点略偏高、属中等偏上水平，SD≈0.94 接近 1 说明回答分散、人群内部分歧明显；指出 M/SD 不含分布形状信息，需查偏度/峰度并画直方图确认是否单峰对称、有无离群尾，数值与图形结合才能判断正态。

练习 3（跨案例 + 边界，紧扣 Case B）。 取 Case B 经管面板（30 省 × 10 年）。已知 DigEcon_Index 与 HumanCap_per10k 相关 r≈.86、HumanCap_per10k 的 VIF≈8。请说明：这两个数字在“描述阶段”各预警了什么？为什么 VIF≈8 属于“需关注但未到严重”？若直接把两者一起放进回归会有什么风险？

好答案要点：高相关 r≈.86 与 VIF≈8 共同预警多重共线性；按经验口径 VIF<5 无忧、5–10 需关注、≥10 严重，8 落在中间档故“关注但不必立刻删变量”；若不处理直接同入回归，系数会不稳定、标准误膨胀、符号可能反转——体现描述统计“先排雷”的价值。

练习 4（红线识别）。 你把 Case A 的原始 CSV 直接发给 AI，让它“帮我算一下三个量表的均值、标准差和两两相关，并写成 Results 段落”。它很快给出了一段格式完美、数字俱全的文字。请指出这一操作同时踩中了本课哪两条红线，以及正确的做法。

好答案要点：①让 AI 代算统计量——大模型不接入数据、不做可信计算，给出的 M/SD/r 极可能是幻觉（看似合理实则编造）；②跳过了“自己在软件里算”的环节。正确做法是先在 Jamovi/SPSS 亲手跑出所有统计量，再把输出粘给 AI 让它仅做翻译，且逐一比对数字、以软件输出为准。

第 24 课：描述统计与图表 ​

📋 课前准备（5 分钟自检） ​

工具/账号 ​

数据/素材 ​

应急通道 ​

场景导入：描述统计不是“报数字”，而是“给后续分析定调” ​

本课的三项产出 ​

原理：分析之前，为什么必须先“看描述” ​

实操一：样本特征报告（文字 + 频数表） ​

Jamovi 操作 ​

标准文字写法 ​

实操二：核心变量描述（APA 三线表） ​

Jamovi 操作 ​

APA 三线表格式 ​

实操三：相关矩阵（为回归铺垫） ​

Jamovi 操作 ​

标准 APA 表 ​

相关强度判断 ​

实操四：学术图表四件套（不同图回答不同问题） ​

1. 柱状图（分类变量的构成） ​

2. 直方图（连续变量的分布形状） ​

3. 箱线图（离群值检测 + 组间对比） ​

4. 折线图（趋势 / 时间） ​

实操五：让 AI 把描述统计输出翻译成 Results 第一段 ​

描述统计段落：写砸 vs 写好 ​

跨案例迁移：把同一套描述统计流程搬到 Case B 经管面板 ​

描述与相关（同样先读取、再报告） ​

面板数据多出的一步：相关过高，要查多重共线性 ​

常见误区与纠正 ​

输出 / 结果不理想？如何排查与迭代 ​

边界与局限：描述统计与 AI 在这一步的能与不能 ​

📦 本课交付物 ​

🏁 本章小结 ​

自测清单（可保留逐项打勾） ​

✍️ 思考与练习 ​

第 24 课：描述统计与图表

📋 课前准备（5 分钟自检）

工具/账号

数据/素材

应急通道

场景导入：描述统计不是“报数字”，而是“给后续分析定调”

本课的三项产出

原理：分析之前，为什么必须先“看描述”

实操一：样本特征报告（文字 + 频数表）

Jamovi 操作

标准文字写法

实操二：核心变量描述（APA 三线表）

Jamovi 操作

APA 三线表格式

实操三：相关矩阵（为回归铺垫）

Jamovi 操作

标准 APA 表

相关强度判断

实操四：学术图表四件套（不同图回答不同问题）

1. 柱状图（分类变量的构成）

2. 直方图（连续变量的分布形状）

3. 箱线图（离群值检测 + 组间对比）

4. 折线图（趋势 / 时间）

实操五：让 AI 把描述统计输出翻译成 Results 第一段

描述统计段落：写砸 vs 写好

跨案例迁移：把同一套描述统计流程搬到 Case B 经管面板

描述与相关（同样先读取、再报告）

面板数据多出的一步：相关过高，要查多重共线性

常见误区与纠正

输出 / 结果不理想？如何排查与迭代

边界与局限：描述统计与 AI 在这一步的能与不能

📦 本课交付物

🏁 本章小结

自测清单（可保留逐项打勾）

✍️ 思考与练习