Skip to content

第 24 课:描述统计与图表

🎯 核心实操目标

学习目标:跑出完整的描述统计(频数/百分比/均值/SD/偏度/峰度)+ 制作 APA 规范的描述统计三线表 + 学术级图表(柱状/直方/箱线/折线)。本课你将用 Case A 数据完成符合 SSCI 投稿水准的描述统计章节。

📋 课前准备(5 分钟自检)

工具/账号

  • [ ] Jamovi 2.5+ 或 SPSS 29+
  • [ ] Excel / WPS(图表精修)
  • [ ] GPT-5 / Claude 4.8(AI 辅助生成描述性文字)

数据/素材

  • [ ] 第 23 课清洗后的 case_A_cleaned.csv(N≈500)
  • [ ] 数据字典(明确每个变量类型)

应急通道

  • Jamovi 直出图不够美 → 把数据复制到 Excel 重绘
  • 三线表 Word 不会做 → 用 Markdown 表格写好再粘进 Word

场景导入:描述统计不是“报数字”,而是“给后续分析定调”

论文 Results 的第一段,常见的一种写法是:“本研究有效样本共 416 人,其中男性 200 人、女性 216 人,平均年龄 22 岁。”——然后段落就结束了。审稿人读到这里,通常会留下一句批注:“然后呢?这组数字说明了什么?”

问题不在于这些数字是错的,而在于它们只完成了“呈现”,没有完成“解读”。规范的描述统计承担三项任务:① 交代样本的构成与代表性;② 报告核心变量处于什么水平(偏高、中等还是偏低)、分布是否接近正态;③ 给出变量间的相关情况,为后续的回归或差异检验做铺垫。

可以把描述统计理解为正式分析的“地基勘察”:在动用 t 检验、回归这些重型工具之前,先把数据的形状、异常与变量间的初步关系看清楚。一段合格的描述统计 = 数字 + 解读 + 自然引出下一步分析

本课的三项产出

整节课围绕三件交付物展开,对应描述统计在论文中的标准结构:

产出内容报告形式
样本特征(demographics)N、性别比、年龄、年级分布文字 + 频数表
核心变量描述均值 / 标准差 / 偏度 / 峰度 / 最小值 / 最大值APA 三线表
相关矩阵(为回归铺垫)变量间 Pearson r + 显著性APA 相关矩阵表

原理:分析之前,为什么必须先“看描述”

在套用任何统计检验之前,先理解一件事:描述统计不是论文的“开场客套”,而是决定后续分析能否成立的前置检查。 跳过它直接做 t 检验、回归,等于在没勘察地基的地块上盖楼。可以从三个角度理解“为什么先看描述”。

  1. 它在测什么——数据的集中趋势、离散程度与分布形状。 均值(mean)刻画数据的中心位置,标准差(SD)刻画数据围绕中心的离散程度,偏度(skewness)与峰度(kurtosis)刻画分布偏离正态钟形的方向与程度。这四个量合起来回答一个问题:“这组数据长什么样?”——而几乎所有参数检验(t 检验、ANOVA、Pearson 相关、回归)都对“数据长什么样”有前提要求,最常见的就是近似正态无极端离群值
  2. 为什么这样做——先排雷,再分析。 描述阶段最该揪出的是两类问题:一是录入或编码错误(如某题出现 6 分、年龄出现 99,超出量表/合理范围),二是分布严重偏态或离群点。这两类问题若带进正式分析,会让 t 值、回归系数严重失真,而事后往往很难察觉。先看描述,相当于在分析前做一遍体检。
  3. 常见误用——只报均值、不看分布。 最典型的错误是“均值掩盖一切”:两组数据均值相同,分布可能天差地别(一组集中、一组两极分化)。只盯着 M 而不看 SD、不画直方图,会把重要的分布信息整段丢掉——这正是本课【边界与局限】反复强调的“先看图,再下结论”。
📘 关键术语(首次出现,先对齐定义)
  • 描述统计(descriptive statistics):用少量数字或图形概括一批数据的整体特征(中心、离散、形状),区别于推断统计(inferential statistics)——后者用样本去推断总体、做显著性检验。
  • 均值(mean, M):所有取值之和除以个数,反映数据的中心位置。对极端值敏感,离群点会把均值“拉走”。
  • 标准差(standard deviation, SD):各取值偏离均值的平均离散程度,单位与原变量相同。SD 越大,数据越分散。
  • 偏度(skewness):分布的不对称程度。偏度为正(右偏)表示长尾拖向高值端,为负(左偏)表示长尾拖向低值端,为 0 表示左右对称。
  • 峰度(kurtosis):分布尾部的厚薄与峰的尖平。统计软件(含 Jamovi/SPSS)默认报告超额峰度(excess kurtosis),即以正态分布为基准(正态的超额峰度=0);正值表示比正态更尖、尾更厚(易出现离群值),负值表示更平。
  • 直方图(histogram):把连续变量分箱后画出的频数柱状图,用来直观判断分布形状、偏态与是否多峰——是“看分布”最直接的工具。
  • 频数表(frequency table):分类变量各类别的计数(N)与百分比(%),用于报告样本的人口结构。

实操一:样本特征报告(文字 + 频数表)

样本特征段回答审稿人的第一个问题:“你研究的是谁?”分类变量(性别、年级、专业大类)用频数与百分比报告,连续变量(年龄)用均值与标准差报告。

Jamovi 操作

  1. Exploration → Descriptives → 选 Gender / Grade / Major_Category
  2. 在 Statistics 中勾选 Frequency tables
  3. 跑出每类的 N 和 %;把 Age 也拖进来,勾选 Mean / Std deviation

🔢 这一步只“读取”不“代算”

下面文字写法里的所有数字,都必须来自你在 Jamovi 里亲手跑出的输出。本课全程的红线是:AI 只负责把你已算出的结果翻译成规范段落,绝不替你计算或编造任何统计量(详见下文实操五与【边界与局限】)。

标准文字写法

本研究有效样本共 500 人(原始 N=540,经清洗剔除 40 份无效问卷,详见 3.4 节)。
其中男性 240 人(48.0%),女性 260 人(52.0%);
年龄范围 18-24 岁,M = 20.6 岁,SD = 1.6 岁;
大一 / 大二 / 大三 / 大四 占比分别为 30.4% / 27.6% / 24.8% / 17.2%;
专业大类(文史哲 / 理学 / 工程 / 艺体及其他)占比为 30.2% / 24.8% / 25.4% / 19.6%。

说明:年龄的 M=20.6、SD=1.6 取自 Case A 清洗后数据(N=500)的实际描述统计;性别与年级、专业的百分比为该样本的构成示例。你自己跑出的数字若与此略有出入,以你的输出为准——这正是“先读取、再报告”的体现。

实操二:核心变量描述(APA 三线表)

核心变量描述回答第二个问题:“你的关键变量处于什么水平、分布是否正常?”这里要把均值、标准差、极值、偏度、峰度一并报出,并据此判断能否进入参数检验。

Jamovi 操作

  1. Exploration → Descriptives → 选 Anxiety_Mean / Strategy_Mean / Efficacy_Mean
  2. Statistics 中勾选:Mean / Std deviation / Minimum / Maximum / Skewness / Kurtosis
  3. 跑出三个变量的完整描述

APA 三线表格式

═══════════════════════════════════════════════════════════
 变量              N     M     SD    Min   Max   Skew  Kurt
───────────────────────────────────────────────────────────
 1. AI 焦虑       500  3.21  0.78   1.00  5.00  -.12  -.34
 2. 学习策略      500  3.85  0.65   1.50  5.00  -.45   .12
 3. 自我效能感    500  3.92  0.70   1.00  5.00  -.38  -.21
───────────────────────────────────────────────────────────
 注: 所有变量均为 5 点 Likert 量表(1=非常不同意 ~ 5=非常同意)。
     Kurt 为超额峰度(以正态分布为基准,正态=0)。
═══════════════════════════════════════════════════════════

📐 Worked Example:单题项 Anxiety_1 的描述统计逐项读法

表里报的是三个量表的均分;落到单个题项上,读法完全一样。以认知焦虑首题 Anxiety_1(“我担心自己不会使用 AI 工具会影响学业成绩”)为例,Case A 清洗后数据跑出:M = 3.18,SD = 0.94(5 点量表,取值 1–5)。逐项翻译:

  • M = 3.18:均值落在量表中点 3 附近、略偏向 4,说明受访者对“不会用 AI 影响成绩”这一担忧整体处于中等略偏高水平——既非普遍焦虑,也非普遍无感。
  • SD = 0.94:标准差接近 1,意味着回答相当分散——有人选 1(完全不担心)、有人选 5(非常担心),并非高度一致。SD 这么大时,只报均值会掩盖“人群内部分歧明显”这一重要事实。
  • 结合判断:M≈中点 + SD≈1,提示该题分布较平、覆盖整个量程,不太可能严重偏态——但这只是推测,最终仍要用直方图确认(见实操四)。

这一步示范了描述统计的核心动作:不是把 M、SD 抄进表格就完事,而是把每个数字“翻译”成关于这批人的一句话。

💡 偏度 / 峰度怎么读(务必区分阈值,不要一刀切)

偏度和峰度用来判断“分布离正态有多远”,但学界并没有唯一的硬阈值,宽严取决于你接下来要做什么。常用的两档参照:

  • 保守判据(“近似对称”):|偏度| < 1 且 |超额峰度| < 1,可较有把握地称分布“接近正态”。上表三个变量均落在此范围内。
  • 宽松判据(参数检验的容忍线):许多方法学文献(如 Kline 对 SEM 的建议)认为 |偏度| ≤ 2、|超额峰度| ≤ 7 时,参数检验(t、ANOVA、回归)仍大体稳健,尤其在大样本下。

注意两点:① Jamovi/SPSS 报的是超额峰度(正态=0),不要拿“正态峰度=3”的旧口径去比;② 偏度/峰度只是辅助判据,不能替代直方图——数值达标但图上明显双峰或有离群尾,仍需处理。超出容忍线时的应对(数据变换 / 非参数方法)见本课【边界与局限】。

实操三:相关矩阵(为回归铺垫)

相关矩阵回答第三个问题:“这些变量之间初步有没有关系?”它是后续回归与中介分析的“预告片”——若 X 与 Y 在相关层面就毫无关联,回归里也很难有故事。

Jamovi 操作

  1. Regression → Correlation Matrix
  2. Variables 拖入 Anxiety_Mean / Strategy_Mean / Efficacy_Mean
  3. 勾选 Pearson + Report significance + Flag significant correlations

标准 APA 表

═══════════════════════════════════════════════
 变量          1         2         3
───────────────────────────────────────────────
 1. AI 焦虑    —
 2. 学习策略  -.30**     —
 3. 自我效能  -.26**   .42**       —
───────────────────────────────────────────────
 注: N = 500. **p < .01, *p < .05.
═══════════════════════════════════════════════

上表取自 Case A 清洗后数据的相关分析:AI 焦虑与学习策略呈中等负相关(r≈−.30),与自我效能呈弱到中等负相关(r≈−.26),学习策略与自我效能呈中等正相关(r≈.42)。这三条相关恰好为后续第 29 课的“焦虑→策略→效能”中介模型铺好了路——但相关只是“相伴变化”,不等于因果,方向与机制要到回归/中介阶段、并结合理论才能谈。

相关强度判断

|r|强度
< .10极弱 / 无
.10 – .30
.30 – .70中等(社科最常见)
.70 – .90强(需警惕多重共线性 multicollinearity)
> .90几乎是同一变量

💡 相关强度的判读要诚实

上面的区间是惯例参照,不是铁律——同样的 r=.25,在噪声极大的社会调查里可能值得一提,在高度受控的实验里却可能微不足道。报告时除了 r 的大小,还要看显著性(p)与样本量(N 很大时极弱的相关也会显著,但实际意义有限)。这与下一课强调的“p 值之外必报效应量”是同一个道理。

实操四:学术图表四件套(不同图回答不同问题)

图表不是论文的装饰,而是“看分布、找异常”的主力工具——尤其当数字(偏度/峰度)模棱两可时,一张图往往一眼定胜负。四类常用图各有分工,选错图比不画图更误导

1. 柱状图(分类变量的构成)

适用:性别 / 年级 / 专业分布

  • Jamovi → Descriptives → Plots → Bar plot
  • 字号 ≥ 8pt,标注百分比
  • 用途:直观呈现各类别占比,配合样本特征段使用

2. 直方图(连续变量的分布形状)

适用:年龄 / 量表均分

  • 重点观察:是否近似正态(单峰、对称、无极端长尾)
  • 这是判断偏度/峰度的“图形版”——数值达标但图上双峰或重尾,仍需在文字中说明并考虑数据变换

3. 箱线图(离群值检测 + 组间对比)

适用:跨性别 / 跨年级的量表均分对比

  • 箱体上下沿 = 上下四分位数(Q1、Q3),箱内横线 = 中位数
  • 箱须之外的点 = 离群值候选(异常值嫌疑,需回原始数据核查,不可不看就删)

4. 折线图(趋势 / 时间)

适用:纵向追踪或面板数据的时间趋势(本课不用,第 38 课介绍;Case B 经管面板即属此类)

markdown
【Role】Seaborn + matplotlib 学术可视化专家。

【任务】我有 Case A 清洗后数据,请生成 Python 代码画 4 张学术图:
1. 性别 + 年级的双柱状对比图
2. 三个量表均分的直方图(2x2 子图,含正态曲线)
3. 三个量表均分按性别分组的箱线图
4. 三个量表均分的相关散点矩阵(下三角散点 + 上三角相关系数)

【美学规范】
- 配色: 学术冷色系(蓝 + 灰 + 偶尔橘色作强调)
- 字体: Times New Roman 11pt
- 分辨率: dpi=300
- 标题: Figure 1/2/3/4. [简洁标题]
- 输出: PDF + PNG 双格式

[贴入数据 CSV 或 DataFrame head]

实操五:让 AI 把描述统计输出翻译成 Results 第一段

到这一步,所有统计量都已由你在 Jamovi 里算好。AI 的角色是翻译官而非计算器:把你粘贴进去的输出表,转写成符合 APA 规范、含解读与过渡的段落。它不重新计算、不改动任何数值,这是本课乃至整个模块的红线。

markdown
【Role】APA 7th 格式严谨的论文编辑。

【任务】下面是我用 Jamovi 跑出的描述统计输出(粘贴整张表)。
请帮我撰写论文 4.1 节"描述统计"段落(约 250 字):

1. 第一句:报告样本规模与人口结构
2. 第二句:报告三个核心变量的均值水平评估
   (如"焦虑均值 3.21,处于中等水平")
3. 第三句:报告偏度/峰度,说明数据近似正态
4. 第四句:简述相关矩阵的核心发现
   (如"AI 焦虑与学习策略呈中等负相关 r=-.30")
5. 末句:自然过渡到下一节"假设检验"

【严格 APA 格式】
- 数字保留 2 位小数
- 显著性用 ** p<.01, * p<.05
- N 写完整: N = 500, 不要省

【粘贴 Jamovi 输出】[贴入]

描述统计段落:写砸 vs 写好

同一份输出,写成段落可以是“合格”也可以是“可投稿”。下面把描述统计 Results 段最常见的失分点逐项拆开,并排对照——左列是学员的高频写法,右列是把同一处“拧紧”后的写法。

维度写砸 ❌写好 ✅为什么
样本交代共 500 人参与调查有效样本 500 人(原始 540,剔除 40 份无效问卷),男 48.0% / 女 52.0%,M_age=20.6(SD=1.6)只给总数无法判断代表性;写清来源、构成与年龄分布,审稿人才能评估外部效度
变量水平焦虑均值是 3.21AI 焦虑均值为 3.21(SD=0.78),处于量表中点附近、属中等水平光报 M 不解读等于没说;要把数字翻译成“高/中/低”的判断,并带上 SD
分布形状数据正常各变量偏度 |<.45|、超额峰度 |<.35|,结合直方图判断分布近似正态,满足参数检验前提“正常”不可检验;给出偏度/峰度数值 + 图形依据 + 阈值判据,才站得住
相关发现变量之间存在相关AI 焦虑与学习策略呈中等负相关(r=−.30, p<.01),与自我效能呈弱负相关(r=−.26, p<.01)笼统说“有相关”毫无信息量;报出 r 的大小、方向与显著性才有意义
因果措辞焦虑导致效能下降焦虑与效能呈负相关(方向与机制待回归/中介检验)描述统计只能谈“相伴变化”,下“导致”是越界——相关≠因果
段落收尾(戛然而止)上述相关为后续“焦虑→策略→效能”的中介检验提供了初步证据,详见 4.2 节描述段要为下一步铺路,自然过渡,而非孤立堆数字

💡 一句话判据

检验一段描述统计写得好不好,问三件事:每个数字有没有被解读?分布判断有没有图形与阈值支撑?有没有把相关误说成因果? 三者都过关,这一段才从“报数字”升级成“讲清楚数据”。


跨案例迁移:把同一套描述统计流程搬到 Case B 经管面板

上面用的是 Case A 心理问卷(横截面、Likert 量表)。描述统计的价值在于换数据只换变量与解读,流程不变。下面换一个完全不同的领域——Case B 经管面板数据,30 省 × 10 年(2014—2023)= 300 观测,含 DigEcon_Index(数字经济指数)、HumanCap_per10k(每万人专科以上人力资本)、Innovation_Index(创新指数)、IndustryStr_Tertiary(第三产业占比)——演示同一套“描述 → 看分布 → 看相关”如何照搬,以及面板数据多出来的一个关键检查。

描述与相关(同样先读取、再报告)

在 Jamovi 里对四个连续变量跑 Descriptives + Correlation Matrix,得到的教学锚点数值如下(均为 Case B 模拟数据的实际输出):

═══════════════════════════════════════════════════════════
 变量                  M       SD     与 DigEcon 的相关 r
───────────────────────────────────────────────────────────
 DigEcon_Index       ≈72      —          —
 HumanCap_per10k       —       —        ≈.86 **
 Innovation_Index    ≈47      —        ≈.94 **
───────────────────────────────────────────────────────────
 注: N = 300(省 × 年)。**p < .01。
═══════════════════════════════════════════════════════════

读法和 Case A 一致:DigEcon 均值约 72、Innovation 均值约 47,量纲不同不可直接比大小;要看的是变量间关系——数字经济与人力资本(r≈.86)、与创新(r≈.94)都高度正相关。

面板数据多出的一步:相关过高,要查多重共线性

到这里就出现了横截面问卷里不常见、却在经管实证里极常见的问题:自变量之间相关太高DigEcon_IndexHumanCap_per10k 相关高达 r≈.86,与 Innovation_Index 更达 r≈.94。如果不加判断就把它们一起塞进回归,会触发多重共线性(multicollinearity)——回归系数变得不稳定、符号可能反转、标准误膨胀。

描述阶段就能预警:跑出方差膨胀因子(VIF),Case B 的结果是 HumanCap_per10k 的 VIF≈8、DigEcon_Index 的 VIF≈5.5。

📐 关键术语:多重共线性与 VIF

  • 多重共线性(multicollinearity):回归模型中两个或多个自变量高度线性相关,导致难以分离各自对因变量的独立贡献,系数估计不稳定。
  • 方差膨胀因子(variance inflation factor, VIF):度量某自变量被其他自变量解释的程度。常用经验参照——VIF < 5 通常无忧;5 ≤ VIF < 10 需关注;VIF ≥ 10 普遍视为严重共线性,须处理(删变量、合并、岭回归等)。

按此口径,Case B 的 HumanCap_per10k(VIF≈8)与 DigEcon_Index(VIF≈5.5)都落在“需关注但尚未到严重档”——提示你在建模时要留意,而非立刻删变量。这正是描述统计“先排雷”价值的体现:问题在分析前就被看见了。

⚠️ Case B 的 R² 别当目标

Case B 是教学用模拟数据,回归 R²≈.95,远高于真实经管研究的常见水平。这个数字用来演示流程,不可当作你自己研究的达标线——真实面板数据的 R² 往往低得多,高 R² 也常伴随共线性等隐患。把它当作“反面参照”:看到异常漂亮的拟合,第一反应该是查数据与共线性,而不是庆祝。

🔁 迁移要点

对比 Case A 与 Case B:数据类型(横截面 vs 面板)、变量(量表均分 vs 经济指数)全变了,但描述统计的三步骨架没变——先报集中趋势与离散(M/SD)、再看分布与异常、再看变量间相关。面板数据只是多出“查 VIF 防共线性”这一项专门检查。把变量名和解读换成你学科的,理工、经管、教育都能照搬。


常见误区与纠正

描述统计阶段,学员的问题高度集中在“只报不读”和“图选错”。下表是最高频的几种,照着对号入座即可:

常见误区症状纠正方法
只报均值,不看分布写“M=3.21”就过,从不画图、不看 SD均值会被离群值与偏态掩盖;连续变量必画直方图,必报 SD(见原理与实操四)
偏度/峰度阈值一刀切死记“|值|<1 才正态”,稍超就慌着做变换区分保守判据(<1 近似对称)与参数检验容忍线(偏度≤2、超额峰度≤7),并以图形为准
把超额峰度当原始峰度看到峰度 0 就以为“数据有问题”Jamovi/SPSS 报的是超额峰度,正态基准=0 而非 3,别用旧口径误判
相关说成因果描述段写“X 导致 Y”描述统计只能谈相伴变化;方向与机制留到回归/中介,且需理论支撑
图表选错类型用柱状图画连续变量分布、用饼图比组间均值分类构成→柱状,连续分布→直方,组间对比/找离群→箱线,时间趋势→折线
让 AI 代算统计量把原始数据丢给 AI,让它“算一下 M、SD、相关”所有统计量自己在 Jamovi 跑;AI 只翻译已算出的输出,绝不代算(见下方红线)

输出 / 结果不理想?如何排查与迭代

描述统计跑完,常见三类“不对劲”:数字明显反常、分布严重偏态、AI 生成的段落不达标。逐类对症排查,不要推倒重来。

  1. 数字反常(如均值越界、SD 异常大)→ 先回查清洗,而非改数字。 量表均分跑出 6.x、年龄出现 99、SD 大得离谱,几乎都是清洗没做干净:反向题忘了反转会让该量表均值与方向全错,缺失值用 99 标记却没声明会被当真实分计入。回到第 23 课的清洗日志逐步复核,统计量永远不能手动“改顺眼”
  2. 分布严重偏态/有离群点 → 先看图定性,再决定处理方式。 直方图明显右偏或箱线图冒出离群点时,按顺序处理:① 核查离群点是不是录入错误(是→改正或剔除并记录,否→保留);② 若是真实的偏态,可考虑数据变换(如对数变换)或改用非参数方法(下一课的 Mann-Whitney U / Kruskal-Wallis)。不要因为“想要正态”就偷偷删点
  3. AI 段落不达标(漏报效应量、改了数值、措辞越界)→ 局部纠偏,且永远以你的输出为准。
    • 改动或编造了数值 → 这是最危险的情况,直接弃用该句并在提示词里补一句“严禁改动我粘贴的任何数字,逐字照用”;任何与你 Jamovi 输出对不上的数字,一律以你的输出为准。
    • 把相关写成因果 → 追加“描述统计段不得出现‘导致/证明/影响’等因果词,只描述相关与方向”。
    • 漏了解读、只堆数字 → 追加“每个统计量后补一句中文解读(高/中/低、是否近似正态)”。

一句话

首版不理想,先分清是数据问题(回去查清洗)、分布问题(看图再定处理)、还是翻译问题(局部纠偏 AI 段落)。无论哪种,红线不变:数字只能由你算出,AI 只能翻译,不能代算或篡改。


边界与局限:描述统计与 AI 在这一步的能与不能

描述统计是“看清数据”的工具,但它有明确的能力边界;AI 在这一步的角色更要划清。把下面几条记牢,比多背一个指标更重要。

边界 / 失效场景为什么会这样你应该怎么做
均值掩盖分布M 是单一中心点,两组 M 相同但分布(双峰、偏态、离散度)可能完全不同;只看 M 会丢掉关键信息连续变量先画直方图与箱线图,M 必与 SD、分布形状一起读
偏度/峰度只是辅助判据数值达标不代表分布真“正态”,仍可能多峰或有重尾;阈值本身也因方法而宽严不一数值与图形结合判断;阈值分保守(近似对称)与参数检验容忍线两档使用
描述统计不能下因果相关、均值差异只反映“相伴变化/分布差异”,给不出方向与机制因果留给设计(实验/可信识别策略)与后续模型;描述段措辞止于“相关/差异”
离群点不能见到就删离群点可能是录入错误,也可能是真实且重要的极端个案,盲删会引入偏倚先判明来源:录入错→改正/剔除并记录;真实极端值→保留并在文中说明
p 值与效应量易被误读大样本下极弱的相关也会“显著”,显著≠重要;只盯 p 会高估实际意义报 r/差异的大小(效应量)与 N,结合实质判断,呼应下一课“必报效应量”
AI 只能翻译,不能代算大模型不接入你的数据、不做可信计算,让它“算 M/SD/相关”只会得到看似合理实则编造的数字(幻觉 hallucination)所有统计量在 Jamovi/SPSS 亲手跑;AI 仅把你粘贴的输出转写成规范段落

⚠️ 本课红线:AI 翻译结果,绝不代算统计量

这是贯穿整个量化模块的硬规则:凡是均值、标准差、偏度、峰度、相关系数、p 值——一律由你在统计软件里算出,AI 的唯一职责是把这些已经算好的数字翻译成符合 APA 的中文段落。任何时候 AI 给出的数字与你的软件输出不一致,以软件输出为准,并视为 AI 出错。把“算”留给软件、把“写”交给 AI、把“判断”留给自己——三者不可混淆。


📦 本课交付物

按本节实操任务完成并提交以下内容,提交 AI 初审,按 Module_Rubrics.md 对应维度评分:

  • [ ] 样本特征段(约 100 字):N + 性别 / 年龄 / 年级 / 专业分布,含构成解读
  • [ ] APA 描述统计表:含 M / SD / Min / Max / Skew / Kurt 完整字段
  • [ ] APA 相关矩阵表:三个核心变量的 Pearson r + 显著性标注
  • [ ] 4 张学术图表:柱状 + 直方 + 箱线 + 散点(300 dpi PDF)
  • [ ] Results 第一段草稿(约 250 字):AI 辅助翻译 + 人工核对(数字逐一比对 Jamovi 输出)
  • [ ] 四维质检记录:用 Course_QA_Checklists.md(事实 / 逻辑 / 格式 / 引用)核查 AI 段落,重点查“数字是否被改动、是否出现因果措辞”
  • [ ] 沉淀模板:将本课两个 Prompt(图表生成、描述统计翻译)加入个人工具箱

🏁 本章小结

把本课凝练成可据以复习的几条要点:

  1. 为什么先看描述:描述统计是正式分析的“地基勘察”——先看清数据的集中趋势(M)、离散(SD)、分布形状(偏度/峰度)与异常,才能判断后续参数检验的前提是否满足。跳过它直接做检验,等于不勘察就盖楼。
  2. 三项产出:① 样本特征(频数表 + 文字);② 核心变量描述(APA 三线表,含 M/SD/极值/偏度/峰度);③ 相关矩阵(为回归铺垫)。三者构成论文 Results 的标准开篇。
  3. 核心术语要precise:均值(mean)报中心、标准差(SD)报离散、偏度(skewness)报对称性、峰度(kurtosis,软件报的是超额峰度、正态=0)报尾部。读这些数字不是抄表,而是把每个数“翻译”成关于这批人的一句话。
  4. 图先于数:偏度/峰度只是辅助判据(保守判据 |值|<1 称近似对称;参数检验容忍线约偏度≤2、超额峰度≤7),最终以直方图、箱线图为准——均值掩盖分布,先看图再下结论。
  5. 跨案例可迁移:Case A(横截面问卷)与 Case B(经管面板)共用“描述→看分布→看相关”三步骨架;面板数据多出“查 VIF 防多重共线性”一项(VIF<5 无忧、5–10 关注、≥10 严重)。
  6. 红线:描述统计只能谈相关与分布差异,不能下因果;所有统计量由你在软件里算出,AI 只翻译、绝不代算或篡改——数字对不上时一律以软件输出为准。

自测清单(可保留逐项打勾)

  • [ ] 我能说清“分析前为什么先看描述”,并讲出均值/SD/偏度/峰度各测什么。
  • [ ] 我能跑出完整描述统计(N / M / SD / Min / Max / Skew / Kurt),并把表做成 APA 三线表。
  • [ ] 我能解读相关矩阵中的强度(弱 / 中 / 强)与显著性,并知道相关 ≠ 因果。
  • [ ] 我的图表分辨率 ≥ 300 dpi、字号 ≥ 8pt,且能为不同问题选对图(柱状/直方/箱线/折线)。
  • [ ] 我清楚偏度/峰度的两档判据,知道软件报的是超额峰度(正态=0),并以图形为最终依据。
  • [ ] 我的 Results 描述段含解读且自然过渡,AI 生成后我逐一比对过数字、删除了任何因果措辞。

✍️ 思考与练习

下列练习用于把本节概念用起来(区别于“本课交付物”里的任务),建议写在你的本地笔记中。

练习 1(原理辨析)。 有同学说:“我两个班的考试均分都是 75 分,所以两个班水平一样。”请用本课原理说明,为什么仅凭均值相同就断言“水平一样”可能是错的;你会再看哪两个量、画哪张图来检验?

好答案要点:指出均值掩盖分布——M 相同但 SD、偏度、是否双峰可能完全不同(如一班集中在 75、另一班两极分化);应再看 SD 与分布形状,并画直方图/箱线图,必要时比较离散度,而非只比中心。

练习 2(描述统计读法,紧扣 Case A)。 取 Case A 清洗后数据,已知认知焦虑首题 Anxiety_1 的 M=3.18、SD=0.94(5 点量表)。请用一段规范文字报告并解读这两个数字,并说明:为什么仅凭 M、SD 还不足以断定该题“近似正态”,你会补做什么?

好答案要点:M≈3.18 落在量表中点略偏高、属中等偏上水平,SD≈0.94 接近 1 说明回答分散、人群内部分歧明显;指出 M/SD 不含分布形状信息,需查偏度/峰度并画直方图确认是否单峰对称、有无离群尾,数值与图形结合才能判断正态。

练习 3(跨案例 + 边界,紧扣 Case B)。 取 Case B 经管面板(30 省 × 10 年)。已知 DigEcon_IndexHumanCap_per10k 相关 r≈.86、HumanCap_per10k 的 VIF≈8。请说明:这两个数字在“描述阶段”各预警了什么?为什么 VIF≈8 属于“需关注但未到严重”?若直接把两者一起放进回归会有什么风险?

好答案要点:高相关 r≈.86 与 VIF≈8 共同预警多重共线性;按经验口径 VIF<5 无忧、5–10 需关注、≥10 严重,8 落在中间档故“关注但不必立刻删变量”;若不处理直接同入回归,系数会不稳定、标准误膨胀、符号可能反转——体现描述统计“先排雷”的价值。

练习 4(红线识别)。 你把 Case A 的原始 CSV 直接发给 AI,让它“帮我算一下三个量表的均值、标准差和两两相关,并写成 Results 段落”。它很快给出了一段格式完美、数字俱全的文字。请指出这一操作同时踩中了本课哪两条红线,以及正确的做法。

好答案要点:①让 AI 代算统计量——大模型不接入数据、不做可信计算,给出的 M/SD/r 极可能是幻觉(看似合理实则编造);②跳过了“自己在软件里算”的环节。正确做法是先在 Jamovi/SPSS 亲手跑出所有统计量,再把输出粘给 AI 让它仅做翻译,且逐一比对数字、以软件输出为准。

助力学者在 AI 时代极速产出高质量学术成果 · 55 课时双轨制 · plan v3.3