第 18 课:数据分析工具选型与环境准备
🎯 核心实操目标
学习目标:本课是模块三(量化数据分析)的起点。本课结束时,你需要依据自身的数理基础与时间预算,在「零代码图形工具」与「编程工具」两条路线中做出与自身条件匹配的工具选择,在本机完成安装部署,并用课程主数据集 Case A 跑通"导入数据 → 描述统计 → 出图 → 用 AI 把数字翻译成学术语言"的完整最小闭环。贯穿全模块的一条红线在本课首次确立:AI 只负责翻译你已经算出的结果,绝不替你计算或编造任何统计量。
📋 课前准备(5 分钟自检)
账号/工具
- [ ] Jamovi 2.5+(通识轨主推):jamovi.org
- [ ] SPSS 29+(备用,学校常有授权)
- [ ] Anaconda + Jupyter(技术进阶轨)
数据
- [ ] Case A 数据集(本模块主用):case_A_questionnaire.csv
- [ ] Case A 数据字典:case_A_data_dictionary.md
- [ ] 自己的真实问卷数据(如已收集)
AI 辅助平台
- [ ] Claude 4.8 / GPT-5(用作"学术翻译官"翻译统计输出)
应急通道
- 安装失败 → 用 JASP 替代 Jamovi(同源、免费)
- 数据导入报错 → 转 CSV UTF-8 编码再导入
- 跑出来不显著 → 不要改数据,回到本课检查清洗步骤
场景导入:选错工具,比"不会用"更耽误进度
进入数据分析阶段时,常见的一类情况是:学生仍在纠结要不要购置 SPSS,对其略显陈旧的界面心存畏难;或者因导师要求用 Python 做回归,光是配置 conda 环境就反复受阻——库版本冲突导致整个环境无法运行,迟迟跑不出一行结果,最终放弃。
问题往往不在能力,而在工具与自身条件的错配。对零编程基础的文科、社科学习者而言,选一件与自己基础匹配的趁手工具,其价值高于硬学一门并不必需的技术:免费、零代码的 Jamovi 完全可以跑出与 SPSS 同样规范、可写进论文的结果。本课要解决的,正是"用什么跑数据"这个看似琐碎、却常常拖垮整个分析阶段的前置决策。
原理:为什么"选趁手工具"优先于"硬学一门技术"
在比较具体工具之前,先建立一个本模块反复用到的判断标准:统计工具的本质是把一套既定的数学过程自动化,它本身不产生学术价值;产生价值的是你选对方法、读懂结果、并据此做出正确解释。 由此可以理解,为什么"选一件趁手的工具"通常比"硬学一门更高级的技术"更划算。
可以从三个角度理解这个判断:
- 三类主流工具跑的是同一套统计学。 一个独立样本 t 检验,无论在 Jamovi 点几下菜单、在 SPSS 走对话框、还是在 Python 写
scipy.stats.ttest_ind,背后都是同一个 t 分布与同一个公式,算出的 t 值、p 值、效应量在数值上是一致的(细微差异多来自默认设置,如方差齐性假设的处理)。换句话说,工具决定的是"操作便利度与可扩展性",不决定"结论对不对"。既然结果等价,对大多数问卷与中小型数据研究,学习成本最低、最快出规范结果的工具就是最优解。 - 工具的学习成本会挤占方法理解的时间,而后者才是稀缺的。 配环境、调代码、记菜单路径,这些都是一次性的操作性开销;真正决定论文成败的,是"该不该做这个检验、前提假设是否满足、结果能否支撑结论"这类方法层判断。把有限精力投到方法理解上,回报远高于投到工具操作上。零代码工具的意义,正是把操作性开销压到最低,让你尽快回到方法本身。
- 可扩展性是有上限的需求,不是默认需求。 Python/R 的优势在于处理超大规模数据、自定义模型、可复现的脚本化流程——这些在机器学习、大数据、需要反复重跑的场景里不可替代。但绝大多数硕博问卷研究的数据量与方法复杂度,远未触及零代码工具的天花板。为一个用不到的上限去支付陡峭的学习曲线,是典型的错配。是否需要编程工具,应由"研究本身的需求"决定,而不是"显得更高级"。
📐 一句话原理
工具是统计方法的"执行器",不是统计结论的"来源"。先按自身基础选最快上手的执行器,把省下的精力投到"方法选得对不对、结果读得懂不懂"上——这才是数据分析阶段真正的胜负手。这也解释了本课为何把零代码的 Jamovi 设为主线:不是它更"高级",而是它让你用最短路径跑出规范结果、最快进入方法层。
📘 关键术语(首次出现,先对齐定义)
- Jamovi:一款免费、开源的统计软件。界面为纯图形化、零代码,底层调用 R 的统计引擎(R statistical engine),因此既保留了 R 的计算严谨性,又免去了写代码的门槛。其特点是结果"响应式"——改动一个变量的类型或设置,所有依赖它的表与图会自动重算。
- SPSS(Statistical Package for the Social Sciences):商业统计软件,社科领域的老牌工具,菜单/对话框操作,多数高校有校园授权。功能成熟但为付费软件,界面相对陈旧。
- R / Python:通用的编程语言与统计/数据科学生态。能力上限最高(自定义模型、超大数据、脚本化可复现),但需要写代码,学习曲线较陡。R 偏统计,Python 偏数据科学与机器学习。
- R 统计核心 / 统计引擎(statistical engine):真正执行统计计算的底层程序。Jamovi、JASP 等图形工具本身只负责"界面与调度",把计算交给 R 引擎完成——这正是它们"零代码却结果规范"的原因。
- 零代码(no-code):通过点击菜单、拖拽变量完成操作,无需编写任何代码的交互方式。它降低的是"操作门槛",不降低对统计方法本身的理解要求(这一点见本课【边界与局限】)。
- APA 格式(APA style):美国心理学会的论文写作规范,规定了统计量(如 t、p、d、R²)在正文中的标准报告格式。本模块用 AI 把工具输出"翻译"成的,正是这种规范表述。
🗺️ 三类主流工具的定位对比
上图把选择压缩成一个判断:你的背景与研究需求,落在哪条路线上。 三条路线不是"好坏排序",而是"匹配与否"——下面用一张对照表,把各自的适用边界、代价与典型误判讲清。
三类工具横向对照
| 维度 | Jamovi(本课主线) | SPSS | Python / R |
|---|---|---|---|
| 价格 | 免费、开源 | 付费(多有校园授权) | 免费、开源 |
| 操作方式 | 零代码,菜单 + 拖拽 | 零代码,对话框 | 写代码 |
| 底层引擎 | R 统计核心 | 自有引擎 | 自身即引擎 |
| 学习曲线 | 最平缓,当天可上手 | 平缓,但界面偏旧 | 陡峭,需配环境、学语法 |
| 能力上限 | 覆盖问卷研究全流程(描述/相关/回归/信度/EFA/中介) | 同左,功能成熟 | 无明显上限(大数据、自定义模型、机器学习) |
| 结果可复现 | 保存 .omv 工程,改设置自动重算 | 可存语法(syntax) | 脚本化,复现性最强 |
| 最适合谁 | 零编程基础的文科 / 社科 / 商科 | 导师/期刊硬性要求 SPSS | 理工科、大数据、需反复重跑的流程 |
💡 一句话判据
先问"研究本身需不需要编程工具的上限",再问"我现有的时间够不够爬那条学习曲线"。 两问都指向"否",就选 Jamovi——它能把绝大多数硕博问卷研究跑到底,且当天就能出规范结果。工具是手段,尽快回到方法与数据才是目的。
选型"写好 vs 写砸":常见误判逐条对照
工具选择出问题,往往不在"选了哪个",而在"凭什么选"。下表把最高频的几种误判与稳妥做法并排对照:
| 决策点 | 写砸 ❌ | 写好 ✅ | 为什么 |
|---|---|---|---|
| 选择依据 | "Python 听起来更高级,我也学" | 按"研究需求 + 自身基础"选,问卷研究优先 Jamovi | 工具高级 ≠ 结论更可信;同一检验三类工具结果等价 |
| 学习投入 | 花三周配 conda 环境,没跑出一行结果 | 把这三周投到"方法选得对不对"上 | 操作开销是一次性的,方法理解才是稀缺资源 |
| 盲目跟风 | 看到师兄用 R 就跟着学,自己其实只做问卷 | 数据量与方法未触及上限时不必上编程工具 | 为用不到的上限支付陡峭曲线,是典型错配 |
| 破解软件 | 找 SPSS 破解版凑合 | 用免费合规的 Jamovi / JASP 替代 | 合规、免费且结果同样规范,无须冒版权风险 |
| 半途切换 | 分析做到一半因"不够炫"换工具重来 | 一旦选定且够用,做完再说 | 频繁切换工具的成本,远高于工具本身的差异 |
🚀 实操路线:选定 Jamovi 并完成第一次分析
📋 本课推荐的标准路线:本模块的实战环节统一适配免费、开源的 Jamovi。它底层调用 R 的统计核心,但界面纯图形化、零代码;一个很实用的特性是——改动一个变量的类型,所有依赖它的表与图会自动重算,不必手动重跑。
步骤一:安装部署(约 5 分钟)
- 打开浏览器访问:
https://www.jamovi.org/ - 点击页面上的 Download 按钮
- 选择带有
Solid标识的稳定版(不要选 Current,那是开发测试版) - Windows 用户下载
.exe安装包,Mac 用户下载.dmg,双击按提示安装即可,全程免费、无需破解 - 安装完毕,桌面出现紫色图标,点击打开
步骤二:导入 Case A 数据,完成第一次描述统计
💡 配套数据
本课用课程主数据集 Case A(大学生 AI 学习焦虑问卷,原始 N=540,清洗后约 500;课前准备里已下载 case_A_questionnaire.csv)。把它拖进 Jamovi 即可开始。本步骤直接在未清洗的原始文件上看一眼数据分布,正式的数据清洗在第 23–24 课。
Step 1 - 导入数据:把 case_A_questionnaire.csv 直接拖拽进 Jamovi 主界面,数据立刻以电子表格呈现。
Step 2 - 跑描述统计:点击顶部 【Exploration(探索)】→【Descriptives(描述统计)】。
Step 3 - 勾选变量:把左侧 Age(年龄)、Anxiety_1(焦虑题1) 拖进右侧 "Variables" 框,下方勾选 Histogram(直方图)。
预期产出(右侧实时出表,你跑出来应是这个量级):
| Variable | N | Mean | SD | Min | Max |
|---|---|---|---|---|---|
| Age | 540 | 20.6 | 1.6 | 18 | 24 |
| Anxiety_1 | 540 | 3.18 | 0.94 | 1 | 5 |
直方图应大致呈钟形(近似正态)。如果某个量表题均值贴着 1 或 5、或直方图严重偏向一边,先别急着分析——回头检查是不是漏了反向题处理(第 23 课)。 这一步只是"看一眼数据长什么样",真正的清洗在后面。
步骤三:用 AI 把数字翻译成方法段(走通一个正例)
把 Jamovi 的描述统计结果(或上面表里的数字)配合提示词发给 AI。注意提示词里给的是已经算出的数字,AI 做的只是"措辞转换":
我是一名研究生,用 Jamovi 跑了变量的描述统计。以下是已经算出的输出数字:
原始回收 N=540,Age 均值 20.6(SD=1.6,范围 18–24);Anxiety_1 均值 3.18(SD=0.94)。
请用专业学术语言,把这些数字翻译成可写进论文"研究方法 / 样本描述"的一段话(约 100 字),句式参考:
"本研究共回收问卷…份,受访者平均年龄…岁(SD=…)……"
要求:只转换措辞,不得改动或新增任何数字,也不要替我推断未给出的统计量。AI 应给你这样一段(正例):
本研究共回收问卷 540 份。受访者平均年龄为 20.6 岁(SD = 1.6),介于 18–24 岁之间,符合在校大学生群体特征。在 AI 学习焦虑首题上,样本均值为 3.18(SD = 0.94),处于五点量表的中间偏上水平,初步显示受访者存在一定程度的 AI 学习焦虑。(注:540 为原始回收数,剔除无效样本后的有效 N 约为 500,将在第 23 课清洗后确定。)
⚠️ AI 只负责把你已跑出来的数字翻译成学术语言;绝不要把原始数据丢给它让它"帮你算"——它没有接入你的数据文件,只会按概率编造一组看似合理的统计量。这条红线贯穿整个模块(第 30 课还会再次强调)。
至此你已用 Case A 走通"安装 → 导入 → 描述统计 → 出图 → AI 翻译"的最小闭环。下面换一个学科与数据形态完全不同的数据集,验证同一套工具逻辑与同一条红线是否照样成立。
Worked Example:换到经管面板数据(Case B),同一套逻辑照搬
第一个例子是心理问卷(横截面、宽表)。许多经管、公共管理方向的同学面对的是另一种数据形态——面板数据(panel data):同一批个体在多个年份上重复观测。换了学科、换了数据形态,本课的两件事(怎么选工具、AI 扮演什么角色)是否还成立?答案是肯定的,变的只是数据,不变的是流程。
这里采用 Case B 经管面板数据集:30 个省份 × 10 年(2014—2023)= 300 个观测,核心列含 DigEcon_Index(数字经济指数)、HumanCap_per10k(每万人专科以上人力资本)、Innovation_Index(创新指数)、IndustryStr_Tertiary(第三产业结构占比)。
先做工具选型判断(套用本课原理):这份数据是 300 行的省级面板,规模不大,后续要做的面板回归、多重共线性诊断、稳健性检验,Jamovi 都能覆盖;除非导师指定 Stata/R,否则没有理由为它单独去爬一门编程语言——和 Case A 的结论一致。把 case_B_provincial.csv 拖进 Jamovi,照样以电子表格呈现。
再跑一次描述统计(与 Case A 完全相同的菜单路径:Exploration → Descriptives),把 DigEcon_Index、Innovation_Index 拖进 Variables。你会得到这个量级的输出:
| Variable | N | Mean | 说明 |
|---|---|---|---|
| DigEcon_Index | 300 | ≈ 72 | 数字经济指数,300 个"省×年"观测 |
| Innovation_Index | 300 | ≈ 47 | 创新指数 |
注意 N=300 不是"300 个省",而是"30 省 × 10 年"的观测数——这是面板数据的特点,后续选回归模型时必须考虑(第 26 课)。本步骤同样只是"看一眼数据",不涉及任何因果或回归结论。
最后用 AI 翻译这一个已算出的数字(红线不变):
我在 Jamovi 跑了一份省级面板数据的描述统计,已算出的数字如下:
样本为 30 个省份 × 10 年(2014—2023),共 300 个观测;
DigEcon_Index(数字经济指数)均值约 72,Innovation_Index(创新指数)均值约 47。
请把这些数字翻译成可写进论文"数据与样本"小节的一段话(约 80 字)。
要求:只转换措辞;不得新增或推断任何数字;不要给出相关系数、回归结果等我没有提供的统计量。AI 应输出类似:"本研究使用 2014—2023 年中国 30 个省份的面板数据,共计 300 个观测……" 这类只复述已知数字的描述段。如果它"顺手"告诉你 DigEcon 与 Innovation 高度相关、或给出一个 R²,那就是越界编造——你并没有把相关或回归结果给它。 这类系数要等你在 Jamovi 里真正算出来(第 26 课)才能交给它翻译。
🔁 两个例子的共同点
对照 Case A 与 Case B:学科不同(心理学 vs 经管)、数据形态不同(横截面宽表 vs 面板)、变量不同,但走的是同一条流水线——按自身条件选 Jamovi → 拖入数据 → 跑描述统计看分布 → 把"已算出的数字"交给 AI 翻译。工具选型的判断标准、以及"AI 只翻译不代算"的红线,跨学科一字不变。把数据换成你自己的,照搬即可。
常见误区与纠正
工具选型与第一次上手阶段,问题高度集中在"选工具的依据不对"或"把 AI 当成了代你计算的工具"。下表是最高频的几种,照着对号入座:
| 常见误区 | 症状 | 纠正方法 |
|---|---|---|
| 以"显得高级"选工具 | 只做问卷却非要学 Python,环境配到崩溃还没出结果 | 按"研究需求 + 自身基础"选;问卷研究 Jamovi 足够,把精力留给方法 |
| 误以为换工具会改结论 | 担心"Jamovi 跑出来不被认可" | 同一检验三类工具结果数值一致;规范性看方法用得对不对,不看工具牌子 |
| 下载 Current 测试版 | 安装后功能异常、模块缺失 | 下载带 Solid 标识的稳定版,不要选 Current |
| 导入即报错 | CSV 中文乱码或分隔符错位 | 另存为 UTF-8 编码的 CSV 再导入(应急通道已列) |
| 把原始数据丢给 AI 算 | 让 AI "帮我算 α / 回归系数 / p 值" | AI 没接入你的数据,只会编造;只能让它翻译你已算出的数字 |
| 拿未清洗数据下结论 | 用 N=540 的原始数据直接谈"有效样本" | 描述统计只为"看分布";有效 N 须经清洗确定(第 23 课) |
输出不理想?如何排查与迭代
第一次上手,常会遇到"装不上、导不进、AI 翻译得不对"。按下面顺序定位,多数问题能自查解决:
- 先分清是"工具问题"还是"数据问题"。 软件打不开、模块缺失 → 工具侧(重装稳定版 / 换 JASP 替代);能打开但数据是乱码、列对不齐 → 数据侧(转 UTF-8、检查分隔符)。把这两类分开,才不会南辕北辙。
- 跑出来的数字明显异常,回到上游而非改数字。 某量表题均值贴着 1 或 5、直方图严重偏向一边,先怀疑反向题没处理或清洗没做(第 23 课),不要去动原始数据迁就"好看"。这正是本模块的红线:不显著、不好看都不许改数据。
- AI 翻译跑偏,多半是提示词没锁住边界。 它擅自加了数字或给了你没提供的系数 → 在提示词里补一句"只转换措辞、不得新增或推断任何统计量";翻译腔不像学术语言 → 补上目标句式与字数(如本课提示词所示)。这与第 3 课"提示词不满意就定位到具体哪一格"的迭代思路一致。
- 沉淀可复用的那一版。 一旦调出顺手的安装路径、导入设置与翻译提示词,连同它们一起存进个人工具箱,下次换数据集只改变量名即可。
一句话
装不上先换稳定版/JASP,导不进先转 UTF-8,数字异常回上游查清洗,AI 跑偏就把"不许代算"写进提示词。把能跑通的那套存成模板,下次直接复用。
边界与局限:工具与 AI 在这一步的"能"与"不能"
本课让你最快地"用上工具",但要同时记住它的边界——会用工具不等于会做研究,零代码不等于零门槛。
| 边界 / 失效场景 | 为什么会这样 | 你应该怎么做 |
|---|---|---|
| 工具不替代方法理解 | Jamovi 能一键跑出 t 检验、回归、中介,但"该不该做这个检验、前提假设是否满足、结果能否支撑结论"它一概不管。 | 把工具当执行器,方法判断仍要靠你(后续各课逐一补上)。零代码降低的是操作门槛,不是统计素养门槛。 |
| "一键出结果"会掩盖前提假设 | 软件不会拦你——数据不满足正态、方差齐性、样本量等前提,它照样给你一个数字。 | 每个方法的适用前提要单独学(描述/相关/回归/中介各有前提),不能因为"点得出来"就默认"做得对"。 |
| AI 只翻译,不代算(本模块第一红线) | 大模型没有接入你的数据文件,让它"算"统计量,它只会按语料概率编造一组看似合理的数字。 | 凡是你没算出来的数字,绝不让 AI"算/推/估";只让它翻译、解释你已经跑出的真实结果。 |
| 工具选型不是越强越好 | 能力上限高的工具往往学习曲线更陡;为用不到的上限买单,反而拖慢进度。 | 按需求选"够用且最快上手"的工具;需求升级了再升级工具。 |
| 结果可复现依赖你保存工程/脚本 | 关掉软件不存 .omv、或手动改了数却没记录,下次无法复现。 | 养成保存 Jamovi 工程文件、记录每一步操作的习惯,复现性从第一步就做起。 |
🚧 一句话守住底线
工具帮你更快地把数算出来,但"这个分析该不该做、前提满不满足、结果能不能这么解释"——这些判断始终是研究者的责任。而 AI 在本模块自始至终只有一个合法身份:把你已经算出的结果翻译成学术语言,绝不代算、绝不编造。会用工具是起点,不是研究本身。
📦 本课交付物
按本节实操任务完成并提交以下内容,提交 AI 初审,按 Module_Rubrics.md 对应维度评分:
- [ ] 本节实操产出:本节任务区块要求的具体文件 / 文本 / 截图
- [ ] AI 协作日志:至少 1 段完整的"任务描述 → AI 输出 → 人工修正"对话记录
- [ ] 四维质检记录:用
Course_QA_Checklists.md(事实/逻辑/格式/引用)核查本节 AI 输出的笔记 - [ ] 沉淀模板:将本课关键 Prompt / 流程 / 检查清单加入你的个人工具箱
🏁 本章小结
把本课凝练成可据以复习的几条要点:
- 核心判断:统计工具是统计方法的"执行器",不是结论的"来源"。先按自身基础选最快上手的工具(本课主线 Jamovi),把省下的精力投到"方法选得对不对、结果读得懂不懂"上。
- 三类工具等价又分工:同一检验在 Jamovi / SPSS / Python 中结果数值一致;区别在操作便利度与能力上限。Jamovi 免费、零代码、底层是 R 引擎,覆盖问卷研究全流程;SPSS 适合导师/期刊硬性要求;Python/R 适合大数据、自定义模型与脚本化复现。
- 选型判据:先问"研究需不需要编程工具的上限",再问"时间够不够爬学习曲线";两问皆否,选 Jamovi。不为"显得高级"或"随大流"选工具,不为用不到的上限支付陡峭曲线。
- 最小闭环:安装稳定版 → 拖入数据 →
Exploration → Descriptives跑描述统计看分布 → 把已算出的数字交给 AI 翻译成学术语言。Case A(心理问卷)与 Case B(经管面板)走的是同一条流水线,跨学科只换数据。 - 第一条红线:AI 没有接入你的数据,只能翻译/解释你已经算出的结果,绝不替你计算或编造任何统计量。让它"算/推/估"未给出的数字即造假;不显著、不好看也绝不改数据。
- 边界要诚实:会用工具 ≠ 会做研究,零代码 ≠ 零门槛。一键出结果会掩盖前提假设,方法判断与前提核验始终是研究者的责任。
自测清单(可保留逐项打勾)
- [ ] 我能说清"为什么选趁手工具优先于硬学技术",并知道同一检验在三类工具中结果等价。
- [ ] 我能依据"研究需求 + 自身基础"为自己选定工具,不再因"显得高级"盲目跟风学 Python。
- [ ] 我已成功安装并打开 Jamovi(稳定版),看到了第一个数据界面。
- [ ] 我已跑通"拖入数据 → 描述统计 → 出图 → 把数字交给 AI 翻译"的完整最小闭环(Case A 或 Case B 均可)。
- [ ] 我能准确区分 AI 的合法角色(翻译/解释已算出的结果)与越界行为(代算/编造统计量),并能说出至少两条工具的边界。
✍️ 思考与练习
下列练习用于把本节概念用起来(区别于"本课交付物"里的任务),建议写在你的本地笔记中。
练习 1(选型判断,紧扣 Case A)。 一名教育学研二学生只做一份问卷研究(数据结构同 Case A:N≈500,含 Anxiety_1..12、Strategy_1..8、Efficacy_1..7 等量表题),却打算先花一个月学 Python 再开始分析。请用本课原理说明:他这样做合不合算?你会建议他选哪个工具、为什么?
好答案要点:指出对这类规模与方法(描述/信度/相关/回归/中介)的问卷研究,Jamovi 已完全够用,且当天可上手;学 Python 的学习曲线挤占的是更稀缺的"方法理解"时间,属典型错配;同一检验三类工具结果等价,规范性不取决于工具牌子;建议先用 Jamovi 跑通,确有大数据/自定义模型需求再升级。
练习 2(红线识别,紧扣 Case A)。 你把 case_A_questionnaire.csv 的内容直接粘给 AI,并说"帮我算一下 AI 焦虑对学习自我效能的回归系数和 p 值"。AI 很快给出 "β = −0.34,p = 0.002,R² = 0.21",格式完美。请指出这同时违反了本模块/本课哪条底线,以及这些数字为什么不可信、你应该怎么做。
好答案要点:识别这违反"AI 只翻译已算出的结果、绝不代算/编造"的红线——AI 没有接入数据文件,上述系数是按概率编造的,与你真实数据无关,格式漂亮不等于真实;正确做法是先在 Jamovi 里真正跑出回归(第 26 课),再把已算出的真实数字交给 AI 翻译成 APA 表述。(注:Case A 的回归真值约为 R²≈0.20,但这要由你自己算出,不能向 AI 索取。)
练习 3(跨数据形态迁移,紧扣 Case B)。 取 Case B 经管面板数据(30 省 × 10 年 = 300 观测,含 DigEcon_Index、HumanCap_per10k、Innovation_Index)。请说明:① 为这份数据选工具时,你的判断和 Case A 是否一致、依据是什么;② 在 Jamovi 里跑描述统计时,N=300 代表什么、为什么不能理解成"300 个省";③ 如果 AI 在翻译描述统计时"顺手"告诉你 DigEcon 与 Innovation 高度相关,你该如何处理。
好答案要点:① 一致——300 行省级面板规模不大,Jamovi 可覆盖后续面板回归与诊断,无导师指定则不必上编程工具;② N=300 是"30 省 × 10 年"的观测数(面板数据),不是省份数,选回归模型时须考虑面板结构;③ 你并未提供相关系数,AI 给出即越界编造,应忽略,相关须自己在 Jamovi 算出(第 26 课)后再交给它翻译。
练习 4(边界辨析)。 有同学说:"我用的是零代码的 Jamovi,点几下就出结果,所以不用学统计方法也能做分析。" 请指出这句话错在哪里,并各举一个"工具能替你做"和"工具替不了、必须你自己懂"的例子。
好答案要点:错在把"零代码(操作门槛低)"误当成"零门槛(不需要统计素养)";工具能替你做的:执行公式计算、出表出图、改设置自动重算;工具替不了的:判断该不该做某检验、前提假设是否满足(正态/方差齐性/样本量)、结果能否支撑结论与如何解释——这些方法判断始终是研究者的责任。
