第 21 课:在线问卷工具实操
🎯 核心实操目标
学习目标:把第 20 课设计好的问卷搭建到主流在线问卷平台(问卷星 / 腾讯问卷 / Credamo 见数 / Qualtrics),正确配置强制作答、逻辑跳转、注意力检测题这三项质量控制机制,生成发放链接并完成预测试。本课同时讲清两件事:在发放之前如何用 G*Power 估算所需样本量,以及发放之后如何判定有效问卷——并诚实交代在线样本固有的代表性与自选偏差局限。
📋 课前准备(5 分钟自检)
工具/账号
- [ ] 问卷星:wjx.cn(国内主流,免费版可满足课程需要)
- [ ] 腾讯问卷:wj.qq.com(依托微信生态,便于社交链路扩散)
- [ ] Credamo 见数:credamo.com(带付费样本库,可定向投放被试,适合学术问卷)
- [ ] Qualtrics:qualtrics.com(国际学术常用平台,多数高校有机构授权)
- [ ] G*Power(样本量计算):gpower.hhu.de
数据/素材
- [ ] 第 20 课设计完成的问卷 Word 稿(含反向题位置图)
- [ ] 你的研究假设与计划使用的统计方法(用于 G*Power 估算最小样本量)
应急通道
- 学校不提供 Qualtrics → 用问卷星免费版(题数 < 50 即可)
- 微信群发被拦截 → 改用腾讯问卷生成的小程序链接
- 难以触达目标人群(如特定职业、特定地域)→ 用 Credamo 见数的付费样本库定向投放
- 不熟悉 G*Power → 用 GPT-5 把你的设计翻译成 G*Power 的输入参数(如"我要做 5 个预测变量的多元回归、期望中等效应量 f²=0.15,请告诉我在 G*Power 里该选哪个检验、填哪些参数"),但最终的样本量数字仍以软件算出为准。
场景导入:发了 500 份问卷,为什么仍然"白做了"
一位同学发出 500 份问卷、回收 380 份,进入分析阶段才发现问题:
- 他计划做的是多群组结构方程模型(按性别、年级分组比较),这类模型对样本量要求很高,单组往往需数百份、多组合计常在 800 份以上;
- 380 份不仅做不了分组比较,连基础模型都难以稳定估计;
- 更糟的是,问卷里没有设置任何注意力检测题,事后无法判断哪些是认真作答、哪些是随手点完的,"有效样本"的边界变得模糊。
这个案例暴露了在线问卷实操中两类最常见、也最致命的疏忽:一是发放前没有先算清楚"要发多少份",二是搭建时没有埋下"事后判断数据是否可信"的质量控制机制。 二者都不属于"设计题目"的范畴(那是第 20 课的事),而属于"把问卷正确地搬上平台并发出去"这一步——也正是本课要解决的问题。
原理:强制作答、逻辑跳转、注意力检测题为什么重要
在线问卷与纸笔问卷有一个根本差别:没有施测者在场。 纸笔施测时,发卷人可以提醒"请每题都填""这几道题方向相反,请看清楚";线上则全靠平台的机制设计替你"在场"。理解下面三项机制各自"在防什么",才能在搭建时正确取舍,而不是机械照搬。
📐 三项机制各自在解决什么问题(先理解,再配置)
1. 强制作答(forced response)——防的是"系统性缺失"。 把题目设为必答后,受访者不填该题就无法提交。它要解决的问题是缺失数据(missing data):核心量表若允许跳过,回收的数据会出现大量空格,轻则削减可用样本量,重则因"谁跳过、谁不跳过"本身与变量相关(如越焦虑的人越倾向跳过焦虑题),引入非随机缺失,使后续统计结论有偏。 但强制作答是一把双刃剑:对敏感题(收入、隐私、负面态度)一律强制,会逼出两种坏结果——要么受访者直接弃答退出(提高流失率),要么被迫胡乱填一个,反而污染数据。因此原则是:核心量表与关键人口统计变量设为必答,敏感题保留"不愿回答"选项。
2. 逻辑跳转(skip logic / branching)——防的是"答了不该答的题"。 逻辑跳转指根据前一题的回答,自动决定后续显示或跳过哪些题。例如"是否使用过 AI 工具?"选"否"者,就跳过后面所有关于"使用频率、使用体验"的题。它要解决的问题是逻辑适用性:不让受访者回答对其不适用的题。若不做跳转,从未用过 AI 的人被迫对"使用体验"打分,得到的只能是凭空臆造的噪声;同时无谓的题目会拉长问卷、加重疲劳效应(fatigue effect),间接降低后半段数据质量。
3. 注意力检测题 / 测谎题(attention check / instructed-response item)——防的是"人在填、心不在"。 这类题专门用来识别不认真作答(careless / inattentive responding)的受访者。最常见的两种形式:
- 指令式检测题(instructed-response item, IRI):题干直接给出指令,如"本题请直接选择'非常不同意'"。认真读题者必然选对,随手乱点者大概率选错。
- 反向题(reverse-coded item):把题意反过来问(如正向题"我使用 AI 时很从容"配一道反向题"我使用 AI 时感到紧张")。认真作答者在这两题上的方向应当相反;若一名受访者对同维度的正向题和反向题给出完全一致的高分,说明他没有逐题阅读,只是机械地拉同一档。
为什么必须事先埋好、不能事后补救?因为"这个人是否认真"在数据里不直接可见——你看到的只是一串分数。注意力检测题相当于在问卷里预先放好"试纸",把不可见的作答态度转化为可判定的对错信号。没有它,事后剔除无效样本就缺乏客观依据,只能靠"答得太快""全选同一项"等弱信号粗略判断。
📘 关键术语(首次出现,先对齐定义)
- 问卷星(wjx.cn):国内使用最广的在线问卷平台之一,免费版即支持矩阵量表、逻辑跳转、必答、答题时长统计等核心功能,适合课程练习与中小规模发放。
- Credamo 见数(credamo.com):面向学术研究的在线问卷与数据采集平台,特点是自带付费样本库,可按人口学条件(年龄、地域、职业等)定向投放、配额抽样,便于触达难以靠社交链路覆盖的人群;代价是单份样本有成本。
- 逻辑跳转(skip logic / branching):依据某题的回答,自动跳过或显示后续题目的设置,使每位受访者只回答对其适用的题。
- 注意力检测题(attention check item):嵌入问卷、用于识别不认真作答者的题目。常见为指令式检测题(instructed-response item)(题干直接规定应选的答案)与反向题(reverse-coded item)(题意反向,用作答方向是否一致来判断)。
- 强制作答(forced response):将题目设为必答,未作答即无法提交,用于减少核心变量的缺失。
- 自选偏差 / 自我选择偏差(self-selection bias):当"谁会来填问卷"由受访者自己决定时,最终样本在某些特征上系统性地偏离目标总体的现象(详见本课【边界与局限】)。
流程总览:问卷上线四步法
把"问卷搬上线"拆成可顺序执行的四步,每一步对应一个明确产出:
实操一:用 G*Power 估算最小样本量
"要发多少份"不能拍脑袋,而要由计划使用的统计方法与期望的效应量共同决定。不同分析对样本量的需求差异很大:
| 分析方法 | 最少样本量(中等效应量参考) | G*Power 选项 |
|---|---|---|
| 独立样本 t 检验 | 约 100 / 组(共约 200) | t Tests → Means: difference between two independent means |
| 单因素 ANOVA(3 组) | 约 50 / 组(共约 150) | F tests → ANOVA: Fixed effects, omnibus, one-way |
| 多元回归(5 个预测变量) | 92 | F tests → Linear multiple regression: Fixed model, R² deviation from zero |
| Bootstrap 中介(5000 次抽样) | 200+(经验法则,Fritz & MacKinnon, 2007) | 无直接选项,按经验法则取值 |
| EFA / CFA | 题项数的 10–20 倍(亦有 5:1 的较低标准) | 无直接选项,按经验法则取值 |
| 多群组 SEM | 数百份起,常 800+ | 复杂模型,需分组保证每组样本充足 |
⚠️ 关于上表数字的三点说明(避免误读)
- 这些是"参考下限",不是"目标"。 中等效应量是常用的折中假设;若你预期的效应更小,所需样本会显著增大。
- t 检验与 ANOVA 那两行是依"中等效应量 + power=.80"的常规约定给出的近似量级,精确数字仍须在 G*Power 中按你自己的效应量设定算出,不要直接抄表。
- Bootstrap 中介、EFA/CFA、多群组 SEM 在 G*Power 里没有现成对应项,表中给的是文献中通行的经验法则;EFA/CFA 的"题项数 × 倍数"只是粗略起点,真正的充分性还取决于公因子载荷与共同度,不能仅凭倍数下定论。
G*Power 操作示范(多元回归,可照做)
下面以"5 个预测变量、期望中等效应量"的多元回归为例,走一遍 A priori(事前)功效分析。这一例的输出是 G*Power 的标准结果,可直接复核:
1. 打开 G*Power
2. Test family: F tests
3. Statistical test: Linear multiple regression: Fixed model, R² deviation from zero
4. Type of power analysis: A priori: Compute required sample size
5. 输入参数:
- Effect size f²: 0.15 (中等效应量,Cohen 约定)
- α err prob: 0.05
- Power (1−β err prob): 0.80
- Number of predictors: 5
6. 点击 Calculate
7. 输出:Total sample size = 92💡 冗余原则:算出 92 是"分析阶段需要的有效样本数"。考虑到在线发放会有一部分无效作答,实际应发出更多——例如按预留 30–40% 无效率计,目标发放量取 150 份左右(详见实操三对无效率的说明)。
⚠️ 红线:样本量必须由 G*Power 算,AI 只能帮你"翻译输入"
本模块的统一红线是——统计量只能由统计软件算出,大模型只负责翻译与解释,绝不代算。 放到本课就是:你可以让 AI 帮你把研究设计翻译成 G*Power 的输入(该选哪个检验族、f² 该填多少、predictors 数怎么数),但最终那个样本量数字必须以 G*Power 的输出为准。让 AI 直接"估个大概要 200 份吧",等同于让它编造统计量,属于造假。
实操二:问卷星全流程(以国内主流平台为例)
下面以问卷星为例走通搭建流程;腾讯问卷、Credamo 见数的操作逻辑高度类似,差异主要在发放渠道与样本来源(见实操四)。
注册与新建
- 在 wjx.cn 注册账号(免费)。
- 控制台 → 创建问卷 → 选择"调查问卷"类型。
- 从 Word 稿批量录入:问卷星支持文本批量导入,按"每题一行、选项另起一行"的格式粘贴,可一次性导入大量题目,再逐题校正题型。
题型选择(量表题用"矩阵单选")
| 题型 | 适用 | 注意 |
|---|---|---|
| 单选题 | 性别 / 年级 / 单条目量表 | 默认题型 |
| 矩阵单选 | 李克特量表(主要用) | 同一屏呈现多题,节省篇幅、降低疲劳 |
| 多选题 | 兴趣 / 偏好 | 不适合量表(量表须强制单选一档) |
| 填空题 | 年龄 / 开放题 | 数值题加数字格式校验 |
| 评分题 | 满意度等单维评分(1–5) | 与单选量表略有差异,按需选用 |
关键设置(本课重点:三项质控机制如何落到平台)
把【原理】里讲的三项机制对应到问卷星的具体开关:
- 强制作答(必答):人口统计中的关键控制变量 + 所有核心量表题设为必答;敏感题(如收入、负面态度)不强制,或提供"不愿回答"选项,避免逼出弃答或乱填。
- 逻辑跳转:典型用法是"是否使用过 AI 工具?"选"否" → 跳过后续使用频率 / 体验相关题,直接到末尾或下一板块。每设一条跳转后,务必预填一遍各分支,确认走向正确。
- 注意力检测题落地:① 在量表中部插入一道指令式检测题(如"本题请选择'非常不同意'");② 让第 20 课设计的反向题保持分散、不扎堆,作为作答一致性的旁证。两者都不要放在第一题或最后一题。
- 答题时长统计:务必勾选记录每份问卷的作答时长,用于事后剔除明显过快(如核心量表 20+ 题却在 60 秒内答完)的样本。
- 防重复作答:按需开启 IP 限制 / 微信限制,降低同一人反复提交刷量的可能。
发布与回收
- 点击"发布问卷"。
- 选择"链接"或"二维码"两种分发形式。
- 把链接发到目标渠道(微信群 / QQ 群 / 邮件 / Credamo 样本库等,见实操四)。
- 实时监控回收数与作答时长中位数,若中位时长异常偏低,需警惕集中刷量。
实操三:有效问卷判定标准
回收的问卷并非份份可用。判定分两层:平台可自动拦截的"硬条件",与下载数据后需人工复核的"软信号"。
自动判定(平台层,搭建时即可设定)
- ⛔ 作答时长 < 60 秒(核心量表 20+ 题,正常作答不可能这么快)
- ⛔ 缺失值比例 > 20%(强制作答设置得当可大幅减少此类)
- ⛔ IP / 设备重复提交
人工复核(数据下载后逐条核查)
| 检查项 | 判定依据 |
|---|---|
| 连续 10+ 题全选同一选项 | 疑似不加区分地"拉直线"作答 |
| 指令式检测题选错(如要求选"非常不同意"却选了别的) | 未逐题阅读,作认真度存疑 |
| 同维度反向题与正向题方向完全一致 | 未理解题意 / 机械作答 |
| 开放题填"啊啊啊""不知道"等无意义内容 | 无效作答 |
| 人口统计自相矛盾(如"博士在读"+"15 岁") | 信息不真实 |
💡 无效率:发放前就要预留的冗余
- 学术在线问卷的无效率通常约 20–30%(无监督的线上发放往往更高)。
- 受访动机较强的场景(如企业内部、付费样本库定向投放)无效率相对较低。
- 因此样本量要"倒推着发":若分析阶段需要 200 份有效问卷,按 30% 无效率计,应至少发出约 280 份。
一个绑定真实数据的判定示例(Case A)
把上面的标准对到本课程的 Case A 心理问卷数据集:该数据集的原始回收量为 N=540,经清洗后保留 N=500,即约 40 份(约 7.4%) 在清洗阶段被剔除。剔除依据正是上面这套——作答时长异常、缺失过多、检测题/反向题暴露的不认真作答等。
⚠️ 这里要守住红线:上面这两个数字(540、500)是课程数据集既定的真实取值,不是任何统计软件"算出"的结论,更不能让 AI 替你"估计应该剔除多少份"。剔除哪几份、依据是什么,须由你对照判定标准逐条人工裁定;AI 至多帮你把"剔除理由"整理成规范的方法学描述(如"剔除作答时长低于 3 分钟者 35 份及量表题存在零星缺失者 5 份,共 40 份,最终有效样本 N=500"),而不能替你决定剔谁、剔多少。
实操四:发放渠道与样本来源选择
渠道决定了"谁会看到并填写你的问卷"——这一步直接关系到下一节要讨论的自选偏差。常见渠道各有取舍:
| 渠道 | 优点 | 局限 | 适用 |
|---|---|---|---|
| 学校邮件群发 | 触达目标群体精准 | 打开/回收率偏低(常 5–10%) | 全校规模调查 |
| 微信群分发 | 转发快、零成本 | 样本集中于熟人圈层,代表性受限 | 中等规模 |
| 微博 / 小红书带话题 | 触达面广 | 样本质量参差、难以控制构成 | 探索性研究 |
| Credamo 见数付费样本库 | 可定向投放、按配额抽样,触达难覆盖人群 | 单份样本有成本 | 需要特定人群或配额控制的学术问卷 |
| Prolific / MTurk | 国际化标准样本池 | 付费且多为英文界面 | 面向国际期刊(SSCI)投稿 |
| 雪球抽样(受访者再转介) | 便于触达隐蔽 / 小众群体 | 样本沿社交网络聚集,偏倚明显 | 难以直接接触的特殊群体 |
💡 渠道与样本量的连带关系
渠道的回收率直接影响你要"撒"多大的网。例如目标有效样本 280 份、走学校邮件群发(回收率按 8% 估),理论上需触达约 3500 人;若改用付费样本库定向投放,所需触达基数会小得多,但要承担样本成本。先定样本量,再据渠道回收率倒推投放规模,是这一步的基本算法。
写好 vs 写砸:搭建在线问卷时最常见的取舍失误
同一份设计良好的问卷,搬上线时的几个开关设错,照样会毁掉数据。下面把最高频的失误并排对照——左列是学员真实常见的设置,右列是把同一处"拧紧"后的设置。
| 环节 | 写砸 ❌ | 写好 ✅ | 为什么 |
|---|---|---|---|
| 强制作答范围 | 把所有题(含收入、隐私、敏感态度)一律设为必答 | 仅核心量表与关键控制变量必答;敏感题给"不愿回答"选项 | 全员强制敏感题会逼出弃答或乱填,反而污染数据 |
| 逻辑跳转 | 不做跳转,让没用过 AI 的人也填"使用体验" | "是否用过 AI"选否 → 跳过体验类题 | 不适用的题只会产生臆造噪声,并拉长问卷加重疲劳 |
| 注意力检测题 | 完全不设,或全部扎堆在结尾 | 指令式检测题置于中部,反向题分散嵌入 | 无检测题则事后剔除缺乏客观依据;扎堆易被识破或答题已疲劳 |
| 答题时长 | 不记录时长 | 勾选记录每份时长,事后剔除明显过快者 | 没有时长这一旁证,最强的"乱填"信号就丢了 |
| 渠道与代表性 | 只发自己的微信群,却写成"面向全体大学生" | 据目标总体选渠道,并在局限中如实交代样本来源 | 渠道决定样本构成,错配会埋下自选偏差且夸大外推范围 |
让 AI 帮上忙的正确姿势(提示词)
在本课,AI 的合规用途是翻译与生成文字,不是替你算样本量、更不是替你判定有效样本。下面给一个可直接复制的提示词示例:把 G*Power 已经算出的结果,连同你的设计,让 AI 整理成规范的"样本量与数据采集"方法学段落。
【角色】熟悉社会科学定量研究方法、按 APA 7th 规范写作的论文方法学编辑。
【背景】我已用 G*Power 完成事前功效分析,结果如下(请勿改动这些数字,
也不要自行重新计算):
- 计划分析:5 个预测变量的多元回归
- 设定:效应量 f²=0.15、α=.05、power=.80
- G*Power 输出的最小样本量:92
我计划在线发放,预留 30% 无效率,目标发出约 150 份;
通过问卷星投放,设置了核心量表强制作答、一道指令式注意力检测题、
若干分散的反向题,并记录作答时长。
【任务】据上述信息,撰写一段约 200 字的"样本量与数据采集"方法学描述,需包含:
1. 功效分析的依据与所得最小样本量(直接引用我给的 92,不要改);
2. 采取了哪些质量控制机制(强制作答 / 注意力检测题 / 反向题 / 时长记录);
3. 计划的无效样本剔除标准(时长过短、未通过检测题、缺失过多等)。
【红线】
- 不得自行"重新估算"或改动样本量数字;
- 不得替我判断"应剔除多少份"或编造回收率、无效率的具体数值;
- 凡涉及具体统计量,一律以我提供的为准。💡 这段提示词为什么"安全"
它把 AI 的角色严格限定在把已有数字和已做的设置组织成规范文字,所有统计量(样本量、效应量)都由我提供、并明令"不得改动"。这正是本模块红线的落地写法——让 AI 翻译已算出的结果,而非代算。
边界与局限:在线样本的代表性与自选偏差
把问卷搬上线,便利的代价是样本代表性的系统性折损。这一节单独讲清在线发放固有的几类偏差——它们无法靠"多发几份"消除,只能靠设计缓解、并在论文局限中如实交代。
📘 关键术语:代表性与几类偏差
- 代表性(representativeness):样本在关键特征上能否反映目标总体。代表性差,则样本统计量对总体的外推无效。
- 自选偏差 / 自我选择偏差(self-selection bias):当"是否参与"由受访者自行决定时,愿意填问卷的人往往在某些特征上不同于不愿填的人(如对该主题更感兴趣、更有空闲、态度更鲜明),导致样本偏离总体。在线问卷因"看到链接才可能填、填不填全凭自愿",自选偏差尤为突出。
- 覆盖偏差 / 抽样框偏差(coverage bias):发放渠道决定了"谁有机会被抽到"。只在某个微信群发放,群外的人根本无机会进入样本,群体构成因此被渠道锁死。
- 无应答偏差(nonresponse bias):看到问卷却选择不填的人,若与作答者系统性不同,也会使样本有偏。回收率越低,这一风险越大。
| 边界 / 失效场景 | 为什么会这样 | 你应该怎么做 |
|---|---|---|
| "在线方便样本"≠ 总体的随机样本 | 链接靠社交网络扩散,能填到的人天然集中在你的圈层与活跃用户中,并非从总体随机抽取。 | 论文中如实写明抽样方式为"便利抽样 / 自愿参与",不把结论无限外推到"全体大学生"。 |
| 自选偏差:愿意填的人本就不同 | 对主题更关心、态度更鲜明者更可能点开作答,样本在关键变量上整体偏移。 | 用 Credamo 见数等做配额抽样控制关键人口结构;报告样本构成并与总体比对,讨论可能偏移方向。 |
| 覆盖偏差:渠道锁死了样本框 | 单一渠道(仅某群、仅某校邮件)把可被抽到的人限定在小范围内。 | 多渠道并用扩大覆盖;明确界定可推广的总体边界(如"本校全日制本科生"而非"大学生")。 |
| 无应答偏差:低回收率放大偏倚 | 回收率越低,作答者越可能是"特别在意 / 特别有空"的少数。 | 提升应答(适度激励、缩短问卷、清晰说明用途),并报告回收率,必要时做无应答分析。 |
| 质控机制有上限,挡不住"代表性"问题 | 注意力检测题只能剔除"不认真者",无法纠正"样本本来就偏"。 | 把"数据质量"(认真度)与"样本质量"(代表性)分开看待:前者靠机制,后者靠抽样设计与诚实披露。 |
🚧 一句话守住底线
强制作答、逻辑跳转、注意力检测题能提升单份问卷的作答质量,但它们改变不了"谁来填"这件事。代表性与自选偏差属于抽样层面的问题,只能通过渠道设计、配额控制来缓解,并在研究局限中如实交代——而不能假装它不存在,也不能指望 AI 替你"修正"成一个看起来更具代表性的样本。
常见误区与纠正
在线问卷实操阶段,学员的问题高度集中在"机制设了,但设歪了"或"该算的没算"。下表照着对号入座即可:
| 常见误区 | 症状 | 纠正方法 |
|---|---|---|
| 没算样本量就发 | 回收后才发现样本不够支撑计划的分析(尤其分组比较 / SEM) | 发放前用 G*Power 按计划方法与效应量估算最小样本,并预留无效率冗余 |
| 全员强制作答 | 敏感题逼出大量弃答或乱填,流失率升高 | 核心题必答、敏感题保留"不愿回答";强制范围分级设定 |
| 没设注意力检测题 | 事后无法客观区分认真 / 乱填,剔除全凭主观 | 中部插入指令式检测题 + 分散反向题,把作答态度转成可判定信号 |
| 反向题扎堆或放两端 | 受访者识破规律,或在疲劳段被乱答,检测失效 | 反向题分散嵌入量表中部,彼此间隔,避免连续 |
| 逻辑跳转没预填验证 | 跳转走向写反,部分人漏答或多答整块题 | 每设一条跳转就预填各分支走一遍,确认无误再发布 |
| 把"无效率"当成事后才考虑的事 | 按需要的有效样本数直接发,结果剔除后不够用 | 发放量 = 需要的有效样本 ÷(1 − 预估无效率),倒推后再发 |
| 拿便利样本下全称结论 | 只在熟人圈发,却写"面向全体大学生" | 据数据可支持的范围措辞,并在局限中交代抽样方式与潜在偏差 |
输出 / 结果不理想?如何排查与迭代
把问卷发出去后,常见的不是"一次到位",而是回收过程中出现各种异常。按下面顺序定位,多数问题可在发放期内补救:
- 回收数远低于预期 → 先看是不是渠道触达基数不够(用回收率倒推应触达人数),再看问卷是否过长导致中途流失(对照第 20 课的时长区间)。优先扩渠道 / 适度激励,而非反复催同一批人。
- 作答时长中位数异常偏低、回收数却突增 → 警惕集中刷量。开启 IP / 设备限制,并把这批短时长样本标记待人工复核。
- 注意力检测题通过率过低 → 可能是检测题题干表述不清(被认真作答者也误选),先复核题面是否有歧义,再决定剔除阈值,避免误杀认真样本。
- 缺失集中在某几道题 → 多半是这些题敏感或表述费解,或逻辑跳转设置有误把该显示的题跳掉了。回到平台核对跳转逻辑与必答设置。
- 样本构成明显偏斜(如某性别 / 年级占比异常) → 这是抽样而非搭建问题,靠换 / 增渠道或配额投放(如 Credamo 见数)来纠正,不能靠剔数据"凑"出均衡。
一句话
回收期出问题不代表前面白做。先分清是搭建层(必答 / 跳转 / 检测题设置)、渠道层(触达与回收率)还是抽样层(代表性)的问题,再对症处理——三层的修法完全不同。
📦 本课交付物
按本节实操任务完成并提交以下内容,提交 AI 初审,按 Module_Rubrics.md 对应维度评分:
- [ ] G*Power 样本量计算截图:含输入参数(检验族 / f² / α / power / predictors)+ 输出的最小样本量
- [ ] 在线问卷链接(问卷星 / 腾讯问卷 / Credamo 见数任一):可被外部点击访问,且已配置强制作答、逻辑跳转、至少一道注意力检测题、答题时长统计
- [ ] 预测试报告:找约 10 人试填,记录平均完成时间、卡点,以及逻辑跳转是否走向正确
- [ ] 发放计划表:列出渠道 + 预期回收率 + 倒推的投放规模 + 时间节点,并注明该渠道可能带来的代表性局限
🏁 本章小结
把本课凝练成可据以复习的几条要点:
- 核心流程:问卷上线分四步——估算样本量(G*Power)→ 搭建问卷 → 配置质控 + 预测试 → 发放并监控回收。"要发多少"在第一步就要算清,不能拍脑袋。
- 三项质控机制各防什么:强制作答防系统性缺失(但敏感题不可一律强制);逻辑跳转防受访者回答不适用的题、并缩短问卷;注意力检测题(指令式 + 反向题)把"是否认真作答"这一不可见的态度,转化为可判定的对错信号。三者都须在搭建时埋好,事后无法补救。
- 样本量由软件算、AI 只翻译:G*Power 的事前功效分析(如 5 预测变量、f²=0.15、α=.05、power=.80 → 92)给出"分析阶段需要的有效样本数";再按预估无效率倒推实际发放量。AI 可帮你把设计翻译成 G*Power 输入、把结果写成方法段,但绝不能代算样本量或替你判定剔除多少份。
- 有效问卷判定分两层:平台自动拦截(时长过短 / 缺失过多 / 重复提交)+ 人工复核(拉直线 / 检测题选错 / 反向题方向一致 / 开放题无意义 / 信息自相矛盾)。Case A 的"540 → 500"正是这套标准的真实落地,剔除依据须逐条人工裁定。
- 边界要诚实——质控管不了代表性:在线发放固有自选偏差、覆盖偏差、无应答偏差,注意力检测题只能保证"认真度",保证不了"样本本来就偏"。代表性问题靠渠道设计与配额抽样缓解,并在研究局限中如实披露,不可掩盖、更不能让 AI"修"出代表性。
自测清单(可保留逐项打勾)
- [ ] 我能说清强制作答 / 逻辑跳转 / 注意力检测题三者各自"在防什么",并知道强制作答为何不能一刀切用于敏感题。
- [ ] 我用 G*Power 按计划的统计方法与效应量算出了最小样本量,并据预估无效率倒推了实际发放量。
- [ ] 我在平台上完整搭建了第 20 课的问卷,配齐了强制作答、逻辑跳转、至少一道指令式注意力检测题、分散的反向题、答题时长统计。
- [ ] 我做了约 10 人预测试,验证了逻辑跳转走向、记录了平均完成时间与卡点。
- [ ] 我能分辨"数据质量"(认真度,靠机制)与"样本质量"(代表性,靠抽样),并能在局限中如实交代我的样本来源与潜在偏差。
- [ ] 我清楚样本量、回收率、无效率这些数字一律以软件 / 实际回收为准,AI 只负责翻译,绝不代算或编造。
✍️ 思考与练习
下列练习用于把本节概念用起来(区别于"本课交付物"里的任务),建议写在你的本地笔记中。
练习 1(机制辨析)。 有同学为"保证数据完整",把问卷里每一道题(包括"家庭月收入"和"你是否曾因使用 AI 而产生焦虑"这类敏感题)全部设为强制作答。请用本课原理说明:这样做可能带来哪两类反效果?对敏感题,更稳妥的做法是什么?
好答案要点:指出全员强制敏感题会①抬高中途弃答 / 流失率,②逼出乱填,反而引入噪声甚至非随机缺失;正确做法是核心量表与关键控制变量必答、敏感题保留"不愿回答"选项或不强制;并能点明强制作答的本意是减少核心变量缺失,而非追求"零空格"。
练习 2(样本量估算,紧扣 Case A)。 你计划用 Case A 心理问卷数据集(清洗后 N=500,含 Anxiety_1..12、Strategy_1..8、Efficacy_1..7、反向题 Anxiety_4_R)做一项多元回归,用若干变量预测学习自我效能,预测变量数为 5,期望中等效应量。请写出你会在 G*Power 里如何设置(检验族 / 统计检验 / 各参数取值),它会算出最少需要多少有效样本;再说明:若按 30% 无效率,实际应发出约多少份?最后说明这一步里 AI 可以帮你做什么、绝不能帮你做什么。
好答案要点:F tests → Linear multiple regression (R² deviation from zero)、A priori、f²=0.15、α=.05、power=.80、predictors=5 → 输出 92;按 30% 无效率倒推 92 ÷ (1−0.30) ≈ 132 份(取整后适当上浮,如发约 150 份更稳);AI 可帮忙把设计翻译成 G*Power 输入、把结果写成方法段,但不能代算样本量、不能替定无效率数值或编造回收率——呼应"软件算、AI 译"的红线。
练习 3(注意力检测题设计)。 请为 Case A 的焦虑量表设计一道指令式注意力检测题和说明一道反向题如何用于一致性判断。再说明:为什么这两类题都应放在量表中部、彼此分散,而不是放在第一题或全部堆在结尾?
好答案要点:指令式检测题如"本题请直接选择'非常不同意'",认真者必选对、乱点者大概率选错;反向题(如正向"我使用 AI 时很从容"配反向"我使用 AI 时感到紧张")应在两题上方向相反,若同向高分则判为不认真;放中部且分散是为避免被受访者识破规律、避免落在疲劳段被乱答,也避免与首尾题位置效应混淆。
练习 4(边界识别)。 你只在本校两个考研交流微信群里发放了关于"AI 学习焦虑"的问卷,回收 300 份后,在论文里写:"本研究表明,当代大学生普遍存在 AI 学习焦虑。"请指出这句话同时踩中了本课哪两类偏差问题,并给出你会如何修改结论的措辞与披露方式。
好答案要点:识别①覆盖偏差 / 自选偏差——渠道仅限"考研群",样本集中于备考、对学业焦虑更敏感的人群,无法代表"当代大学生";②外推范围被夸大,应把结论限定在可支持的总体(如"本校参与备考、活跃于相关社群的本科生"),并在局限中如实写明采用便利抽样 / 自愿参与、样本可能偏向高焦虑群体;正确动作是缩小外推范围 + 诚实披露抽样方式,而非靠剔数据或让 AI"修"出代表性。
