第 20 课：问卷设计原则

🎯 核心实操目标

学习目标：把第 19 课产出的"题项列表"组装为一份结构完整、措辞合规、可供统计的问卷。本课先讲清一道好题项必须满足的三条底层标准——单一性、无诱导、可作答，再据此掌握问卷的六段结构（封面 / 人口统计 / 核心量表 / 反向题分散 / 开放题 / 致谢），并系统识别双重装填、诱导性、双重否定、专业术语等高频题项错误。本课的成败，最终体现在数据收回后量表的信度（Cronbach's α）与效度上：题项的工夫，决定了数据质量的上限。

📋 课前准备（5 分钟自检）

工具/账号

[ ] Word / Notion（用于排版问卷草稿）
[ ] GPT-5 或 Claude 4.8（用于题项审核 + 反向题设计）

数据/素材

[ ] 第 19 课的构念-维度-题项拆解表
[ ] 目标受访者画像（人口统计学维度有哪些必填？）
[ ] 你计划做的统计分析（决定哪些控制变量必须问）

应急通道

不确定题项是否双重含义 → 找 3 个非本研究领域的人试读，问"你以为这道题在问什么"
量表过长导致回收率低 → 优先精简非核心人口统计字段，不删核心量表

场景导入：题项写得不规范，再大的样本也救不回来

一种常见的开题挫败是这样的：问卷发放 500 份、回收近 400 份，样本量看似充足，但数据导入统计软件后，核心量表的 Cronbach's α 只有 0.4——远低于 0.7 的可接受门槛，意味着这批数据几乎无法支撑后续分析。
回看问卷，问题往往不在样本，而在题项本身。最常见的三处硬伤是： ① 形如"你是否不经常不使用 AI 工具？"的题——双重否定叠加，受访者需要先在脑中绕两道弯才能作答，理解成本过高，作答噪声随之增大； ② 形如"作为新时代大学生，你是否同意应积极拥抱 AI？"的题——诱导性措辞把"应该同意"写进了题干，多数人顺势选高分，得分被人为抬高； ③ 把同一构念的二十余道题连续排在一起——疲劳效应使受访者在后半段倾向于机械地连选同一选项，应答数据失真。
这三处都不是抽样能弥补的缺陷：它们发生在数据产生之前，一旦题目印上问卷，回收的就是被污染的数据。问卷设计的工夫，决定了数据质量的上限——本课要做的，正是在题目定稿前把这层上限抬高。

原理：一道"好题项"到底要满足什么

在排版问卷、套用结构之前，先建立一个可以逐题套用的判断标准。问卷题项不是普通的提问，它是测量工具的最小单元：每一道题都被当作潜变量（构念）的一个观测指标，最终要和同维度的其他题项一起被加总、计算信度、做因子分析。因此一道题"好不好"，不取决于读起来是否顺口，而取决于它能否稳定、无偏地把受访者真实的内在状态转换成一个可比的数字。

可以把这一要求拆成三条彼此独立、缺一不可的标准。它们正是后文八类错误的"上位法则"——每一类错误，本质上都是违反了其中某一条。

单一性（每题只问一件事）。 一道题只能承载一个构念维度。这是由测量模型决定的：统计上我们假设"题项得分 = 该构念的真值 + 误差"，若一道题同时问了"高效"和"准确"两件事（即双重装填 / double-barreled），受访者对二者评价不一致时就无从作答，得到的数字混合了两个来源，既无法归入任一维度，也会拉低该量表的内部一致性。为什么这样做：单一性是后续把同维度题项加总、计算 Cronbach's α 的前提；混题会直接污染信度。
无诱导（题干不暗示"应该怎么答"）。 题干必须保持中立，不把社会期望、研究者的预设立场或正确答案写进措辞。一旦出现"作为新时代大学生应该……""众所周知……"这类引导，受访者会受社会赞许性（social desirability）驱动去选"看起来得体"的选项，测到的是"他认为该说什么"而非"他真实怎么想"，构念效度随之受损。常见误用：把假设当题目问（"你是否同意 X 能提升效率？"），等于在收集对自己假设有利的数据。
可作答（受访者读得懂、答得出、有得选）。 题目要在目标受访者的认知与记忆能力之内：用词是他们日常熟悉的（避免 RLHF 这类专业术语 / jargon）、回忆范围是他们答得出的（"过去一个月用了几次"而非"通常用得多吗"）、选项要互斥且完备（覆盖所有可能且不重叠，必要时设"其他")。为什么这样做：超出可作答边界的题，受访者只能猜或随手选，产生的是噪声而非信息。

📐 这三条标准与统计的关系（为什么不是文字游戏）

单一性、无诱导、可作答看似是"措辞讲究"，实则直接决定下游统计能否成立：

单一性 → 信度（reliability）：只有每题测同一件事，同维度题项才"该相关"，Cronbach's α 才有意义；混题会让 α 莫名偏低（如本课开篇 α=0.4 的情形之一）。
无诱导 → 效度（validity）：题干诱导会让所有人趋同打高分，方差被压缩，测到的不再是构念本身，而是"社会期望"这个混入变量。
可作答 → 数据质量整体：读不懂、答不出的题制造随机作答，既稀释真实信号，也会在质量检查（如反向题、规律作答检测）中暴露为"无效样本"。

一句话：题项设计是统计分析的上游。上游每放进一个缺陷，下游的信度、效度、乃至整篇结论都要为它买单——而这一步无法用更复杂的统计模型在事后补救。

📘 关键术语（首次出现，先对齐定义）

题项（item）：问卷中的单道题，是测量构念的最小观测单元。多道题项加总后代表一个维度或构念的得分。
信度（reliability）：测量结果的一致性 / 稳定性——同一对象重复测量、或同维度多道题之间，结果是否一致。常用内部一致性指标 Cronbach's α（经验门槛：≥0.7 可接受，≥0.8 良好）。信度高不代表测得"对"，只代表测得"稳"。
效度（validity）：测量是否真正测到了想测的那个构念（测得"对不对"）。题干诱导、答非所问都会损害效度。信度是效度的必要而非充分条件。
双重装填题（double-barreled item）：一道题里塞了两个及以上独立的提问点（如"既高效又准确"），违反单一性，受访者对各点评价不一致时无法作答。
社会赞许性（social desirability）：受访者倾向于给出"显得体面 / 符合期望"的答案而非真实想法的应答偏差；诱导性题干会放大它。
反向题（reverse-scored item）：与所测构念方向相反的题（同意=没有该构念）。用于打散同意倾向、识别不认真作答；计分时须先反向重编码（如 Anxiety_4_R = 6 − Anxiety_4）才能与同维度正向题合并。
互斥且完备（mutually exclusive & exhaustive）：选项设计的两条要求——任意两个选项不重叠（互斥）、所有可能取值都被覆盖（完备），二者共同保证每位受访者恰好对应一个选项。

问卷的六段结构

题项合格只是基础，把合格的题项按什么顺序组装同样影响数据质量。下图给出一份规范问卷的六段结构：封面建立信任与知情同意，人口统计采集控制变量，核心量表交叉分散以抑制疲劳效应，反向题埋点用于质量检查，开放题留出补充信息，致谢交代数据用途。

常见题项错误对照表（八类）

下表把违反三条标准的高频错误集中列出。每一类都标注它触犯了哪条原理（单一性 / 无诱导 / 可作答），并给出可直接照搬的修正。逐题对照此表自查，是题目定稿前的标准动作。

❌ 错误类型	触犯的标准	反例	✅ 修正
双重否定	可作答	"你是否不经常不用 AI 工具？"	"你使用 AI 工具的频率是？"
诱导性	无诱导	"作为新时代大学生，你是否同意应积极拥抱 AI？"	"你对使用 AI 工具的态度是？"
双重装填	单一性	"你认为 AI 既高效又准确吗？"	拆为两道题，分别问"高效"和"准确"
专业术语	可作答	"你对 RLHF 范式的看法？"	换成日常语言，或对术语加一句注释
范围 / 频率不明	可作答	"你经常用 AI 吗？"（"经常"无统一标准）	"过去一个月使用 AI 的次数：1=0 次 …… 5=20 次以上"
题目过长	可作答 / 单一性	50 字以上的复合从句，往往暗藏多个提问点	拆为 2–3 个独立、简短的题项
选项不互斥	可作答	"经常 / 偶尔" 并列但未定义阈值，受访者归类标准不一	改用具体频次（如"每周 X 次"）划定边界
选项不完备	可作答	"你的专业是：文科 / 理科"（漏了工科、艺体）	补全常见类别，并加"其他（请注明）"

反向题的埋设规则

反向题的作用是质量控制：通过插入方向相反的题，打散"一路选同一档"的同意倾向，从而暴露不认真作答的受访者（如不看题干、全部勾 5 分的样本）。但反向题用得不当反而会引入噪声，需遵循以下埋设规则：

每个量表至少 1 道反向题，但占比不宜超过 1/4（过多会让受访者频繁切换方向，增加误答）；
反向题安排在量表中部，不放在首题或末题（首末题受注意力影响大）；
同维度内的反向题与相邻正向题间隔 ≥ 3 道，避免相邻题方向反复横跳；
反向题不要扎堆，以免受访者识别出规律、进而机械应对。

⚠️ 反向题必须"真反向"，且计分前要重编码

反向题的同意（高分）应对应没有该构念，而非仅仅是一句负面表述。设计后务必回到第 19 课的红线自查：它是不是真的与构念方向相反。此外，反向题在分析前必须先反向重编码（如 Anxiety_4_R = 6 − Anxiety_4，5 点量表）才能与同维度正向题合并；忘了这一步会显著拉低 Cronbach's α 并扭曲因子结构——这是新手最常见、也最隐蔽的失误之一（详见第 23 课数据清洗）。

问卷长度与回收率

题目数量与作答时长直接影响回收率和后半段的数据质量。下表给出经验区间，供权衡"变量够不够用"与"受访者答不答得完"：

预计时长	题数（含人口统计）	回收率参考
< 5 分钟	< 20	偏高（约 80% 以上），但变量数往往不足以支撑较复杂的统计
5–15 分钟	20–40	最优区间：题量够用且疲劳尚可控
15–25 分钟	40–60	中等（约 50–70%），通常需配合激励
> 25 分钟	> 60	偏低（约 30% 以下），疲劳效应明显

⚠️ 超过 30 分钟的长问卷风险显著上升

后半段数据质量下降（连续相同选项的比例上升）；
中途退出率明显提高；
可行的应对：拆分为两次施测，或采用日重构法（Day Reconstruction Method）等更省力的测量设计，降低单次作答负荷。

完整问卷生成提示词

完整问卷设计 Prompt (一键复制)

markdown

【Role】资深量表心理学家 + 问卷调研顾问。

【背景】我研究 [大学生 AI 学习焦虑对自我效能的中介影响]。
- 自变量 X: AI 学习焦虑(12 题,3 维度,已设计完成,见附件)
- 因变量 Y: 学业自我效能感(7 题,改编 ASES 学业自我效能量表)
- 中介 M: 学习策略(8 题,MSLQ 改编)
- 控制变量: 性别/年级/专业/家庭社会经济地位

【任务】生成完整问卷草稿,严格遵循 6 段结构:
1. 封面: 研究目的(隐去焦虑导向)+ 匿名保证 + 预计 12 分钟 + 知情同意
2. 人口统计(5-7 题)
3. 核心量表 27 题(12+8+7,交叉分散布局,焦虑/策略/效能感打乱排列)
4. 反向题 3 道(每量表 1 道,分散在中部)
5. 开放题 2 道(自愿填写)
6. 致谢 + 数据使用说明

【红线】
- 避免双重否定/引导性/双重问题
- 反向题真正反向(同意 = 没有该构念)
- 每量表内题项序号打乱(不用 A1-A12 连续)

💡 一条贯穿本课的红线

无论用 AI 还是手写，模型只能帮你生成候选题项与排版草稿；这些题是否真正满足三条标准、是否构成一份有信效度的量表，必须由你逐题核验，并在数据收回后用 Cronbach's α、因子分析等实测来检验（见模块三后续课）。AI 不能替你"算出"信度，也不能替你判断一道题是否诱导——它只负责把候选摆上台面。

逐要素对照：题项"写砸 vs 写好"

八类错误是"反面清单"，但学员更需要的是看见同一道题从砸到好的修订过程。下面把一道题项的关键要素逐一拆开，并排对照"新手常见写法"与"修订后写法"，每行回到它对应的标准。这张表可作为你润色每一道题时的工作模板。

要素	写砸 ❌	写好 ✅	为什么（对应标准）
提问点数量	"AI 工具让我觉得既高效又焦虑"	拆成两题：①"用 AI 工具让我效率更高" ②"用 AI 工具让我感到焦虑"	一题两问无法计分，混入两个构念——违反单一性
措辞中立性	"作为追求上进的大学生，你应该同意多用 AI 吧？"	"我愿意主动使用 AI 工具辅助学习"	左侧把"应该"写进题干，诱发社会赞许性——违反无诱导
用词可懂度	"AI 的对齐与 RLHF 让我有顾虑"	"我担心 AI 给出的答案不可靠"	术语超出受访者认知，只能猜答——违反可作答
回忆可行性	"你平时大概多经常用 AI？"	"过去一个月，你使用 AI 工具的次数大约是：①0 次 …… ⑤20 次以上"	"多经常"无统一标准、难回忆——违反可作答
选项设计	频率选项："经常 / 偶尔 / 很少"（无阈值）	用不重叠且覆盖全段的频次区间（如每周 0 / 1–2 / 3–5 / 6 次以上）	选项需互斥且完备，否则归类标准因人而异——违反可作答
反向题真伪	把"我不喜欢用 AI"当作焦虑量表的反向题	反向题应与"焦虑"构念相反，如"面对新 AI 工具我很从容"（高分=不焦虑）	"不喜欢"测的是态度而非焦虑，不是真反向——违反单一性 / 效度

💡 一句话判据

检验一道题是否"写好"，逐条问三件事：它只问了一件事吗？题干有没有暗示该怎么答？目标受访者读得懂、答得出、有合适选项可选吗？ 三者齐备，这道题才有资格进入量表。

Worked Example：用 Case A 设计学习策略与自我效能感题项

前文的对照偏单题。下面用一个完整场景演示：从构念出发，借 AI 生成一组题项，再逐条用三条标准把它收紧。采用 Case A 心理问卷数据集的真实变量结构——本课聚焦其中两个量表：

中介 M：学习策略，对应 Strategy_1..8（8 题，改编自 MSLQ 动机化学习策略问卷），其中 Strategy_8 为反向题；数据收回后实测 Cronbach's α ≈ 0.88。
因变量 Y：学业自我效能感，对应 Efficacy_1..7（7 题，改编自 ASES 学业自我效能量表），其中 Efficacy_7 为反向题；实测 α ≈ 0.89。

这两个量表的高 α 不是凭空得来的——它正是"每题满足单一性、整套测同一构念"在数据上的回报。下面复现把它们设计到这一水准的过程。

步骤一：用提示词生成候选题项

打开能力较强的通用大模型（推荐 Claude 4.8 或 GPT-5）。把下面这段提示词复制发送——它把"三条标准"翻译成了模型可执行的硬约束，并显式交代了反向题与计分要求：

Case A 学习策略 / 自我效能题项设计提示词（一键复制）

markdown

【Role 角色】
你是一位精通 MSLQ、学业自我效能量表的测量心理学家，
对题项的单一性、措辞中立性、反向计分有审稿人级别的敏感度，
遇到双重装填或诱导性表述会直接指出并改写。

【Background 背景】
我在为一份面向中国大学生的问卷设计两个李克特 5 点量表(1=非常不同意 ~ 5=非常同意)：
- 学习策略(改编自 MSLQ)：拟 8 题，测"计划、监控、调节学习过程"的程度；
- 学业自我效能感(改编自 ASES)：拟 7 题，测"对完成学业任务的信心"。
两量表后续会与"AI 学习焦虑"一起做信度分析与中介检验，须保证内部一致性。

【Objective 目标】
1. 两量表分别给出 8 题、7 题，语言贴近当代大学生日常，避免学术黑话；
2. 每个量表设计恰好 1 道反向题(同意=不具备该构念)，并在题前加粗注明【反向】；
3. 逐题自检：是否只问一件事、是否中立无诱导、目标人群是否答得出，
   把不达标处直接改好。

【红线】
- 严禁双重装填(如"既会计划又能坚持")与诱导性措辞("好学生都会……")；
- 反向题须真正反向，而非负面表述；
- 不得替我断言量表"信度高/效度好"——信效度须待数据实测，你只给候选题。

【Format 格式】
Markdown 三线表，字段：量表 | 题项编号 | 题项内容 | 是否反向 | 单一性/无诱导/可作答自检备注。

步骤二：阅读并收紧模型给的题项

模型通常会回一张对齐的表格。下面是一段典型输出（节选），可以看到它已按三条标准自检：

💡 【输出样例预览】

（模型输出节选）

量表	题项编号	题项内容	是否反向	自检备注
学习策略	Strategy_1	学习前我会先规划好要完成哪些内容	否	单一(只问"计划")；中立；可作答
学习策略	Strategy_4	学到一半我会停下来检查自己是否真的懂了	否	单一(只问"监控")；无诱导
学习策略	Strategy_8	【反向】我学习时基本不做计划，走到哪算哪	是	真反向(同意=无策略)；计分前须重编码为 `Strategy_8_R`
自我效能感	Efficacy_1	即使遇到难懂的课程内容，我也有信心学会	否	单一(只问"信心")；无诱导
自我效能感	Efficacy_7	【反向】面对较难的考试，我常觉得自己肯定考不好	是	真反向(同意=低效能)；计分前须重编码为 `Efficacy_7_R`

逐条核对这段输出，正是三条标准的落地：

单一性：Strategy_1 只问"计划"、Strategy_4 只问"监控"，没有把多个策略塞进一题——这保证了 8 道题能合并成一个"学习策略"得分；
无诱导：Efficacy_1 用"我有信心"陈述，未写"好学生都该有信心"，受访者据实自评；
可作答：用词是大学生熟悉的日常表达，无 MSLQ、自我调节学习等术语；
反向题处理：Strategy_8、Efficacy_7 与构念方向相反，且备注明确提示计分前须重编码（这与 Case A 的数据字典完全一致：Strategy 第 8 题、Efficacy 第 7 题为反向题）。

🚧 这里仍是"候选"，不是"成品"

表格里的"自检备注"是模型的自我声明，不等于事实。这组题真正的信度，要等数据收回后跑出 α ≈ 0.88 / 0.89 才算验证；任何一道题若实测中拉低 α 或在因子分析中"串维度"，仍要回炉修订。模型给的是合格的候选题，能不能成为合格的量表，由数据说了算。

🔁 把这套流程迁移到你的学科

对比第 19 课（构念→维度→题项的拆解）与本课（题项→合规化）：起点不同，但收紧题项靠的是同一组标准。把【Background】里的量表换成你的构念（如经管的"数字化转型意愿"、教育的"教师职业倦怠"），把反向题与计分规则换成你的数据字典，理工、经管、教育、医学都能照搬这套"生成候选 → 三标准收紧 → 数据实测验证"的流程。

输出不理想？如何排查与迭代

模型第一次给的题项未必直接可用——这很正常，题项是逐稿打磨出来的。与其重发整段，不如按"哪条标准没达标"定点纠偏：

先判断卡在哪条标准。 题目读着别扭、像两道题黏在一起 → 多半违反单一性，追加一句"请把同时含两个提问点的题拆开，一题只问一件事"；所有题都像在引导受访者认同 → 违反无诱导，追加"请改为中立陈述，去掉'应该 / 众所周知'类措辞"；预测试时受访者反复追问"这题什么意思" → 违反可作答，追加"请把术语换成大学生日常用语，并给出有具体阈值的选项"。
针对单一要素纠偏，而非推倒重来。 哪道题不达标就只重做哪道，其余保留——这与第 11 课的题目优化、第 2 课的负向纠偏是同一套迭代思路。
用预测试做最后裁定。 题项是否"可作答"，最可靠的检验不是模型自评，而是找 3–5 个与目标受访者相似的人试读，问他们"你以为这道题在问什么"。理解出现分歧的题，就是需要改的题。
沉淀可复用的那一版。 一旦调出一组干净的题项与对应提示词，连同反向题清单一并存入工具箱，下次换构念时只改背景与变量名。

一句话

首版不理想不是方法失灵，而是某条标准还没收紧。定位到标准 → 定点改那几道题 → 用预测试裁定 → 回填模板，比整段重发高效得多。

边界与局限：题项设计与 AI 在这一步的能与不能

把题目写规范，是为后续统计扫清上游隐患；但要清楚这一步的边界，避免把"题目写得漂亮"误当成"量表已经成立"。

边界 / 失效场景	为什么会这样	你应该怎么做
题项合规 ≠ 量表有信效度	三条标准是必要条件而非充分条件；题目逐条达标，整套量表的内部一致性与维度结构仍可能不理想。	信度（α）、效度（因子分析）只能靠数据实测确认（模块三后续课），不能在设计阶段下定论。
AI 只生成候选，不验证质量	模型基于语料给出"看起来合规"的题，它的"自检备注"是声明而非事实，也可能漏判诱导或双重装填。	逐题人工复核 + 预测试；把"这题是否真反向、是否诱导"的判断权留在自己手里。
AI 不能代算信效度，只能翻译已算出的结果	信度、因子载荷等是对你的真实数据做的统计运算，模型手里没有你的数据，任何它"报出"的 α 都是编造。	坚持课程红线：统计量一律自己用 Jamovi / SPSS 跑，AI 只负责把跑出来的结果翻译成规范文字。
自编题项的合规性 ≠ 可直接用于正式发表	即便题目无措辞硬伤，CSSCI / SSCI 审稿人通常仍要求使用前人已验证的成熟量表。	探索阶段可 AI 辅助自编 + EFA 验证；正式投稿优先选成熟量表，自编须有充分的效度证据（见第 19 课）。
预测试样本太小或不对口	找几个不相关的人试填，发现不了目标人群特有的理解偏差。	预测试对象须与目标受访者画像相近，样本虽小但要"对口"，重点收集"卡点与歧义"。

🚧 一句话守住底线

题项设计能消除的，是数据产生之前的可控缺陷；它消除不了对真实数据做信效度检验的责任。AI 在这一步是高效的"候选生成器"和"措辞润色器"，但"这套量表测得准不准、能不能用"——这项判断始终要回到你的数据和你本人，而不是模型的自我声明。

📦 本课交付物

按本节实操任务完成并提交以下内容，提交 AI 初审，按 Module_Rubrics.md 对应维度评分：

[ ] 完整问卷草稿（PDF 或 Word）：含全部六段，约 30 题，预计 12 分钟完成
[ ] 题项审核日志：用本课八类错误对照表逐题检查，并标注每题对应的"单一性 / 无诱导 / 可作答"自检结论
[ ] 反向题位置图：示意三道反向题（如 Anxiety_4、Strategy_8、Efficacy_7）在量表中的分散位置
[ ] 预测试反馈：找 3–5 位与目标受访者画像相近的人试填，记录他们的疑问与卡点，并据此修订

🏁 本章小结

把本课凝练成可据以复习的几条要点：

题项是测量的最小单元：每道题都是构念的一个观测指标，最终要被加总、算信度、做因子分析。它"好不好"取决于能否稳定、无偏地把内在状态转成可比的数字，而非读起来是否顺口。
三条底层标准：单一性（每题只问一件事）、无诱导（题干中立、不暗示该怎么答）、可作答（读得懂、答得出、选项互斥且完备）。后文八类错误都是对这三条的违反。
三条标准直通统计：单一性是算 Cronbach's α（信度）的前提；无诱导关乎效度（避免社会赞许性压缩方差）；可作答决定数据整体质量。题项设计是统计的上游，上游的缺陷无法靠事后的复杂模型补救。
六段结构与反向题：封面 / 人口统计 / 核心量表（交叉分散抗疲劳）/ 反向题（中部分散、真反向、计分前重编码）/ 开放题 / 致谢；问卷长度控制在 5–15 分钟最优区间。
AI 的角色与红线：模型只生成候选题项与排版草稿，其"自检备注"是声明而非事实；信度、效度须靠数据实测确认，AI 不能代算只能翻译已算出的结果。CSSCI / SSCI 正式投稿通常仍要求成熟量表。
不理想就迭代：定位到没达标的那条标准 → 只重做相关题项 → 用预测试裁定 → 回填模板。

自测清单（可保留逐项打勾）

[ ] 我能说清一道好题项的三条标准，并能指出八类错误各违反了哪一条。
[ ] 我能讲清"题项设计为什么直接影响信度与效度"，且不编造统计机制。
[ ] 我的问卷包含完整六段结构，长度控制在 5–15 分钟最优区间。
[ ] 我的反向题真正反向、分散在量表中部，且我清楚计分前须先反向重编码。
[ ] 我用 [一键复制] 提示词生成了一组候选题项，并逐题用三条标准做了收紧。
[ ] 我做了至少 3–5 人的对口预测试，记录卡点并据此修订；我清楚信效度仍须待数据实测。
[ ] 我的问卷封面已写明匿名性、数据用途与知情同意，符合研究伦理要求。

✍️ 思考与练习

下列练习用于把本节概念用起来（区别于"本课交付物"里的任务），建议写在你的本地笔记中。

练习 1（题项诊断与改写，紧扣三条标准）。 下面三道题各有一处主要缺陷，请分别指出它违反了"单一性 / 无诱导 / 可作答"中的哪一条，并改写成合格题项：①"AI 工具让我学习既高效又有压力。" ②"作为有上进心的大学生，你应该认同 AI 能提升学习效率吧？" ③"你对 AI 的对齐与 RLHF 机制有顾虑吗？"

好答案要点：①违反单一性（双重装填，"高效"与"压力"两个提问点），拆成两题分别问；②违反无诱导（"应该认同"+"有上进心"诱发社会赞许性），改为中立陈述如"我认为 AI 能提升我的学习效率"；③违反可作答（RLHF / 对齐是术语，目标人群读不懂），换成"我担心 AI 给出的答案不可靠"或对术语加注释。

练习 2（量表题项设计，紧扣 Case A）。 取 Case A 心理问卷数据集中的学习自我效能感量表（Efficacy_1..7，改编自 ASES，Efficacy_7 为反向题，实测 α ≈ 0.89）。为它写出 3 道正向题 + 1 道反向题，每题标注它如何满足三条标准；并说明为什么 Efficacy_7 这道反向题在计分前必须先重编码，否则会出现什么后果。

好答案要点：正向题应只测"对完成学业任务的信心"（单一性）、用日常措辞（可作答）、不写"好学生都有信心"（无诱导）；反向题须真正反向（同意=低效能，如"面对较难的考试我常觉得自己肯定考不好"）。Efficacy_7 计分前须反向重编码（5 点量表用 6 − 原分），否则它与其余正向题方向相反，会显著拉低 Cronbach's α 并扭曲因子结构，使 α≈0.89 这样的结果无法复现。

练习 3（识别"AI 越界"，紧扣红线与 Case C）。 你把一组自编题项发给模型，请它评估量表质量，它回复："这套量表的 Cronbach's α 约为 0.86，信度良好，可直接用于发表。" 另一位同学则把 Case C（300 篇 × 3 模型质量评分，含由 3 名标注者评的 Claude Accuracy 维，ICC(2,k) ≈ 0.76）的真实评分表交给模型，请它"把信度结果写成规范的方法学句子"。请指出：前者踩中了本课哪条边界？后者是否属于 AI 的正当用法？为什么？

好答案要点：前者属越界/编造——模型手里没有受访者数据，任何它"报出"的 α 都是凭空生成，违反"AI 不能代算信效度、只能翻译已算出的结果"的红线，且"合规题项 ≠ 可直接发表"；后者是正当用法——ICC(2,k)≈0.76 是研究者自己算出的真实统计量，让 AI 把它翻译成规范句子（如"3 名标注者对 Accuracy 维度的评分一致性良好，ICC(2,k)=0.76"）不涉及代算，符合红线。

练习 4（结构与长度权衡）。 你的问卷已有核心量表 27 题（焦虑 12 + 策略 8 + 效能 7），导师又希望加入 30 道人口统计与情境题，预计总时长升到约 28 分钟。结合本课的长度-回收率经验和六段结构原则，说明这样做的风险，并给出两条可行的精简或拆分方案。

好答案要点：指出 28 分钟落在">25 分钟"区间，回收率偏低、后半段疲劳效应明显（连续相同选项增多、中途退出上升），数据质量受损；可行方案如——优先精简非核心人口统计 / 情境字段（保留统计必需的控制变量，砍掉可有可无的项），或将问卷拆分为两次施测；同时保证核心量表交叉分散布局，把反向题留在中部，不因加题而破坏六段结构。

第 20 课：问卷设计原则 ​

📋 课前准备（5 分钟自检） ​

工具/账号 ​

数据/素材 ​

应急通道 ​

场景导入：题项写得不规范，再大的样本也救不回来 ​

原理：一道"好题项"到底要满足什么 ​

问卷的六段结构 ​

常见题项错误对照表（八类） ​

反向题的埋设规则 ​

问卷长度与回收率 ​

完整问卷生成提示词 ​

逐要素对照：题项"写砸 vs 写好" ​

Worked Example：用 Case A 设计学习策略与自我效能感题项 ​

步骤一：用提示词生成候选题项 ​

步骤二：阅读并收紧模型给的题项 ​

输出不理想？如何排查与迭代 ​

边界与局限：题项设计与 AI 在这一步的能与不能 ​

📦 本课交付物 ​

🏁 本章小结 ​

自测清单（可保留逐项打勾） ​

✍️ 思考与练习 ​