Skip to content

第 20 课:问卷设计原则

🎯 核心实操目标

学习目标:把第 19 课产出的"题项列表"组装为一份结构完整、措辞合规、可供统计的问卷。本课先讲清一道好题项必须满足的三条底层标准——单一性、无诱导、可作答,再据此掌握问卷的六段结构(封面 / 人口统计 / 核心量表 / 反向题分散 / 开放题 / 致谢),并系统识别双重装填、诱导性、双重否定、专业术语等高频题项错误。本课的成败,最终体现在数据收回后量表的信度(Cronbach's α)与效度上:题项的工夫,决定了数据质量的上限。

📋 课前准备(5 分钟自检)

工具/账号

  • [ ] Word / Notion(用于排版问卷草稿)
  • [ ] GPT-5 或 Claude 4.8(用于题项审核 + 反向题设计)

数据/素材

  • [ ] 第 19 课的构念-维度-题项拆解表
  • [ ] 目标受访者画像(人口统计学维度有哪些必填?)
  • [ ] 你计划做的统计分析(决定哪些控制变量必须问)

应急通道

  • 不确定题项是否双重含义 → 找 3 个非本研究领域的人试读,问"你以为这道题在问什么"
  • 量表过长导致回收率低 → 优先精简非核心人口统计字段,不删核心量表

场景导入:题项写得不规范,再大的样本也救不回来

一种常见的开题挫败是这样的:问卷发放 500 份、回收近 400 份,样本量看似充足,但数据导入统计软件后,核心量表的 Cronbach's α 只有 0.4——远低于 0.7 的可接受门槛,意味着这批数据几乎无法支撑后续分析。

回看问卷,问题往往不在样本,而在题项本身。最常见的三处硬伤是: ① 形如"你是否不经常不使用 AI 工具?"的题——双重否定叠加,受访者需要先在脑中绕两道弯才能作答,理解成本过高,作答噪声随之增大; ② 形如"作为新时代大学生,你是否同意应积极拥抱 AI?"的题——诱导性措辞把"应该同意"写进了题干,多数人顺势选高分,得分被人为抬高; ③ 把同一构念的二十余道题连续排在一起——疲劳效应使受访者在后半段倾向于机械地连选同一选项,应答数据失真。

这三处都不是抽样能弥补的缺陷:它们发生在数据产生之前,一旦题目印上问卷,回收的就是被污染的数据。问卷设计的工夫,决定了数据质量的上限——本课要做的,正是在题目定稿前把这层上限抬高。

原理:一道"好题项"到底要满足什么

在排版问卷、套用结构之前,先建立一个可以逐题套用的判断标准。问卷题项不是普通的提问,它是测量工具的最小单元:每一道题都被当作潜变量(构念)的一个观测指标,最终要和同维度的其他题项一起被加总、计算信度、做因子分析。因此一道题"好不好",不取决于读起来是否顺口,而取决于它能否稳定、无偏地把受访者真实的内在状态转换成一个可比的数字

可以把这一要求拆成三条彼此独立、缺一不可的标准。它们正是后文八类错误的"上位法则"——每一类错误,本质上都是违反了其中某一条。

  1. 单一性(每题只问一件事)。 一道题只能承载一个构念维度。这是由测量模型决定的:统计上我们假设"题项得分 = 该构念的真值 + 误差",若一道题同时问了"高效"和"准确"两件事(即双重装填 / double-barreled),受访者对二者评价不一致时就无从作答,得到的数字混合了两个来源,既无法归入任一维度,也会拉低该量表的内部一致性。为什么这样做:单一性是后续把同维度题项加总、计算 Cronbach's α 的前提;混题会直接污染信度。
  2. 无诱导(题干不暗示"应该怎么答")。 题干必须保持中立,不把社会期望、研究者的预设立场或正确答案写进措辞。一旦出现"作为新时代大学生应该……""众所周知……"这类引导,受访者会受社会赞许性(social desirability)驱动去选"看起来得体"的选项,测到的是"他认为该说什么"而非"他真实怎么想",构念效度随之受损。常见误用:把假设当题目问("你是否同意 X 能提升效率?"),等于在收集对自己假设有利的数据。
  3. 可作答(受访者读得懂、答得出、有得选)。 题目要在目标受访者的认知与记忆能力之内:用词是他们日常熟悉的(避免 RLHF 这类专业术语 / jargon)、回忆范围是他们答得出的("过去一个月用了几次"而非"通常用得多吗")、选项要互斥且完备(覆盖所有可能且不重叠,必要时设"其他")。为什么这样做:超出可作答边界的题,受访者只能猜或随手选,产生的是噪声而非信息。

📐 这三条标准与统计的关系(为什么不是文字游戏)

单一性、无诱导、可作答看似是"措辞讲究",实则直接决定下游统计能否成立:

  • 单一性 → 信度(reliability):只有每题测同一件事,同维度题项才"该相关",Cronbach's α 才有意义;混题会让 α 莫名偏低(如本课开篇 α=0.4 的情形之一)。
  • 无诱导 → 效度(validity):题干诱导会让所有人趋同打高分,方差被压缩,测到的不再是构念本身,而是"社会期望"这个混入变量。
  • 可作答 → 数据质量整体:读不懂、答不出的题制造随机作答,既稀释真实信号,也会在质量检查(如反向题、规律作答检测)中暴露为"无效样本"。

一句话:题项设计是统计分析的上游。上游每放进一个缺陷,下游的信度、效度、乃至整篇结论都要为它买单——而这一步无法用更复杂的统计模型在事后补救

📘 关键术语(首次出现,先对齐定义)
  • 题项(item):问卷中的单道题,是测量构念的最小观测单元。多道题项加总后代表一个维度或构念的得分。
  • 信度(reliability):测量结果的一致性 / 稳定性——同一对象重复测量、或同维度多道题之间,结果是否一致。常用内部一致性指标 Cronbach's α(经验门槛:≥0.7 可接受,≥0.8 良好)。信度高不代表测得"对",只代表测得"稳"。
  • 效度(validity):测量是否真正测到了想测的那个构念(测得"对不对")。题干诱导、答非所问都会损害效度。信度是效度的必要而非充分条件。
  • 双重装填题(double-barreled item):一道题里塞了两个及以上独立的提问点(如"既高效又准确"),违反单一性,受访者对各点评价不一致时无法作答。
  • 社会赞许性(social desirability):受访者倾向于给出"显得体面 / 符合期望"的答案而非真实想法的应答偏差;诱导性题干会放大它。
  • 反向题(reverse-scored item):与所测构念方向相反的题(同意=没有该构念)。用于打散同意倾向、识别不认真作答;计分时须先反向重编码(如 Anxiety_4_R = 6 − Anxiety_4)才能与同维度正向题合并。
  • 互斥且完备(mutually exclusive & exhaustive):选项设计的两条要求——任意两个选项不重叠(互斥)、所有可能取值都被覆盖(完备),二者共同保证每位受访者恰好对应一个选项。

问卷的六段结构

题项合格只是基础,把合格的题项按什么顺序组装同样影响数据质量。下图给出一份规范问卷的六段结构:封面建立信任与知情同意,人口统计采集控制变量,核心量表交叉分散以抑制疲劳效应,反向题埋点用于质量检查,开放题留出补充信息,致谢交代数据用途。

① 封面说明 (Cover)研究目的 + 匿名性保证 + 预计时间 + 知情同意② 人口统计 (Demographics)性别/年龄/年级/专业/必要的控制变量(5-8 题)③ 核心量表(分散布局)焦虑题 + 策略题 + 效能感题(交叉打乱避免疲劳)④ 反向题分散插入(每量表 1-2 道)每隔 4-6 题埋一道反向题作为"不用心"陷阱⑤ 开放题(可选 1-2 题)⑥ 致谢与联系方式

常见题项错误对照表(八类)

下表把违反三条标准的高频错误集中列出。每一类都标注它触犯了哪条原理(单一性 / 无诱导 / 可作答),并给出可直接照搬的修正。逐题对照此表自查,是题目定稿前的标准动作。

❌ 错误类型触犯的标准反例✅ 修正
双重否定可作答"你是否不经常不用 AI 工具?""你使用 AI 工具的频率是?"
诱导性无诱导"作为新时代大学生,你是否同意应积极拥抱 AI?""你对使用 AI 工具的态度是?"
双重装填单一性"你认为 AI 既高效又准确吗?"拆为两道题,分别问"高效"和"准确"
专业术语可作答"你对 RLHF 范式的看法?"换成日常语言,或对术语加一句注释
范围 / 频率不明可作答"你经常用 AI 吗?"("经常"无统一标准)"过去一个月使用 AI 的次数:1=0 次 …… 5=20 次以上"
题目过长可作答 / 单一性50 字以上的复合从句,往往暗藏多个提问点拆为 2–3 个独立、简短的题项
选项不互斥可作答"经常 / 偶尔" 并列但未定义阈值,受访者归类标准不一改用具体频次(如"每周 X 次")划定边界
选项不完备可作答"你的专业是:文科 / 理科"(漏了工科、艺体)补全常见类别,并加"其他(请注明)"

反向题的埋设规则

反向题的作用是质量控制:通过插入方向相反的题,打散"一路选同一档"的同意倾向,从而暴露不认真作答的受访者(如不看题干、全部勾 5 分的样本)。但反向题用得不当反而会引入噪声,需遵循以下埋设规则:

  1. 每个量表至少 1 道反向题,但占比不宜超过 1/4(过多会让受访者频繁切换方向,增加误答);
  2. 反向题安排在量表中部,不放在首题或末题(首末题受注意力影响大);
  3. 同维度内的反向题与相邻正向题间隔 ≥ 3 道,避免相邻题方向反复横跳;
  4. 反向题不要扎堆,以免受访者识别出规律、进而机械应对。

⚠️ 反向题必须"真反向",且计分前要重编码

反向题的同意(高分)应对应没有该构念,而非仅仅是一句负面表述。设计后务必回到第 19 课的红线自查:它是不是真的与构念方向相反。此外,反向题在分析前必须先反向重编码(如 Anxiety_4_R = 6 − Anxiety_4,5 点量表)才能与同维度正向题合并;忘了这一步会显著拉低 Cronbach's α 并扭曲因子结构——这是新手最常见、也最隐蔽的失误之一(详见第 23 课数据清洗)。

问卷长度与回收率

题目数量与作答时长直接影响回收率和后半段的数据质量。下表给出经验区间,供权衡"变量够不够用"与"受访者答不答得完":

预计时长题数(含人口统计)回收率参考
< 5 分钟< 20偏高(约 80% 以上),但变量数往往不足以支撑较复杂的统计
5–15 分钟20–40最优区间:题量够用且疲劳尚可控
15–25 分钟40–60中等(约 50–70%),通常需配合激励
> 25 分钟> 60偏低(约 30% 以下),疲劳效应明显

⚠️ 超过 30 分钟的长问卷风险显著上升

  • 后半段数据质量下降(连续相同选项的比例上升);
  • 中途退出率明显提高;
  • 可行的应对:拆分为两次施测,或采用日重构法(Day Reconstruction Method)等更省力的测量设计,降低单次作答负荷。

完整问卷生成提示词

markdown
【Role】资深量表心理学家 + 问卷调研顾问。

【背景】我研究 [大学生 AI 学习焦虑对自我效能的中介影响]。
- 自变量 X: AI 学习焦虑(12 题,3 维度,已设计完成,见附件)
- 因变量 Y: 学业自我效能感(7 题,改编 ASES 学业自我效能量表)
- 中介 M: 学习策略(8 题,MSLQ 改编)
- 控制变量: 性别/年级/专业/家庭社会经济地位

【任务】生成完整问卷草稿,严格遵循 6 段结构:
1. 封面: 研究目的(隐去焦虑导向)+ 匿名保证 + 预计 12 分钟 + 知情同意
2. 人口统计(5-7 题)
3. 核心量表 27 题(12+8+7,交叉分散布局,焦虑/策略/效能感打乱排列)
4. 反向题 3 道(每量表 1 道,分散在中部)
5. 开放题 2 道(自愿填写)
6. 致谢 + 数据使用说明

【红线】
- 避免双重否定/引导性/双重问题
- 反向题真正反向(同意 = 没有该构念)
- 每量表内题项序号打乱(不用 A1-A12 连续)

💡 一条贯穿本课的红线

无论用 AI 还是手写,模型只能帮你生成候选题项与排版草稿;这些题是否真正满足三条标准、是否构成一份有信效度的量表,必须由你逐题核验,并在数据收回后用 Cronbach's α、因子分析等实测来检验(见模块三后续课)。AI 不能替你"算出"信度,也不能替你判断一道题是否诱导——它只负责把候选摆上台面。


逐要素对照:题项"写砸 vs 写好"

八类错误是"反面清单",但学员更需要的是看见同一道题从砸到好的修订过程。下面把一道题项的关键要素逐一拆开,并排对照"新手常见写法"与"修订后写法",每行回到它对应的标准。这张表可作为你润色每一道题时的工作模板。

要素写砸 ❌写好 ✅为什么(对应标准)
提问点数量"AI 工具让我觉得既高效又焦虑"拆成两题:①"用 AI 工具让我效率更高" ②"用 AI 工具让我感到焦虑"一题两问无法计分,混入两个构念——违反单一性
措辞中立性"作为追求上进的大学生,你应该同意多用 AI 吧?""我愿意主动使用 AI 工具辅助学习"左侧把"应该"写进题干,诱发社会赞许性——违反无诱导
用词可懂度"AI 的对齐与 RLHF 让我有顾虑""我担心 AI 给出的答案不可靠"术语超出受访者认知,只能猜答——违反可作答
回忆可行性"你平时大概多经常用 AI?""过去一个月,你使用 AI 工具的次数大约是:①0 次 …… ⑤20 次以上""多经常"无统一标准、难回忆——违反可作答
选项设计频率选项:"经常 / 偶尔 / 很少"(无阈值)用不重叠且覆盖全段的频次区间(如每周 0 / 1–2 / 3–5 / 6 次以上)选项需互斥且完备,否则归类标准因人而异——违反可作答
反向题真伪把"我不喜欢用 AI"当作焦虑量表的反向题反向题应与"焦虑"构念相反,如"面对新 AI 工具我很从容"(高分=不焦虑)"不喜欢"测的是态度而非焦虑,不是真反向——违反单一性 / 效度

💡 一句话判据

检验一道题是否"写好",逐条问三件事:它只问了一件事吗?题干有没有暗示该怎么答?目标受访者读得懂、答得出、有合适选项可选吗? 三者齐备,这道题才有资格进入量表。


Worked Example:用 Case A 设计学习策略与自我效能感题项

前文的对照偏单题。下面用一个完整场景演示:从构念出发,借 AI 生成一组题项,再逐条用三条标准把它收紧。采用 Case A 心理问卷数据集的真实变量结构——本课聚焦其中两个量表:

  • 中介 M:学习策略,对应 Strategy_1..8(8 题,改编自 MSLQ 动机化学习策略问卷),其中 Strategy_8 为反向题;数据收回后实测 Cronbach's α ≈ 0.88
  • 因变量 Y:学业自我效能感,对应 Efficacy_1..7(7 题,改编自 ASES 学业自我效能量表),其中 Efficacy_7 为反向题;实测 α ≈ 0.89

这两个量表的高 α 不是凭空得来的——它正是"每题满足单一性、整套测同一构念"在数据上的回报。下面复现把它们设计到这一水准的过程。

步骤一:用提示词生成候选题项

打开能力较强的通用大模型(推荐 Claude 4.8 或 GPT-5)。把下面这段提示词复制发送——它把"三条标准"翻译成了模型可执行的硬约束,并显式交代了反向题与计分要求:

markdown
【Role 角色】
你是一位精通 MSLQ、学业自我效能量表的测量心理学家,
对题项的单一性、措辞中立性、反向计分有审稿人级别的敏感度,
遇到双重装填或诱导性表述会直接指出并改写。

【Background 背景】
我在为一份面向中国大学生的问卷设计两个李克特 5 点量表(1=非常不同意 ~ 5=非常同意):
- 学习策略(改编自 MSLQ):拟 8 题,测"计划、监控、调节学习过程"的程度;
- 学业自我效能感(改编自 ASES):拟 7 题,测"对完成学业任务的信心"。
两量表后续会与"AI 学习焦虑"一起做信度分析与中介检验,须保证内部一致性。

【Objective 目标】
1. 两量表分别给出 8 题、7 题,语言贴近当代大学生日常,避免学术黑话;
2. 每个量表设计恰好 1 道反向题(同意=不具备该构念),并在题前加粗注明【反向】;
3. 逐题自检:是否只问一件事、是否中立无诱导、目标人群是否答得出,
   把不达标处直接改好。

【红线】
- 严禁双重装填(如"既会计划又能坚持")与诱导性措辞("好学生都会……");
- 反向题须真正反向,而非负面表述;
- 不得替我断言量表"信度高/效度好"——信效度须待数据实测,你只给候选题。

【Format 格式】
Markdown 三线表,字段:量表 | 题项编号 | 题项内容 | 是否反向 | 单一性/无诱导/可作答自检备注。

步骤二:阅读并收紧模型给的题项

模型通常会回一张对齐的表格。下面是一段典型输出(节选),可以看到它已按三条标准自检:

💡 【输出样例预览】

(模型输出节选)

量表题项编号题项内容是否反向自检备注
学习策略Strategy_1学习前我会先规划好要完成哪些内容单一(只问"计划");中立;可作答
学习策略Strategy_4学到一半我会停下来检查自己是否真的懂了单一(只问"监控");无诱导
学习策略Strategy_8【反向】 我学习时基本不做计划,走到哪算哪真反向(同意=无策略);计分前须重编码为 Strategy_8_R
自我效能感Efficacy_1即使遇到难懂的课程内容,我也有信心学会单一(只问"信心");无诱导
自我效能感Efficacy_7【反向】 面对较难的考试,我常觉得自己肯定考不好真反向(同意=低效能);计分前须重编码为 Efficacy_7_R

逐条核对这段输出,正是三条标准的落地:

  • 单一性Strategy_1 只问"计划"、Strategy_4 只问"监控",没有把多个策略塞进一题——这保证了 8 道题能合并成一个"学习策略"得分;
  • 无诱导Efficacy_1 用"我有信心"陈述,未写"好学生都该有信心",受访者据实自评;
  • 可作答:用词是大学生熟悉的日常表达,无 MSLQ、自我调节学习等术语;
  • 反向题处理Strategy_8Efficacy_7 与构念方向相反,且备注明确提示计分前须重编码(这与 Case A 的数据字典完全一致:Strategy 第 8 题、Efficacy 第 7 题为反向题)。

🚧 这里仍是"候选",不是"成品"

表格里的"自检备注"是模型的自我声明,不等于事实。这组题真正的信度,要等数据收回后跑出 α ≈ 0.88 / 0.89 才算验证;任何一道题若实测中拉低 α 或在因子分析中"串维度",仍要回炉修订。模型给的是合格的候选题,能不能成为合格的量表,由数据说了算。

🔁 把这套流程迁移到你的学科

对比第 19 课(构念→维度→题项的拆解)与本课(题项→合规化):起点不同,但收紧题项靠的是同一组标准。把【Background】里的量表换成你的构念(如经管的"数字化转型意愿"、教育的"教师职业倦怠"),把反向题与计分规则换成你的数据字典,理工、经管、教育、医学都能照搬这套"生成候选 → 三标准收紧 → 数据实测验证"的流程。


输出不理想?如何排查与迭代

模型第一次给的题项未必直接可用——这很正常,题项是逐稿打磨出来的。与其重发整段,不如按"哪条标准没达标"定点纠偏:

  1. 先判断卡在哪条标准。 题目读着别扭、像两道题黏在一起 → 多半违反单一性,追加一句"请把同时含两个提问点的题拆开,一题只问一件事";所有题都像在引导受访者认同 → 违反无诱导,追加"请改为中立陈述,去掉'应该 / 众所周知'类措辞";预测试时受访者反复追问"这题什么意思" → 违反可作答,追加"请把术语换成大学生日常用语,并给出有具体阈值的选项"。
  2. 针对单一要素纠偏,而非推倒重来。 哪道题不达标就只重做哪道,其余保留——这与第 11 课的题目优化、第 2 课的负向纠偏是同一套迭代思路。
  3. 用预测试做最后裁定。 题项是否"可作答",最可靠的检验不是模型自评,而是找 3–5 个与目标受访者相似的人试读,问他们"你以为这道题在问什么"。理解出现分歧的题,就是需要改的题。
  4. 沉淀可复用的那一版。 一旦调出一组干净的题项与对应提示词,连同反向题清单一并存入工具箱,下次换构念时只改背景与变量名。

一句话

首版不理想不是方法失灵,而是某条标准还没收紧。定位到标准 → 定点改那几道题 → 用预测试裁定 → 回填模板,比整段重发高效得多。


边界与局限:题项设计与 AI 在这一步的能与不能

把题目写规范,是为后续统计扫清上游隐患;但要清楚这一步的边界,避免把"题目写得漂亮"误当成"量表已经成立"。

边界 / 失效场景为什么会这样你应该怎么做
题项合规 ≠ 量表有信效度三条标准是必要条件而非充分条件;题目逐条达标,整套量表的内部一致性与维度结构仍可能不理想。信度(α)、效度(因子分析)只能靠数据实测确认(模块三后续课),不能在设计阶段下定论。
AI 只生成候选,不验证质量模型基于语料给出"看起来合规"的题,它的"自检备注"是声明而非事实,也可能漏判诱导或双重装填。逐题人工复核 + 预测试;把"这题是否真反向、是否诱导"的判断权留在自己手里。
AI 不能代算信效度,只能翻译已算出的结果信度、因子载荷等是对你的真实数据做的统计运算,模型手里没有你的数据,任何它"报出"的 α 都是编造。坚持课程红线:统计量一律自己用 Jamovi / SPSS 跑,AI 只负责把跑出来的结果翻译成规范文字。
自编题项的合规性 ≠ 可直接用于正式发表即便题目无措辞硬伤,CSSCI / SSCI 审稿人通常仍要求使用前人已验证的成熟量表。探索阶段可 AI 辅助自编 + EFA 验证;正式投稿优先选成熟量表,自编须有充分的效度证据(见第 19 课)。
预测试样本太小或不对口找几个不相关的人试填,发现不了目标人群特有的理解偏差。预测试对象须与目标受访者画像相近,样本虽小但要"对口",重点收集"卡点与歧义"。

🚧 一句话守住底线

题项设计能消除的,是数据产生之前的可控缺陷;它消除不了对真实数据做信效度检验的责任。AI 在这一步是高效的"候选生成器"和"措辞润色器",但"这套量表测得准不准、能不能用"——这项判断始终要回到你的数据和你本人,而不是模型的自我声明。


📦 本课交付物

按本节实操任务完成并提交以下内容,提交 AI 初审,按 Module_Rubrics.md 对应维度评分:

  • [ ] 完整问卷草稿(PDF 或 Word):含全部六段,约 30 题,预计 12 分钟完成
  • [ ] 题项审核日志:用本课八类错误对照表逐题检查,并标注每题对应的"单一性 / 无诱导 / 可作答"自检结论
  • [ ] 反向题位置图:示意三道反向题(如 Anxiety_4Strategy_8Efficacy_7)在量表中的分散位置
  • [ ] 预测试反馈:找 3–5 位与目标受访者画像相近的人试填,记录他们的疑问与卡点,并据此修订

🏁 本章小结

把本课凝练成可据以复习的几条要点:

  1. 题项是测量的最小单元:每道题都是构念的一个观测指标,最终要被加总、算信度、做因子分析。它"好不好"取决于能否稳定、无偏地把内在状态转成可比的数字,而非读起来是否顺口。
  2. 三条底层标准单一性(每题只问一件事)、无诱导(题干中立、不暗示该怎么答)、可作答(读得懂、答得出、选项互斥且完备)。后文八类错误都是对这三条的违反。
  3. 三条标准直通统计:单一性是算 Cronbach's α(信度)的前提;无诱导关乎效度(避免社会赞许性压缩方差);可作答决定数据整体质量。题项设计是统计的上游,上游的缺陷无法靠事后的复杂模型补救。
  4. 六段结构与反向题:封面 / 人口统计 / 核心量表(交叉分散抗疲劳)/ 反向题(中部分散、真反向、计分前重编码)/ 开放题 / 致谢;问卷长度控制在 5–15 分钟最优区间。
  5. AI 的角色与红线:模型只生成候选题项与排版草稿,其"自检备注"是声明而非事实;信度、效度须靠数据实测确认,AI 不能代算只能翻译已算出的结果。CSSCI / SSCI 正式投稿通常仍要求成熟量表。
  6. 不理想就迭代:定位到没达标的那条标准 → 只重做相关题项 → 用预测试裁定 → 回填模板。

自测清单(可保留逐项打勾)

  • [ ] 我能说清一道好题项的三条标准,并能指出八类错误各违反了哪一条。
  • [ ] 我能讲清"题项设计为什么直接影响信度与效度",且不编造统计机制。
  • [ ] 我的问卷包含完整六段结构,长度控制在 5–15 分钟最优区间。
  • [ ] 我的反向题真正反向、分散在量表中部,且我清楚计分前须先反向重编码。
  • [ ] 我用 [一键复制] 提示词生成了一组候选题项,并逐题用三条标准做了收紧。
  • [ ] 我做了至少 3–5 人的对口预测试,记录卡点并据此修订;我清楚信效度仍须待数据实测。
  • [ ] 我的问卷封面已写明匿名性、数据用途与知情同意,符合研究伦理要求。

✍️ 思考与练习

下列练习用于把本节概念用起来(区别于"本课交付物"里的任务),建议写在你的本地笔记中。

练习 1(题项诊断与改写,紧扣三条标准)。 下面三道题各有一处主要缺陷,请分别指出它违反了"单一性 / 无诱导 / 可作答"中的哪一条,并改写成合格题项:①"AI 工具让我学习既高效又有压力。" ②"作为有上进心的大学生,你应该认同 AI 能提升学习效率吧?" ③"你对 AI 的对齐与 RLHF 机制有顾虑吗?"

好答案要点:①违反单一性(双重装填,"高效"与"压力"两个提问点),拆成两题分别问;②违反无诱导("应该认同"+"有上进心"诱发社会赞许性),改为中立陈述如"我认为 AI 能提升我的学习效率";③违反可作答(RLHF / 对齐是术语,目标人群读不懂),换成"我担心 AI 给出的答案不可靠"或对术语加注释。

练习 2(量表题项设计,紧扣 Case A)。Case A 心理问卷数据集中的学习自我效能感量表Efficacy_1..7,改编自 ASES,Efficacy_7 为反向题,实测 α ≈ 0.89)。为它写出 3 道正向题 + 1 道反向题,每题标注它如何满足三条标准;并说明为什么 Efficacy_7 这道反向题在计分前必须先重编码,否则会出现什么后果。

好答案要点:正向题应只测"对完成学业任务的信心"(单一性)、用日常措辞(可作答)、不写"好学生都有信心"(无诱导);反向题须真正反向(同意=低效能,如"面对较难的考试我常觉得自己肯定考不好")。Efficacy_7 计分前须反向重编码(5 点量表用 6 − 原分),否则它与其余正向题方向相反,会显著拉低 Cronbach's α 并扭曲因子结构,使 α≈0.89 这样的结果无法复现。

练习 3(识别"AI 越界",紧扣红线与 Case C)。 你把一组自编题项发给模型,请它评估量表质量,它回复:"这套量表的 Cronbach's α 约为 0.86,信度良好,可直接用于发表。" 另一位同学则把 Case C(300 篇 × 3 模型质量评分,含由 3 名标注者评的 Claude Accuracy 维,ICC(2,k) ≈ 0.76)的真实评分表交给模型,请它"把信度结果写成规范的方法学句子"。请指出:前者踩中了本课哪条边界?后者是否属于 AI 的正当用法?为什么?

好答案要点:前者属越界/编造——模型手里没有受访者数据,任何它"报出"的 α 都是凭空生成,违反"AI 不能代算信效度、只能翻译已算出的结果"的红线,且"合规题项 ≠ 可直接发表";后者是正当用法——ICC(2,k)≈0.76 是研究者自己算出的真实统计量,让 AI 把它翻译成规范句子(如"3 名标注者对 Accuracy 维度的评分一致性良好,ICC(2,k)=0.76")不涉及代算,符合红线。

练习 4(结构与长度权衡)。 你的问卷已有核心量表 27 题(焦虑 12 + 策略 8 + 效能 7),导师又希望加入 30 道人口统计与情境题,预计总时长升到约 28 分钟。结合本课的长度-回收率经验和六段结构原则,说明这样做的风险,并给出两条可行的精简或拆分方案。

好答案要点:指出 28 分钟落在">25 分钟"区间,回收率偏低、后半段疲劳效应明显(连续相同选项增多、中途退出上升),数据质量受损;可行方案如——优先精简非核心人口统计 / 情境字段(保留统计必需的控制变量,砍掉可有可无的项),或将问卷拆分为两次施测;同时保证核心量表交叉分散布局,把反向题留在中部,不因加题而破坏六段结构。

助力学者在 AI 时代极速产出高质量学术成果 · 55 课时双轨制 · plan v3.3