第 10 课:什么是研究问题(漏斗聚焦法)
🎯 核心实操目标
学习目标:把一个宽泛的研究兴趣,转化为一个可在硕士/博士周期内用数据检验的研究问题。具体而言,本节课训练你借助大语言模型的发散与归纳能力,对“人工智能与教育”“新媒体对社会的影响”这类主题级表述执行逐层收窄,最终落到一对(或一组)可观测变量之间的关系——即明确自变量 X、因变量 Y,并在需要时引入中介 M 或调节 W。这正是开题阶段从“有想法”过渡到“有课题”的关键一步。
📋 课前准备(5 分钟自检)
账号
- [ ] Claude 4.8 Opus 或 GPT-5(学术语言主控引擎)
- [ ] Kimi K2(长 PDF 批量喂入)
- [ ] Zotero:本课暂不需要(第 12 课会首次配置文献管理)
工具/环境
- [ ] 知网 / Web of Science 高级检索访问通道(校园网或代理)
- [ ] Google Scholar / Semantic Scholar(免费替代)
- [ ] Word / Markdown 编辑器(用于记录产出)
数据/素材
- [ ] 你感兴趣的 1-2 个研究方向 / 话题(本课是模块二起点,无需前置课内素材)
- [ ] 与你研究方向相关的 5-10 篇近年文献 PDF(如已下载)
应急通道
- WOS 不可用 → 用 CNKI 或 Semantic Scholar 替代
- 文献不够 → 先用 Google Scholar 搜补足
- AI 提示词没思路 → 参考课程模板包
Course_QA_Checklists.md
场景导入:“有个想法”不等于“有个能做的课题”
在开题论证环节,常见的一类情况是:学生带着《生成式 AI 对劳动力市场的影响》这样体量的题目来与导师讨论,得到的反馈往往是“范围过大、难以在学位周期内完成,建议收窄”。
问题不在于热点本身,而在于表述停留在主题层面:它指出了一个值得关注的现象,却没有界定要在谁身上、用什么变量、检验哪一条关系。学术研究要求把宽泛现象可操作化为可测量、可检验的具体关系。本节课的方法,就是借助大模型把“现象”逐层分解为“边界明确的人群/场景”,再凝练为“X 与 Y 之间的一条可验证关系”。
原理:为什么“可操作化、收窄到变量关系”是研究问题的核心
在套用任何流程之前,先理解一个判断标准:一个好的研究问题,必须可操作化(operationalization),并最终落到变量与变量之间的关系上。 这不是形式上的讲究,而是由研究的内在要求决定的。
可以从三个角度理解“为什么必须收窄”:
- 可测量性决定了能否回答。 “AI 焦虑会影响学习”这句话里,“AI 焦虑”“学习”都是构念(construct)——抽象、无法直接观测。只有把构念可操作化为具体指标(如用
Anxiety_1..12量表测“AI 焦虑”、用Efficacy_1..7测“学习自我效能”),问题才从“无法验证的断言”变成“可用数据回答的问题”。研究问题若停在构念层,等于没有给出检验的入口。 - 变量关系决定了能否设计与分析。 统计方法处理的对象是变量之间的关系:相关、回归、中介、调节、组间差异。一旦把问题写成“X 经 M 影响 Y”,研究设计(测什么、控制什么)与分析方法(用哪种模型)几乎是自然确定的;反之,主题级表述无法对应任何一种具体分析。
- 边界决定了可行性。 收窄人群与场景(“下沉县城的独居老年人”而非“所有人”)不是降低野心,而是把无法穷尽的总体替换为可抽样、可观测的对象。边界越清晰,效度威胁越少,结论越站得住。
📐 大模型在这一步“帮得上”与“替不了”的边界
大模型为什么适合做收窄这一步,可理解为:它在海量学术文本上训练,倾向于把一个宽泛概念联想到与之高频共现的细分维度、人群、变量与理论标签,因此能在几十秒内给出你独自枯坐难以穷举的发散结果。这是它的发散与归纳优势。
但要同时记住它的边界:模型给出的变量关系是基于语料的合理联想,不是经过验证的事实。哪条路径在你的领域真正成立、HumanCap_per10k 究竟是中介还是调节、某个机制是否有文献支撑——这些判断权在研究者,模型只负责把候选摆到台面上,替你拍板属于越权(详见本课【边界与局限】)。
📘 关键术语(首次出现,先对齐定义)
- 研究问题(research question):一个聚焦、可经验检验的疑问句,明确指出要在何种人群/场景下,考察哪些变量之间的何种关系。它区别于研究主题(topic)(如“短视频与老年人”,只圈定领域)与研究假设(hypothesis)(对关系方向的具体陈述,如“X 正向预测 Y”)。
- 可操作化(operationalization):把抽象构念转化为可测量、可观测的具体指标或操作的过程。例如把“AI 焦虑”操作化为一份 12 题的李克特量表得分。
- 构念(construct):理论中抽象、不可直接观测的概念(如焦虑、自我效能、创新能力),需经可操作化才能进入数据。
- 变量(variable):可操作化后取值会变化的可测量属性。按角色分为——自变量 X(independent variable):被认为是原因或前因;因变量 Y(dependent variable):被观察的结果;中介变量 M(mediator):X 通过它再影响 Y,刻画“为什么/如何”;调节变量 W(moderator):改变 X→Y 关系的强弱或方向,刻画“何时/对谁更强”。
漏斗聚焦法:从主题逐层收窄到变量关系
研究问题不是凭空想出来的,而是通过一个漏斗(funnel)逐层筛选、收敛出来的。漏斗的每一层都在剔除当前无法掌控或无法测量的成分,把范围向“可检验的变量关系”逼近:
Worked Example 一:用漏斗法把“短视频影响”收敛为变量关系
📋 示例场景:你计划以“短视频应用对人类的影响”作为社科或管理学硕士论文方向。此刻你手里只有这一句主题级表述,缺少人群、场景与变量,无法直接进入研究设计。下面演示如何用一段提示词,让大模型把它沿漏斗逐层收窄。
步骤一:用提示词施加漏斗框架
打开一个能力较强的通用大模型(推荐 Claude 4.8 或 GPT-5,二者在概念分解与抽象具象化上表现较好)。把下面这段提示词复制发送——它的内核是把上文“原理”里的三层收窄,翻译成模型可执行的指令:
【Role 角色】
你是一位长期指导硕博开题、对“宽泛主题与宏大叙事”要求严格的社会学/商科导师,
习惯把模糊选题逼到可操作化、可检验的程度。
【Background 背景】
我正处于毕业论文选题初期,目前只有一个主题级表述:
“我想研究短视频应用对人类的影响”。它范围过大,尚未界定人群、场景与变量。
【Objective 目标】
请帮我把这个主题沿“漏斗”逐层收窄:
1. 【界定边界】:拆分为 3 个互不重叠的细分人群/场景(例如:县城独居老年人的媒介使用、
中等收入群体的消费行为),每个都给出清晰边界。
2. 【凝练为变量关系】:在每个细分场景下,各给出 2 个可操作化、可用问卷法检验的
“变量关系陈述句”。
【变量标注要求】:每句必须标明自变量 X、因变量 Y;若存在可观测的中介变量记为 M,
若存在改变 X→Y 强弱的调节变量记为 W。变量应尽量对应可测量的指标。
【Format 格式】
分层列出 3 个场景及其下的变量关系陈述句,语言保持核心期刊文献综述的严谨度。步骤二:阅读并审视模型的收窄结果
模型通常会在几十秒内,把宽泛主题分解为带边界的细分场景,并给出已标注 X/Y/M/W 的变量关系陈述句。下面是一段典型输出(节选):
💡 【输出样例预览】
(模型输出节选)
细分场景 1:县城独居老年人的短视频使用与心理状态
- 关系陈述 A:短视频“推荐算法”的推送强度(自变量 X),是否通过降低家庭代际沟通频次(中介变量 M),进而正向预测县城独居老年群体的孤独感(因变量 Y)?
- 关系陈述 B:老年人对短视频养生类伪科普内容的接触程度(X),是否显著降低其对正规医疗系统的信任度(Y)?家族微信群的群体认同是否起到强化作用(调节变量 W)?
细分场景 2:中等收入群体的直播带货与消费行为
- 关系陈述 A:带货主播的“陪伴式话术”强度(X),是否通过提升即时情感唤起(中介变量 M),进而增加冲动性消费支出(因变量 Y)?
可以看到,输出已经具备进入研究设计的雏形:每条陈述都点明了变量角色与方向,研究者据此即可判断该测哪些指标、用哪种分析模型。但请注意:这些关系目前只是“合理的候选”,哪一条真正成立、是否有文献与理论支撑,仍需你在后续文献检索(第 12 课)与设计阶段逐一核验,不能因为表述专业就直接采信。
逐要素对照:研究问题“写砸 vs 写好”
漏斗收窄的成败,集中体现在最终那句研究问题的措辞上。下面把构成研究问题的关键要素逐一拆开,并排对照“仍停在主题层的写法”与“已可操作化的写法”,帮助你判断自己的问题收窄到了哪一步。
| 要素 | 写砸 ❌ | 写好 ✅ | 为什么 |
|---|---|---|---|
| 范围 / 边界 | 研究 AI 对学习的影响 | 考察大学生在备考场景下,AI 使用焦虑与学习自我效能的关系 | 左侧未界定人群与场景,无法抽样;右侧框定了对象与情境,效度威胁更可控 |
| 变量可测量性 | 研究“AI 焦虑”是否影响“学习” | 用 12 题量表测 AI 焦虑、用 7 题量表测自我效能,考察前者对后者的预测 | “焦虑”“学习”是构念,不可直接观测;右侧已可操作化为可计分的指标 |
| 关系方向 | AI 焦虑和学习有关系 | AI 焦虑(X)负向预测学习自我效能(Y) | “有关系”不可检验也不可证伪;指明 X、Y 与方向,才对应具体分析 |
| 机制 / 中介 | AI 焦虑会让人学不好 | AI 焦虑(X)通过削弱学习策略使用(M)间接降低自我效能(Y) | 引入中介把“为什么”显式化,研究从“是否相关”升级为“如何起作用” |
| 句式 | 关于 AI 与学习的研究 | 一个可经验检验的疑问句,含 X、Y(及 M/W) | 名词短语不是研究问题;研究问题应是一个能用数据回答的“问句” |
💡 一句话判据
检验一句研究问题是否“写好”,只需问三件事:变量能不能测?关系有没有方向?范围能不能抽样? 三者齐备,才算从“主题”落到了“研究问题”。
Worked Example 二:用 Case A 把“AI 焦虑影响学习”收敛为中介模型
第一个例子从一句口语化主题出发。第二个例子换一种更常见的起点:你已经有了一份数据集,但还没想清要问什么。 这恰是许多同学的真实处境,也是漏斗法的另一种用法——反向地从手头变量出发,收敛出一个站得住的研究问题。
这里采用 Case A 心理问卷数据集:N=500,列含 Anxiety_1..12(AI 焦虑,12 题)、Strategy_1..8(学习策略,8 题)、Efficacy_1..7(学习自我效能,7 题)、反向计分题 Anxiety_4_R、以及 Age。初始的宽泛兴趣是一句典型的主题级表述:“AI 焦虑会影响学习”。
按漏斗三层走一遍:
- 第一层(主题):“AI 焦虑影响学习”——“学习”指什么、怎么影响,都未界定。
- 第二层(对应到已测构念):手头数据把“AI 焦虑”操作化为
Anxiety_1..12,“学习”可对应Efficacy_1..7(自我效能)。范围随之收窄为“AI 焦虑与学习自我效能的关系”。 - 第三层(凝练为变量关系,并解释机制):数据里还有
Strategy_1..8(学习策略),它在理论上位于焦虑与效能之间——焦虑可能先削弱策略使用,再由策略影响效能。于是问题收敛为一个中介模型。
下面这段提示词演示如何让模型协助完成第二、三层,并显式利用变量名与反向题信息:
【Role 角色】
你是一位心理测量学与教育心理学方向的导师,对量表的信效度、反向计分、
中介模型的成立条件有审稿人级别的敏感度,遇到不严谨的因果表述会直接指出。
【Background 背景】
我有一份心理问卷数据(N=500),变量为:
AI 焦虑 Anxiety_1..12(含反向计分题 Anxiety_4_R)、学习策略 Strategy_1..8、
学习自我效能 Efficacy_1..7、年龄 Age。
我的初始兴趣只是一句宽泛表述“AI 焦虑会影响学习”,尚未形成研究问题。
【Objective 目标】
请帮我把它收敛为 1 个可操作化、可用现有变量检验的研究问题,并满足:
1. 用一句规范的研究问题陈述,标明自变量 X、因变量 Y,以及中介变量 M(如适用);
2. 说明每个构念对应哪些题项(如 X=Anxiety_1..12),并提醒 Anxiety_4_R 需反向重编码后再计分;
3. 给出该中介关系成立所需的前提假设(理论支撑 + 可检验条件)。
【红线】不得使用“证明了因果”“必然导致”等措辞;问卷横断数据只能支持有条件的中介推断,请如实说明其局限。
【Format 格式】
先给出一句研究问题陈述,再用 Markdown 三线表列出:构念 | 对应题项 | 在模型中的角色(X/M/Y)| 须注意的前提。💡 【输出样例预览】
研究问题(节选):在大学生群体中,AI 使用焦虑(X)是否通过降低学习策略的使用(M),进而负向预测学习自我效能(Y)?
| 构念 | 对应题项 | 角色 | 须注意的前提 |
|---|---|---|---|
| AI 使用焦虑 | Anxiety_1..12(Anxiety_4_R 须先反向重编码) | 自变量 X | 先做信度检验;反向题未重编码会拉低 α 并扭曲方向 |
| 学习策略使用 | Strategy_1..8 | 中介 M | 中介路径需理论支撑;横断数据下中介只能作有条件解释 |
| 学习自我效能 | Efficacy_1..7 | 因变量 Y | 与 X 同期测量,存在反向因果可能,结论须留有余地 |
🔁 两个例子的共同点
对比两个 worked example:起点不同(一个从口语主题、一个从已有数据),但走的是同一个漏斗——界定边界 → 把构念对应到可测量指标 → 凝练为带方向的变量关系。漏斗法既能“自上而下”收窄宽泛兴趣,也能“自下而上”从手头变量倒推出研究问题。把“角色”换成你学科的评判者、把“背景”换成你的真实数据结构,理工、经管、教育、医学都能照搬。
系统梳理:研究问题的类型,与“漏斗终点”落在哪里
“收窄到变量关系”并不意味着所有研究问题都长一个样。按其追问的内容,常见研究问题大致可分为几类;漏斗的终点落在哪一类,取决于你的目的与数据。
| 类型 | 追问什么 | 典型句式 | 适合的数据/方法 |
|---|---|---|---|
| 描述性(descriptive) | 现象的分布、水平、构成是什么 | “某群体的 X 处于什么水平、如何分布?” | 横断调查、描述统计 |
| 相关 / 关系性(relational) | 变量之间是否相关、关系强弱 | “X 与 Y 是否相关?方向如何?” | 相关、回归 |
| 解释 / 因果性(explanatory/causal) | X 是否(如何、何时)影响 Y | “X 是否经 M 影响 Y / W 是否调节 X→Y?” | 实验、面板、含中介/调节的模型 |
| 比较性(comparative) | 不同群体/条件下是否有差异 | “A 组与 B 组在 Y 上是否不同?” | 组间比较、方差分析 |
📘 怎么选:把目的对应到类型
- 只想摸清现状(如“大学生 AI 焦虑普遍到什么程度”)→ 描述性,漏斗终点是一个被界定清楚的指标。
- 想知道两件事是否相伴变化→ 相关性,终点是“X—Y 是否相关”。
- 想解释为什么/如何/对谁更强→ 因果或解释性,终点须含 M(机制)或 W(边界条件),如本课两个 worked example。
- 想知道谁更高/差异何在→ 比较性,终点是“组别 × Y 的差异”。
本课重点训练的是后两类——因为它们最需要“可操作化 + 变量关系”的功夫,也最容易在开题时写得过宽。但同一个主题往往可同时派生多类问题,收窄到哪一类没有高下之分,只有与你的数据和目的是否匹配之分。
常见误区与纠正
漏斗收窄阶段,学员的问题高度集中在“收得不到位”或“收歪了”。下表是最高频的几种,照着对号入座即可:
| 常见误区 | 症状 | 纠正方法 |
|---|---|---|
| 只换了说法,没真收窄 | 把“AI 与教育”改成“AI 与教学”,范围照旧 | 检查是否落到了具体人群/场景 + 可测量变量,而非换近义词 |
| 变量仍是构念,无法测量 | 研究问题里写“幸福感”“能力”,却没说怎么测 | 为每个构念指定操作化指标(量表/题项/客观数据) |
| 关系没有方向 | 停在“X 与 Y 有关系”,不分自变量因变量 | 明确谁是 X、谁是 Y,写出预期方向(正向/负向预测) |
| 一次塞进太多变量 | 一个问题里挂了四五个 X、两个 M | 主回归只留一条核心关系;其余降级为稳健性或后续研究 |
| 把相关说成因果 | 用横断/观测数据却下“导致/证明”的结论 | 按数据能支持的强度措辞;因果声明需对应实验或可信识别策略 |
| 让模型替你拍板 | 直接采信模型给的“X 是中介”而不查文献 | 模型只提供候选,中介/调节的设定由研究者凭理论判断并核验 |
输出仍不满意?如何迭代
模型第一次给出的收窄结果,未必正好可用——这很正常,研究问题是逐步逼近出来的,不必推倒重来。按下面顺序做小步纠偏:
- 先判断“收过头”还是“没收到位”。问题仍然宽泛、像主题 → 在原对话里追加一句“请进一步界定人群与场景,并把每个构念落到可测量指标”;问题过窄、已无研究价值(如只剩两道题项相关)→ 让模型“适当上抬一层,给出有理论意义的中介或调节版本”。
- 针对单一要素纠偏,而非重发整段。哪个要素不达标就只改哪个:缺方向就补“请标明 X、Y 与预期方向”,变量不可测就补“请为每个构念指定操作化指标”。这与“题目优化”阶段(第 11 课)的迭代思路一致。
- 用你的领域知识做最后裁定。模型给的关系再漂亮,是否成立仍要回到文献与理论(第 12 课文献检索)。把模型当“发散与排版的助手”,把“这条关系值不值得做”的判断权留在自己手里。
- 沉淀可复用的那一版。一旦调出满意的研究问题,连同它的提示词一并存入个人工具箱,下次换数据集时只改背景与变量名即可。
一句话
首版不理想不是漏斗失灵,而是“收窄的颗粒度”还没对上。判断收过头还是没到位 → 针对单一要素纠偏 → 用领域知识裁定 → 回填模板。
边界与局限:漏斗法与大模型在这一步的能与不能
漏斗法是一套把宽泛兴趣收窄为可检验关系的思维工具,大模型在其中承担发散与归纳。但要清楚它们各自的边界,避免把“收窄得漂亮”误当成“研究就成立”。
| 边界 / 失效场景 | 为什么会这样 | 你应该怎么做 |
|---|---|---|
| 模型给的变量关系 ≠ 已验证的事实 | 模型基于语料联想出“看起来合理”的路径,并未核对文献;它可能自信地给出并不存在的机制或关系,即幻觉(hallucination)。 | 每条候选关系都回到文献与理论核验(第 12 课),不因措辞专业就采信。 |
| 收窄解决“可研究”,不解决“值得研究” | 漏斗能把问题变得可操作,但创新性、理论贡献、是否已被做过,它判断不了。 | 用文献综述确认“尚未被充分回答”,避免做成重复劳动。 |
| 数据能支持的关系类型有上限 | 横断问卷数据通常只支持相关与有条件的中介推断,给不出干净的因果结论。 | 让结论强度匹配数据:观测数据慎用因果措辞,因果声明需实验或可信识别策略。 |
| 过度收窄会做成“伪命题” | 一味追求细,可能把问题缩到没有理论意义、样本也凑不齐的程度。 | 收窄到“可测量 + 可抽样 + 有理论价值”三者交集即可,不是越窄越好。 |
| 中介/调节的设定不能外包给模型 | “X 是中介还是调节”取决于理论机制,模型给的是猜测而非定论。 | 由研究者凭理论判断并在文献中找依据,模型只负责把候选摆出来。 |
🚧 一句话守住底线
大模型让你更快得到一批候选研究问题,但“这条关系是否真实、是否值得做、数据能否支持”——这三项判断的责任始终在研究者本人,不在被你赋予人设的模型。漏斗收窄是研究的起点,不是终点。
📦 本课交付物
按本节实操任务完成并提交以下内容,提交 AI 初审,按 Module_Rubrics.md 对应维度评分:
- [ ] 研究问题卡片:含 X(自变量) / Y(因变量) / M(中介,如有) / W(调节,如有) / 研究边界(人群·场景) / 可行性 六栏
- [ ] 2 个变量关系陈述句:明确标出 X→Y(及 M/W)的方向性,并为每个构念注明可操作化指标
- [ ] AI 协作日志:漏斗收窄提示词的“指令 → AI 输出 → 你的修正”记录
- [ ] 沉淀模板:把研究问题卡片与对应提示词存入个人工具箱
🏁 本章小结
把本课凝练成可据以复习的几条要点:
- 核心区分:研究主题(topic)只圈定领域,研究问题(research question)是一个可经验检验、含明确变量关系的疑问句。开题的关键一步,是把前者收窄为后者。
- 核心方法:漏斗聚焦法——界定人群/场景的边界 → 把抽象构念可操作化为可测量指标 → 凝练为带方向的变量关系(X、Y,必要时 M / W)。它既能自上而下收窄宽泛兴趣,也能自下而上从已有数据倒推问题。
- 为什么必须收窄:可测量性决定能否回答、变量关系决定能否设计与分析、边界决定可行性。三者缺一,问题就停在“无法验证的断言”。
- 大模型的角色:它擅长把宽泛概念联想到细分维度与候选变量关系,几十秒给出难以独自穷举的发散结果;但它给的是合理候选而非已验证事实,拍板权在研究者。
- 变量四角色:自变量 X(前因)、因变量 Y(结果)、中介 M(解释“为什么/如何”)、调节 W(刻画“何时/对谁更强”)。用中介还是调节由理论判断决定。
- 边界要诚实:收窄解决“可研究”不解决“值得研究”;数据能支持的关系类型有上限;过度收窄会做成伪命题。最终判断责任在研究者本人。
自测清单(可保留逐项打勾)
- [ ] 我能说清研究主题、研究问题、研究假设三者的区别。
- [ ] 我能把一个宽泛兴趣按漏斗三层收窄,并最终写成含 X / Y(及 M/W)的变量关系陈述句。
- [ ] 我能为研究问题里的每个构念指出可操作化指标(如用哪些题项/数据测量)。
- [ ] 我用
[一键复制]提示词在模型端跑通了至少一个收窄流程,并对模型给的关系做了“需文献核验”的标注。 - [ ] 我能指出漏斗法与大模型在这一步的至少三条边界(幻觉 / 可研究≠值得研究 / 数据支持的关系类型有上限)。
✍️ 思考与练习
下列练习用于把本节概念用起来(区别于“本课交付物”里的任务),建议写在你的本地笔记中。
练习 1(概念辨析)。 用自己的话说明“研究主题”“研究问题”“研究假设”三者的区别,并各举一个关于“短视频与老年人”的例子。再判断下面这句属于哪一类、缺了什么:“研究短视频对老年人的影响”。
好答案要点:主题只圈领域、问题是可检验的问句含变量关系、假设是对关系方向的具体陈述;指出该句是主题,缺人群/场景边界、缺可测量变量、缺关系方向。
练习 2(漏斗收窄实操,紧扣 Case A)。 取 Case A 心理问卷数据集(N=500,列含 Anxiety_1..12、Strategy_1..8、Efficacy_1..7、反向计分题 Anxiety_4_R、Age)。把宽泛兴趣“AI 焦虑影响学习”按漏斗三层收窄,写出一句含 X / M / Y 的研究问题陈述,并为每个构念注明对应题项。说明你在第二层做了哪一步“可操作化”,以及 Anxiety_4_R 为何需要先处理。
好答案要点:能把“学习”操作化为
Efficacy_1..7、把Strategy_1..8设为中介,写出“Anxiety→Strategy→Efficacy”的带方向陈述;指出Anxiety_4_R是反向计分题,须重编码后才能与同维度题项一起计分,否则拉低信度、扭曲方向。
练习 3(关系类型选择,紧扣 Case B)。 取 Case B 经管面板数据(30 省 × 10 年,2014—2023,列含 DigEcon_Index、HumanCap_per10k(每万人专科以上人力资本)、Innovation_Index)。围绕“数字经济与区域创新”,分别写出一个相关性问题和一个解释/因果性问题,并说明后者为何需要引入 HumanCap_per10k 作中介或调节,以及该数据类型在因果结论上的局限。
好答案要点:相关性问题止于“DigEcon_Index 与 Innovation_Index 是否相关”;因果/解释性问题写成“DigEcon_Index 经 HumanCap_per10k 影响 Innovation_Index”并交代中介/调节的理论理由;指出面板数据虽优于横断,但仍需识别策略(如内生性处理)才能逼近因果,不能直接断言“导致”。
练习 4(边界识别)。 你把一份横断问卷数据交给模型,它返回一句措辞专业的研究问题:“本研究证明 AI 焦虑导致学习自我效能下降。”请指出这句话同时踩中了本课哪两条问题(提示:一处是措辞与数据类型不匹配,一处涉及该由谁负责判断),并给出你会怎么改。
好答案要点:识别①横断/观测数据不支持“证明/导致”这类因果措辞,应改为“是否负向预测/是否相关”;②因果是否成立的判断不能外包给模型,须由研究者依据数据与理论裁定;改写后应降低结论强度并标注“待文献与设计核验”。
