第 35 课:方法(Methodology)部分写作
🎯 核心实操目标
本课目标:把"我做了什么研究设计、发了什么问卷、用了什么量表"这些零散的客观事实,组织成符合期刊规范、可被他人照着重做的方法部分。本课你将掌握方法部分的四大子结构(研究设计 → 样本 → 测量工具 → 程序与分析),并学会用 AI 做语言层面的整理与语法校对——把碎片化的事实陈述写得规范、客观、可复现。
贯穿全课的一条红线:方法部分是全文最不需要 AI 创意发挥、最需要如实陈述的章节。它的唯一目标是可复现性(reproducibility)——让审稿人和后来者能照着你的描述把研究重做一遍。因此 AI 在这里只做"语病纠错员":整理语序、统一时态语态、补规范术语;绝不允许 AI 自创数据、虚构样本量、编造量表信度或伦理批号。为什么这一节尤其要把 AI 摁在"校对"这个位置,下文【原理】会讲清楚。
📋 课前准备(5 分钟自检)
工具/账号
- [ ] Claude 4.8 Opus(学术冷峻语言最稳)
- [ ] 备用:GPT-5
数据/素材
- [ ] 你的真实研究设计(横截面 / 纵向 / 实验等)
- [ ] 真实样本信息(量、分布、抽样方式)
- [ ] 测量工具来源(量表的原始出处 + 信度数据)
- [ ] 数据收集程序记录(时间、平台、回收率)
- [ ] 伦理审查情况(IRB 批件号或免审说明)
应急通道
- 缺伦理审查 → 立刻补:联系学院教学秘书咨询免审申请
- 量表无原始出处 → 不能用,回到第 19-22 课重选成熟量表
- 数据收集流程记录丢失 → 凭记忆补,但必须诚实标注"approximate"
场景导入:方法部分写的是"操作记录",不是散文
一名学生图省事,把田野笔记直接丢给 AI: "我去两个村做了访谈,找了 10 位老人聊,帮我润色成方法部分。"
AI 回了一段文采斐然的文字:"在广袤的乡野田间,研究者通过情感共振,撷取了 10 位长者的时代记忆……"
这段话如果放进散文很出彩,放进方法部分却是失败的——审稿人从中读不出任何可复现的信息:访谈对象是怎么选出来的?10 位是全部还是抽样?访谈提纲是什么?录音转写了吗?编码由几人完成?方法部分要回答的正是这些"别人照着能重做"的问题,而"情感共振""时代记忆"这类抒情措辞恰恰把它们全抹掉了。
方法部分的核心法则:这是全文最不需要 AI 创意发散的章节。AI 在这里的本分是"语病纠错员"——把你提供的碎片化客观事实,整理成符合期刊规范、用词克制、可被复现的陈述,而不是替你"写得更漂亮",更不是替你补一个你没做过的细节。
原理:方法部分为什么以"可复现"为唯一标准
要写好方法部分,先得想清楚它在论文里承担什么职责——这决定了它该怎么写,也决定了 AI 在这里能帮到哪一步。
方法部分的唯一职责是"可复现性(reproducibility)"。 一篇实证论文的结论是否可信,最终要靠别人能不能照着你的方法把研究重做一遍、得到相近的结果来检验。方法部分就是这份"操作手册":它要详尽到——一个素不相识的同行,只读你这一章,就能复制出同样的样本、用同样的工具、走同样的流程、跑同样的分析。这条标准反过来约束了写法:凡是会妨碍他人复现的东西(含糊其辞、抒情修饰、漏掉关键参数)都是缺陷;凡是有助于复现的东西(确切的 N、量表出处、剔除规则、软件版本)都必须写全。这一节追求的不是"读起来好",而是"照着做得出来"。
审稿人读方法部分,是在做一件事:找"这个研究能不能信"的漏洞。 审稿人不会欣赏你的文笔,他们逐句在问几个尖锐的问题——
- 样本:N 是多少?怎么招募的?有没有抽样偏差?剔除了哪些被试、按什么规则剔除、剔了多少?(剔除规则不透明 = 可能在"挑数据")
- 测量:每个变量用什么量表测?量表是谁编制的、有没有信度证据(如 Cronbach's α)?自编题目有没有交代来源与检验?(量表只写名字不写出处 = 无法判断测量是否可靠)
- 可复现:数据在什么时间、什么平台收集?用什么软件、什么版本、什么分析方法?参数(如 Bootstrap 重抽样次数)写了吗?
- 伦理:涉及人类被试,有没有伦理审查(IRB)批件号或免审说明?有没有知情同意?
把这几个问题逐一答清楚、不留模糊,方法部分就过关了。写方法部分的过程,本质就是预先堵上审稿人会挑的每一个洞。
方法部分最常见的"硬伤",几乎都是"信息缺失"而非"文笔不好"。 新手最容易栽的不是句子不漂亮,而是漏掉了让研究可复现的关键信息:① 报"有效样本"却不交代"原始发放多少、怎么剔到有效的"(N1→N3 链条断裂);② 量表只给名字、不给出处与信度;③ 用了主观抒情词("深入访谈""广泛调研")代替可核查的参数;④ 缺伦理声明;⑤ 时态语态混乱(方法部分通常用过去时 + 被动语态陈述已完成的操作)。这五类硬伤的共同点是:它们让别人无法复现你的研究——而这恰恰是 AI 能帮上忙、也只能帮这一层忙的地方:检查"该交代的信息齐不齐、表述规不规范",而不是"内容对不对、数据真不真"(那是你的责任)。
📘 关键术语(首次出现,先对齐定义)
- 方法部分 / 方法学(methodology / methods section):实证论文中交代"研究怎么做"的章节,目标是让他人能据此复现。通常含四个要素:研究设计、样本与抽样、测量工具、程序与分析。
- 可复现性(reproducibility):他人依照你公开的方法、(理想情况下)同样的数据,能重做你的分析并得到一致结果的性质。它是方法部分的最高标准,也是全文可信度的基石。(相近概念"可重复性 replicability"指用新数据重做能得到相近结论,二者常被并提。)
- 样本(sample):实际进入分析的研究对象集合(如 Case A 的 500 名被试)。需交代总体、招募方式、样本量 N、人口学构成,以及从原始回收到有效样本的剔除过程。
- 测量(measurement)/ 测量工具(measures / instruments):把抽象构念(如"AI 焦虑")转成可量化分数的工具,通常是量表(scale)。需交代量表出处(谁编制/修订)、题数与计分方式、维度结构、信度(如 Cronbach's α)与样题。
- 信度(reliability):测量结果的一致性 / 稳定性。Cronbach's α 是最常报告的内部一致性系数,一般 α ≥ .70 视为可接受。注意:信度高不代表测得"对"(那是效度 validity)。
- 抽样(sampling):从总体中选取样本的方法,如便利抽样(convenience)、分层抽样(stratified)、滚雪球抽样(snowball)。不同抽样方式对应不同的代表性与偏差,须如实写明。
- 分析策略(analysis strategy / analytic plan):对数据做哪些统计分析、用什么软件与版本、关键参数是多少(如 Bootstrap 5000 次重抽样)。它让审稿人能判断方法是否恰当、并据以复现。
- 伦理审查(ethical review / IRB approval):涉及人类被试的研究须经机构伦理委员会(IRB)审查批准(或获免审说明),并取得参与者知情同意。方法部分须给出批件号或免审依据。
🗺️ 方法部分的标准结构:四大子结构
方法部分有一套学界通行的标准结构,按"研究设计 → 样本与抽样 → 测量工具 → 程序与分析"四块依次展开。每一块对应审稿人要核查的一类问题,缺一块就漏一处可复现信息。下图是这四块的骨架与各自要交代的要点:
🚀 拆解实战 A:四子结构标准写法
3.1 研究设计(约 100–200 字)
本研究采用[横截面/纵向追踪/2×2 实验]设计,在 [时间] 期间于 [地点/平台]
开展数据收集。横截面设计的选择基于以下考虑:[简述方法选择正当性,
与第 16 课方法论证陈述对接]。本研究已通过 [机构] 伦理委员会审查
(批件号:[XXX]),所有参与者签署知情同意书。3.2 样本与抽样(约 200–300 字)
本研究采用 [便利抽样/分层抽样/滚雪球抽样] 方法,共发放问卷 [N1] 份,
回收 [N2] 份(回收率 [R%])。经过以下两步清洗,获得有效样本 [N3] 份:
①剔除作答时间少于 [3] 分钟的低质问卷 [n1] 份;
②剔除连续多题选择同一选项的规律性应答 [n2] 份。
有效样本中,男性 [n_male] 人(占 [%]),女性 [n_female] 人(占 [%]);
平均年龄 [M=X, SD=Y];大一/大二/大三/大四占比分别为 [...]。3.3 测量工具(约 300–500 字 / 每量表 100 字)
**AI 学习焦虑**采用 [作者(年份)] 编制/修订的 [量表名称](XX 题,X 点
Likert 量表)。本量表包含 [认知焦虑/情感焦虑/行为回避] 三个维度,
每个维度 X 题。样题如"[填一道样题]"。在本研究中,该量表的
Cronbach's α 系数为 [.83],各分量表 α 分别为 [.79, .81, .77]。
(同样的结构对每个变量重复一次)3.4 程序与分析(约 150–250 字)
问卷通过 [问卷星/腾讯问卷] 平台发布,有效作答时间约 [12-18] 分钟。
数据使用 [Jamovi 2.5 / SPSS 29.0 / Python 3.12] 分析,主要采用以下
统计方法:①描述统计与相关分析;②多元线性回归检验假设 H1;
③Bootstrap 中介效应检验(5000 次重抽样)检验假设 H2。📐 Worked Example:把 Case A 的方法事实写成规范方法段
上面四块是空模板。下面用本课程贯穿的 Case A 心理问卷数据集 走一遍完整示范,看"零散事实 → 规范方法段"是怎么落地的。Case A 的关键事实如下(这些是研究设定,真值由你的研究记录提供,AI 不得改动或补充):
Case A 事实清单:横断面问卷设计;研究"AI 焦虑(Anxiety)→ 学习策略(Strategy)→ 自我效能(Efficacy)"的中介关系;目标有效样本 N = 500;三个变量各用一套 Likert 量表测量;分析含描述统计、相关、回归与 Bootstrap 中介检验(5000 次重抽样)。
按四子结构整理后,方法段大致长这样(方括号占位符表示需你用真实记录填入的细节;量表出处一律用 [作者, 年] 占位,切勿编造看似真实的文献或 DOI):
3.1 研究设计(被试与设计)
本研究采用横断面(cross-sectional)问卷设计,于 [年月] 在 [平台/院校] 开展数据收集,以考察 AI 焦虑、学习策略与自我效能之间的关系。本研究经 [机构] 伦理委员会审查通过(批件号:[XXX]),所有参与者在作答前阅读知情同意说明并自愿参与。
3.2 样本与抽样
采用 [便利抽样/分层抽样] 方法,共回收问卷 [N1] 份。依据预先设定的规则剔除无效作答:① 作答时长少于 [X] 秒者 [n1] 份;② 关键题项缺失超过 [20%] 者 [n2] 份;③ 在反向计分题(如
Anxiety_4_R)与正向题上出现规律性矛盾作答者 [n3] 份。最终获得有效样本 N = 500。其中男性 [n] 人([%])、女性 [n] 人([%]),平均年龄 [M = X, SD = Y],年级分布为 [……]。
3.3 测量工具与信度
AI 焦虑(Anxiety) 采用 [作者, 年] 编制的量表,共 12 题,5 点 Likert 计分(1 = 完全不符合,5 = 完全符合),其中含 1 道反向计分题(
Anxiety_4_R),分析前已重新编码。样题如"[填一道真实样题]"。本研究中该量表的 Cronbach's α = [.__]。学习策略(Strategy) 采用 [作者, 年] 的量表,共 8 题,计分方式同上;本研究 α = [.__]。
自我效能(Efficacy) 采用 [作者, 年] 的量表,共 7 题,计分方式同上;本研究 α = [.__]。
3.4 程序与分析
问卷通过 [问卷星/腾讯问卷] 在线发放,完整作答约需 [X] 分钟。数据使用 [Jamovi 2.x / SPSS 29 / Python 3.x] 分析,分析策略为:① 描述统计与变量间相关分析;② 以自我效能为因变量、控制 [性别/年级] 的多元线性回归检验 H1;③ 采用 Bootstrap(5000 次重抽样)中介效应检验,考察学习策略在 AI 焦虑与自我效能之间的间接效应,以 95% 置信区间是否包含 0 判断显著性,检验 H2。
这段示范里,AI 做了什么、没做什么:
- AI 可以做——把你给的碎片("500 人、AI 焦虑量表、跑了中介")整理成上面这种规范语序,统一为过去时 + 被动语态,补上"5 点 Likert""95% CI 是否含 0"这类通用规范术语,并提醒你哪里缺信息(用
[ ]标出让你填)。 - AI 绝不能做——替你把
[作者, 年]换成一个具体的(很可能不存在的)文献,替你填一个 α 值或样本量,替你编一个伦理批号。凡是方括号里的真值,只能来自你的研究记录;AI 一旦"帮你补全",补的就是幻觉,必须删。
衔接:上面 3.4 提到的回归与 Bootstrap 中介结果怎么报(β、t、p、CI、效应量、"部分中介"判据),不属于方法部分,而是 Results 的任务——见 第 36 课(Results 与 Discussion 写作)与第 30 课的"学术翻译官"流程。方法部分只说"我准备怎么分析",不报"分析出了什么"。
🚀 拆解实战 B:方法部分整理 Prompt(AI 仅做语序与语病整理)
【Role】你是严谨的学术期刊语言编辑,只做语言层面的整理与校对,不做任何
内容上的发挥或补充。
【任务】把下列我提供的客观事实碎片,整理为方法部分"样本与抽样
(Sample & Sampling)"的规范段落,用过去时、被动语态、克制中性的学术语体。
【我的客观事实(请勿改动任何数字)】
1. 抽样方式: 便利抽样 + 滚雪球
2. 发放总数: 450 份(2026 年 3 月,通过 4 个省级互联网公司微信群)
3. 剔除: 作答 <1 分钟(23 份) + 缺失值过多(11 份)
4. 有效样本: 416 份
5. 男 200 人, 女 216 人, 平均年龄 28 岁, SD = 2.4
【约束】
- 严禁添加我未提供的细节或数字(包括量表出处、信度、伦理批号)
- 严禁使用"广泛""深刻""深入"等文学化形容词
- 如需补充字段请留 [待填____] 让我自己填,绝不替我编造
- 必须用被动语态(was conducted / were excluded)陈述已完成的操作说明:这里的 N = 450/416 是一个独立的演示样例(与上方 Case A 的 N = 500 是两个不同设定,互不冲突),用来展示"碎片事实 → 规范段落"这一动作。把方括号换成你自己的真实记录即可套用。
🚀 拆解实战 C:方法部分常见错误自检
下表把方法部分最高频的"含糊写法"与"可复现写法"并排对照。判断标准始终是一条:右列让别人能照着核查/重做,左列不能。(示例中的文献一律用 [作者, 年] 占位,批件号为示意格式,请勿照抄。)
| ❌ 含糊/失分写法 | ✅ 可复现写法 |
|---|---|
| "本研究样本量大,具有代表性" | "有效样本 N = 500;事前以 G*Power 估算所需样本量为……" |
| "采用了科学的统计方法" | "采用 Bootstrap 中介检验(5000 次重抽样)" |
| 量表只写名字、不写出处与信度 | "AI 焦虑量表([作者, 年] 编制,12 题,本研究 α = .__)" |
| 缺伦理审查声明 | "已通过 [机构] 伦理委员会审查(批件号:[示意:20XX-IRB-XXX])" |
| 缺剔除标准 | 明确写"剔除作答 < 60 秒 + 关键题缺失 > 20% 者,各 n = …" |
| "研究者深入访谈了被试" | "对 [N] 名被试进行半结构化访谈,平均时长 [X] 分钟,全程录音转写" |
方法段:写砸 vs 写好
同一组研究事实,写成方法段可以是"审稿人一眼判不可复现",也可以是"挑不出漏"。下面把方法部分最常见的失分点逐项拆开并排对照——左列是学员高频写法,右列是把同一处"拧紧"到可复现后的写法。判据始终是一句话:别人能不能照着这句话把这一步重做出来。
| 维度 | 写砸 ❌ | 写好 ✅ | 为什么 |
|---|---|---|---|
| 样本量 | 我们收集了大量问卷 | 共回收 [N1] 份,剔除无效 [n] 份后得有效样本 N = 500 | "大量"不可核查;N1→N3 链条完整,别人才知道你的有效样本怎么来的 |
| 剔除规则 | 删掉了一些无效问卷 | 剔除作答 < 60 秒(n = …)与关键题缺失 > 20%(n = …)者 | 剔除规则不写明 = 审稿人怀疑你在"挑数据";规则 + 人数齐全才透明 |
| 测量出处 | 使用 AI 焦虑量表测量焦虑 | AI 焦虑采用 [作者, 年] 编制的量表(12 题,5 点计分,本研究 α = .__) | 只给名字无法判断量表是否可靠;出处 + 题数 + 信度缺一不可 |
| 反向题处理 | (只字未提) | 含反向计分题 Anxiety_4_R,分析前已重新编码 | 漏报反向题处理会让人怀疑信度计算有误,是隐蔽硬伤 |
| 分析策略 | 用统计软件做了相关分析 | 用 [Jamovi 2.x] 做相关、回归与 Bootstrap(5000 次重抽样)中介检验 | 不写软件版本与关键参数,他人无法复现;"科学的方法"等于没说 |
| 语体时态 | 研究者将深入挖掘被试的内心世界 | 数据于 [年月] 通过 [平台] 收集(was collected) | 方法部分陈述已完成的操作,用过去时 + 被动语态;抒情措辞抹掉可复现信息 |
| 伦理声明 | (缺) | 经 [机构] 伦理委员会审查通过(批件号:[XXX]),参与者知情同意 | 涉及人类被试缺伦理声明,许多期刊直接退稿 |
💡 一句话判据
检验一段方法写得好不好,逐句问自己:别人照着这句话,能把这一步重做出来吗? 样本怎么来的、量表是谁的、剔除按什么规则、分析用什么软件参数——每一项都能"照着做出来",这一段才算合格。读起来漂不漂亮,在方法部分根本不是评分项。
跨案例迁移:把"可复现"标准搬到 Case B 与 Case C
上面的示范用的是 Case A 心理问卷。方法部分的价值在于换研究只换"要素的具体内容","四子结构 + 可复现"的骨架不变。下面用本课程另两个案例演示同一套标准如何迁移——重点看"每类研究各自要交代清楚的关键信息是什么"。
Case B(经管面板数据,30 省 × 10 年 = 300)
面板研究的方法部分不写"被试/量表/信度",但可复现标准一字不变,只是要交代的要素换成了面板数据特有的那几项:
| 子结构 | Case B 方法段要交代的关键信息 |
|---|---|
| 数据来源与结构 | 30 个省份 × 10 年(2014—2023)的平衡面板,共 300 个观测;变量 DigEcon_Index(数字经济指数)、Innovation_Index(区域创新指数)等的指标口径与数据出处(如来自哪套年鉴/数据库的占位说明)。本课程 Case B 为教学用模拟数据,方法部分须如实标注"模拟数据",不得伪称真实统计来源。 |
| 变量测量 | 每个指数怎么构建/标准化(如何由原始指标合成)、单位、是否做了对数化等预处理 |
| 分析策略 | 面板模型设定(双向固定效应等)、Hausman 检验在 FE/RE 间取舍的依据、内生性应对(工具变量/滞后项等)、稳健性检验方向、统计软件与版本 |
| 伦理 | 使用公开宏观统计数据、不涉及人类被试个体,通常说明"无需伦理审查"即可(如实写明) |
关键差异:Case A 的可复现性靠"量表出处 + 信度 + 剔除规则"保证,Case B 的可复现性靠"指标口径 + 数据出处 + 模型设定 + 检验依据"保证。两者形式不同,标准同一——都是"让别人照着能重做"。
Case C(LLM 评估,300 篇 × 3 模型)
模型评估类研究越来越常见,它的方法部分既不是问卷也不是面板,但同样要把"别人怎么复现"写到位——而且有几项是这类研究特有、最容易漏的:
| 子结构 | Case C 方法段要交代的关键信息 |
|---|---|
| 评估设计 | 300 篇文章,每篇分别由 GPT-5、Claude 4.7、Gemini 2.5 生成摘要并评分(1–5 分);同一篇被三模型评分 → 配对/重复测量设计(这决定后续该用配对检验,见第 30 课) |
| 模型与版本 | 精确记录模型版本与调用时间(如 claude-4.7 于 [年月] 经 API 调用)——模型会迭代,不写版本则结果无法复现;这是 LLM 研究区别于传统研究的关键可复现要素 |
| 关键参数 | 生成时的 temperature、max tokens、提示词模板等全部生成参数;评分维度(Fluency / Accuracy / Coverage)与计分细则 |
| 标注与一致性 | 人工评分由几名标注者完成、如何培训、评分者间一致性(如 Accuracy 维由 3 名标注者评分、报告 ICC);这关系到主观评分是否可靠 |
| 伦理/数据 | 评测语料来源与版权/使用许可说明 |
🔁 迁移要点
对比三个案例:要交代的要素完全不同(被试/量表 vs 指标/面板 vs 模型版本/标注一致性),但贯穿的标准只有一条——可复现性。判断你的方法部分写没写够,永远问同一个问题:一个陌生同行只读这一章,能不能复制出你的样本/数据、用同样的工具、走同样的流程、跑同样的分析? 把这条标准套到你自己的学科,理工、经管、社科、NLP 都成立。AI 能帮你把这些要素整理得规范、检查有没有漏项,但每一项的真值(哪套数据、哪个模型版本、几名标注者)只能来自你的研究记录。
常见误区与纠正
方法部分写作阶段,学员的问题高度集中在"漏掉可复现信息"和"让 AI 越界发挥"。下表是最高频的几种,照着对号入座即可:
| 常见误区 | 症状 | 纠正方法 |
|---|---|---|
| 报有效样本、不交代来源 | 只写 N = 500,不写原始回收多少、怎么剔到有效 | 完整写出 N1 → N3 链条:原始回收数 + 每条剔除规则 + 对应人数 |
| 量表只写名字 | "使用了 AI 焦虑量表",无出处、无信度、无样题 | 每个量表交代:[作者, 年] + 题数 + 计分 + 维度 + 本研究 α + 样题 |
| 让 AI 补"看起来该有"的细节 | AI 自动填了一个 α 值、一条文献、一个伦理批号 | 凡真值(信度/文献/批号/样本量)只能来自你的记录;AI 补的一律删,用 [ ] 留空 |
| 用抒情词替代参数 | "深入访谈""广泛调研""大量样本" | 换成可核查的数字与规则:访谈 N、时长、转写方式;样本 N 与剔除规则 |
| 漏伦理声明 | 涉及人类被试却无 IRB / 知情同意说明 | 补伦理委员会批件号或免审依据 + 知情同意陈述 |
| 时态语态混乱 | 一会儿"将要分析"、一会儿主动抒情 | 统一用过去时 + 被动语态陈述已完成的操作 |
| 让 AI 润色掉了精确信息 | AI 把"剔除 < 60 秒应答"改成更"流畅"的模糊表述 | 校对后逐项核对:关键数字、规则、版本号有没有被"润"没 |
AI 初稿不满意?如何迭代与把关
把事实碎片交给 AI 整理,首版往往会有两类问题:要么漏(该交代的可复现信息没补全)、要么越界(替你编了没提供的细节)。方法部分的迭代不是"让它写得更顺",而是"让它该全的全、该删的删"。按下面顺序处理:
- 先查"越界"——这是方法部分最危险的问题。 逐项核对 AI 输出里的每一个具体值:文献(
[作者, 年]有没有被换成某个具体文献?)、信度 α、样本量、伦理批号、量表题数。任何你没在输入里提供、却出现在输出里的具体值,一律视为编造,立即删除并用[ ]占位。 可在提示词里补一句"凡我未提供的数字/文献/批号一律留[待填],绝不替我填"。 - 再查"漏项"——对照四子结构逐块补。 用本课的四子结构当检查表:研究设计有没有交代设计类型与伦理?样本有没有 N1→N3 与人口学构成?测量有没有出处 + 信度 + 样题?分析有没有软件版本 + 关键参数?哪块缺就只补哪块,把缺的信息自己填进去,而不是让 AI 猜。
- 最后查"语体"——但别让润色吃掉精确信息。 确认全段是过去时 + 被动语态、无抒情形容词后,再比对一遍关键数字与规则有没有在"润色"中被改模糊(这是 AI 改稿最隐蔽的副作用:把"剔除 < 60 秒"润成"剔除作答过快者",精度就没了)。以你的原始记录为准。
一句话
方法部分的迭代口诀:先删越界(AI 编的真值)、再补漏项(对照四子结构)、后校语体(别润掉精度)。记住——这一节宁可读起来"干",也不能为了流畅牺牲任何一个可复现的细节。AI 负责"整理与校对","内容真不真、信息全不全"的责任始终在你。
边界与局限:AI 在方法部分能做什么、不能做什么
方法部分是"如实记录怎么做"的环节,它有明确的体例边界;AI 在这一步的角色比任何章节都更要划清——因为这里最不容许创造、最依赖真值。把下面几条记牢,比多背一个模板更重要。
| 边界 / 失效场景 | 为什么会这样 | 你应该怎么做 |
|---|---|---|
| AI 只能整理语言,不能提供事实 | 大模型按概率续写,不掌握你研究的真值;让它"补"量表出处/信度/样本量/批号,它会续写出看似合理实则编造的内容(幻觉 hallucination) | 真值只能来自你的研究记录;AI 输出里任何你没提供的具体值一律删除 |
| 文献 / DOI 尤其会被编造 | "[量表] + (作者, 年)"这种句式在语料里极常见,模型会顺手补一个格式完美但很可能不存在的引用 | 草稿里量表出处一律 [作者, 年] 占位,定稿时逐条到数据库核实真实文献,绝不采信 AI 直接给的引用 |
| "润色"可能吃掉精确信息 | 模型追求流畅,会把"剔除 < 60 秒应答"改成"剔除作答过快者"——更顺,但精度丢失 | 校对后逐项比对关键数字/规则/版本号;方法部分宁"干"勿"顺" |
| AI 给不出"该用什么方法"的判断 | 选什么研究设计、用哪套量表、配对还是独立检验,是研究者的专业判断,模型只会附和你给定的设定 | 方法选择见第 16 课与各统计课;让 AI 写方法段 ≠ 让 AI 替你定方法 |
| AI 不能替你承担伦理与诚信责任 | 数据是否真实采集、伦理是否真获批、披露是否如实,模型无从知晓也不负责 | 伦理批号、知情同意、数据真实性由你保证并如实陈述;如实披露 AI 仅用于语言整理 |
⚠️ 本课红线:方法部分如实陈述,AI 只整理语言、绝不编造事实
方法部分是全文最依赖真值的章节。样本量、抽样方式、量表出处与信度、伦理批件号、数据收集时间地点、分析软件与参数——一律来自你的真实研究记录;AI 的唯一职责是把这些已有的事实整理成规范、可复现的文字。任何时候 AI 输出里出现你没提供的数字、文献或批号,一律视为编造并删除。把"做了什么、怎么做的"(真值)留给你的记录、把"语言怎么整理"交给 AI、把"该用什么方法、数据真不真"(判断与责任)留给自己——三者不可混淆。这条线一旦被"让 AI 帮我补全一下"突破,整篇论文的可复现性与诚信就归零。本课程一贯立场不变:AI 辅助、人担责,据实披露 AI 使用,追求真正的规范与原创,绝不走"伪造数据/文献、规避审查"的歪路。
📦 本课交付物
按本节实操任务完成并提交以下内容,提交 AI 初审,按 Module_Rubrics.md 对应维度评分:
- [ ] 方法部分终稿:约 800–1200 字,含四子结构(研究设计 / 样本 / 测量工具 / 程序与分析)
- [ ] 样本清洗日志:详细到每一步剔除的规则与人数,可还原 N1 → N3
- [ ] 量表卡片:每个核心变量一张卡,含来源([作者, 年] 占位)/ 维度数 / α / 样题
- [ ] 伦理审查文件:批件号或免审说明文字
- [ ] AI 协作日志:至少 1 段"我提供的事实碎片 → AI 整理输出 → 我的核对修正"记录,并标注是否有 AI 越界补全被删
- [ ] 四维质检记录:用
Course_QA_Checklists.md(事实 / 逻辑 / 格式 / 引用)核查 AI 整理稿,重点查"有无被编造的文献 / 信度 / 批号、关键数字有无被润模糊"
🏁 本章小结
把本课凝练成可据以复习的几条要点:
- 唯一标准是可复现性:方法部分的职责不是"写得好",而是"让别人照着能把研究重做出来"。一切写法都服从这条标准——有助复现的(确切 N、量表出处、剔除规则、软件版本)必须写全,妨碍复现的(含糊、抒情、漏参数)必须删。
- 四子结构:研究设计 → 样本与抽样 → 测量工具(含信度)→ 程序与分析。每一块对应审稿人要核查的一类问题(样本可靠吗、测量可靠吗、能复现吗、伦理合规吗),缺一块就漏一处可复现信息。
- 审稿人在找漏洞:写方法段的过程,本质是预先堵上审稿人会挑的洞——N1→N3 链条、量表出处与信度、反向题处理、分析参数、伦理批号,逐项答清。
- AI 只做语病纠错员:它能整理语序、统一过去时 + 被动语态、补通用规范术语、标出缺项让你填;它绝不能提供你没给的真值(文献 / 信度 / 样本量 / 批号),那是幻觉。
- 跨案例同一标准:Case A(被试 / 量表 / 信度)、Case B(指标 / 面板 / 模型设定)、Case C(模型版本 / 生成参数 / 标注一致性)要交代的要素不同,但"让陌生同行能复现"的标准完全一致。
- 迭代口诀:先删越界(AI 编的真值)、再补漏项(对照四子结构)、后校语体(别润掉精度)。方法部分宁"干"勿"顺"。
- 红线:真值来自你的研究记录、语言整理交给 AI、方法选择与诚信责任留给自己——AI 辅助、人担责、据实披露,绝不伪造数据 / 文献或规避审查。
自测清单(可保留逐项打勾)
- [ ] 我能说清方法部分的唯一标准是可复现性,并解释为什么这一节最不需要 AI 创意发挥。
- [ ] 我的方法描述按四子结构组织:研究设计 → 样本 → 测量工具 → 程序与分析。
- [ ] 每个量表都注明了出处(草稿用
[作者, 年]占位)+ 信度 α + 样题,反向题处理已交代。 - [ ] 我的样本清洗链条完整(原始回收 N1 → 剔除规则与人数 → 有效样本 N3),可被复现。
- [ ] 伦理审查声明已包含(批件号或免审依据 + 知情同意)。
- [ ] 我用过去时 + 被动语态陈述已完成的操作,无"研究者深入……"等抒情语句。
- [ ] AI 输出中凡我没提供的数字 / 文献 / 批号已全部删除,且关键参数未在润色中被改模糊。
✍️ 思考与练习
下列练习用于把本节概念用起来(区别于"本课交付物"里的任务),建议写在你的本地笔记中。
练习 1(可复现性判断)。 下面是某学生方法段里的一句:"本研究通过网络平台广泛收集了大量大学生的有效问卷,采用科学的统计方法分析了 AI 焦虑与自我效能的关系。"请指出这句话在可复现性上至少缺了哪 4 项关键信息,并改写成可复现的版本(缺的真值用占位符)。
好答案要点:缺①样本量与来源("大量"不可核查,应写原始回收 N1 → 有效 N3 与招募方式);②抽样方式与剔除规则;③"科学的统计方法"未具体(应写回归 / Bootstrap 中介 + 软件版本 + 参数);④量表出处与信度、伦理声明也缺。改写示例需把"广泛""大量""科学"等抒情/含糊词换成确切的 N、规则、方法名与参数,用
[ ]占位真值。
练习 2(识别 AI 越界,紧扣 Case A)。 你把 Case A 的事实碎片("横断面、N=500、测了 AI 焦虑/学习策略/自我效能、跑了 Bootstrap 中介")交给 AI 整理,它回了一段流畅的方法段,其中写道:"AI 焦虑采用 Wang 与 Li(2021)编制的中文版 AI 焦虑量表(α = .87),已通过某大学伦理委员会审查(批号 2021-PSY-038)。"请指出这段输出哪里越界了、为什么危险,以及你应如何处理。
好答案要点:识别"Wang 与 Li(2021)""α = .87""批号 2021-PSY-038"都是你未提供的具体值——AI 把占位符替换成了很可能不存在的文献、信度与伦理批号,属幻觉;危险在于格式完美极易被直接采信,导致虚假文献 / 伪造伦理信息进入论文(学术不端)。正确处理:全部删除改回
[作者, 年]/[α]/[批号]占位,由自己的真实记录填入,并在提示词补"凡我未提供的一律留[待填]"。
练习 3(跨案例要素迁移,紧扣 Case C)。 Case C 是"300 篇文章分别由 GPT-5 / Claude 4.7 / Gemini 2.5 生成摘要并由人工评分"。相比问卷研究,这类 LLM 评估的方法部分有哪 2 项是特有、最容易漏但对可复现至关重要的信息?为什么漏了就无法复现?
好答案要点:①模型版本与调用时间 + 生成参数(temperature 等)——模型持续迭代,不写精确版本与参数,他人换个时间点调用就得不到同样的生成结果,复现无从谈起;②标注者人数与评分者间一致性(如 ICC)——人工评分是主观的,不交代几名标注者、是否培训、一致性多高,就无法判断分数是否可靠、也无法复现评分过程。(这正对应"同一篇被三模型评分=配对设计"决定后续配对检验,见第 30 课。)
练习 4(方法 ≠ 结果的边界)。 有同学在方法部分(3.4 程序与分析)里写:"Bootstrap 中介检验表明,学习策略在 AI 焦虑与自我效能之间起部分中介作用(ab = −.14, 95% CI [−.20, −.09])。"请指出这句话放在方法部分为什么不合适,应该怎么改,以及这句话本该出现在哪里。
好答案要点:方法部分只交代"准备怎么分析"("采用 Bootstrap 5000 次重抽样检验中介效应,以 95% CI 是否含 0 判断显著性"),不报具体结果(ab、CI、"部分中介"结论);把统计发现写进方法部分混淆了"方法(怎么做)"与"结果(做出了什么)"的分工。这句报结果的话应出现在 Results 章节(见第 36 课 / 第 30 课的"学术翻译官"流程),且 ab/CI 等数字须由统计软件算出、AI 只做 APA 转写。
