第 35 课：方法（Methodology）部分写作

🎯 核心实操目标

本课目标：把"我做了什么研究设计、发了什么问卷、用了什么量表"这些零散的客观事实，组织成符合期刊规范、可被他人照着重做的方法部分。本课你将掌握方法部分的四大子结构（研究设计 → 样本 → 测量工具 → 程序与分析），并学会用 AI 做语言层面的整理与语法校对——把碎片化的事实陈述写得规范、客观、可复现。

贯穿全课的一条红线：方法部分是全文最不需要 AI 创意发挥、最需要如实陈述的章节。它的唯一目标是可复现性（reproducibility）——让审稿人和后来者能照着你的描述把研究重做一遍。因此 AI 在这里只做"语病纠错员"：整理语序、统一时态语态、补规范术语；绝不允许 AI 自创数据、虚构样本量、编造量表信度或伦理批号。为什么这一节尤其要把 AI 摁在"校对"这个位置，下文【原理】会讲清楚。

📋 课前准备（5 分钟自检）

工具/账号

[ ] Claude 4.8 Opus（学术冷峻语言最稳）
[ ] 备用：GPT-5

数据/素材

[ ] 你的真实研究设计（横截面 / 纵向 / 实验等）
[ ] 真实样本信息（量、分布、抽样方式）
[ ] 测量工具来源（量表的原始出处 + 信度数据）
[ ] 数据收集程序记录（时间、平台、回收率）
[ ] 伦理审查情况（IRB 批件号或免审说明）

应急通道

缺伦理审查 → 立刻补：联系学院教学秘书咨询免审申请
量表无原始出处 → 不能用，回到第 19-22 课重选成熟量表
数据收集流程记录丢失 → 凭记忆补，但必须诚实标注"approximate"

场景导入：方法部分写的是"操作记录"，不是散文

一名学生图省事，把田野笔记直接丢给 AI： "我去两个村做了访谈，找了 10 位老人聊，帮我润色成方法部分。"
AI 回了一段文采斐然的文字："在广袤的乡野田间，研究者通过情感共振，撷取了 10 位长者的时代记忆……"
这段话如果放进散文很出彩，放进方法部分却是失败的——审稿人从中读不出任何可复现的信息：访谈对象是怎么选出来的？10 位是全部还是抽样？访谈提纲是什么？录音转写了吗？编码由几人完成？方法部分要回答的正是这些"别人照着能重做"的问题，而"情感共振""时代记忆"这类抒情措辞恰恰把它们全抹掉了。

方法部分的核心法则：这是全文最不需要 AI 创意发散的章节。AI 在这里的本分是"语病纠错员"——把你提供的碎片化客观事实，整理成符合期刊规范、用词克制、可被复现的陈述，而不是替你"写得更漂亮"，更不是替你补一个你没做过的细节。

原理：方法部分为什么以"可复现"为唯一标准

要写好方法部分，先得想清楚它在论文里承担什么职责——这决定了它该怎么写，也决定了 AI 在这里能帮到哪一步。

方法部分的唯一职责是"可复现性（reproducibility）"。 一篇实证论文的结论是否可信，最终要靠别人能不能照着你的方法把研究重做一遍、得到相近的结果来检验。方法部分就是这份"操作手册"：它要详尽到——一个素不相识的同行，只读你这一章，就能复制出同样的样本、用同样的工具、走同样的流程、跑同样的分析。这条标准反过来约束了写法：凡是会妨碍他人复现的东西（含糊其辞、抒情修饰、漏掉关键参数）都是缺陷；凡是有助于复现的东西（确切的 N、量表出处、剔除规则、软件版本）都必须写全。这一节追求的不是"读起来好",而是"照着做得出来"。
审稿人读方法部分，是在做一件事：找"这个研究能不能信"的漏洞。 审稿人不会欣赏你的文笔，他们逐句在问几个尖锐的问题——
- 样本：N 是多少？怎么招募的？有没有抽样偏差？剔除了哪些被试、按什么规则剔除、剔了多少？（剔除规则不透明 = 可能在"挑数据"）
- 测量：每个变量用什么量表测？量表是谁编制的、有没有信度证据（如 Cronbach's α）？自编题目有没有交代来源与检验？（量表只写名字不写出处 = 无法判断测量是否可靠）
- 可复现：数据在什么时间、什么平台收集？用什么软件、什么版本、什么分析方法？参数（如 Bootstrap 重抽样次数）写了吗？
- 伦理：涉及人类被试，有没有伦理审查（IRB）批件号或免审说明？有没有知情同意？
把这几个问题逐一答清楚、不留模糊，方法部分就过关了。写方法部分的过程，本质就是预先堵上审稿人会挑的每一个洞。
方法部分最常见的"硬伤"，几乎都是"信息缺失"而非"文笔不好"。 新手最容易栽的不是句子不漂亮，而是漏掉了让研究可复现的关键信息：① 报"有效样本"却不交代"原始发放多少、怎么剔到有效的"（N1→N3 链条断裂）；② 量表只给名字、不给出处与信度；③ 用了主观抒情词（"深入访谈""广泛调研"）代替可核查的参数；④ 缺伦理声明；⑤ 时态语态混乱（方法部分通常用过去时 + 被动语态陈述已完成的操作）。这五类硬伤的共同点是：它们让别人无法复现你的研究——而这恰恰是 AI 能帮上忙、也只能帮这一层忙的地方：检查"该交代的信息齐不齐、表述规不规范",而不是"内容对不对、数据真不真"（那是你的责任）。

📘 关键术语（首次出现，先对齐定义）

方法部分 / 方法学（methodology / methods section）：实证论文中交代"研究怎么做"的章节，目标是让他人能据此复现。通常含四个要素：研究设计、样本与抽样、测量工具、程序与分析。
可复现性（reproducibility）：他人依照你公开的方法、（理想情况下）同样的数据，能重做你的分析并得到一致结果的性质。它是方法部分的最高标准，也是全文可信度的基石。（相近概念"可重复性 replicability"指用新数据重做能得到相近结论，二者常被并提。）
样本（sample）：实际进入分析的研究对象集合（如 Case A 的 500 名被试）。需交代总体、招募方式、样本量 N、人口学构成，以及从原始回收到有效样本的剔除过程。
测量（measurement）/ 测量工具（measures / instruments）：把抽象构念（如"AI 焦虑"）转成可量化分数的工具，通常是量表（scale）。需交代量表出处（谁编制/修订）、题数与计分方式、维度结构、信度（如 Cronbach's α）与样题。
信度（reliability）：测量结果的一致性 / 稳定性。Cronbach's α 是最常报告的内部一致性系数，一般 α ≥ .70 视为可接受。注意：信度高不代表测得"对"（那是效度 validity）。
抽样（sampling）：从总体中选取样本的方法，如便利抽样（convenience）、分层抽样（stratified）、滚雪球抽样（snowball）。不同抽样方式对应不同的代表性与偏差，须如实写明。
分析策略（analysis strategy / analytic plan）：对数据做哪些统计分析、用什么软件与版本、关键参数是多少（如 Bootstrap 5000 次重抽样）。它让审稿人能判断方法是否恰当、并据以复现。
伦理审查（ethical review / IRB approval）：涉及人类被试的研究须经机构伦理委员会（IRB）审查批准（或获免审说明），并取得参与者知情同意。方法部分须给出批件号或免审依据。

🗺️ 方法部分的标准结构：四大子结构

方法部分有一套学界通行的标准结构，按"研究设计 → 样本与抽样 → 测量工具 → 程序与分析"四块依次展开。每一块对应审稿人要核查的一类问题，缺一块就漏一处可复现信息。下图是这四块的骨架与各自要交代的要点：

🚀 拆解实战 A：四子结构标准写法

3.1 研究设计（约 100–200 字）

本研究采用[横截面/纵向追踪/2×2 实验]设计,在 [时间] 期间于 [地点/平台]
开展数据收集。横截面设计的选择基于以下考虑:[简述方法选择正当性,
与第 16 课方法论证陈述对接]。本研究已通过 [机构] 伦理委员会审查
(批件号:[XXX]),所有参与者签署知情同意书。

3.2 样本与抽样（约 200–300 字）

本研究采用 [便利抽样/分层抽样/滚雪球抽样] 方法,共发放问卷 [N1] 份,
回收 [N2] 份(回收率 [R%])。经过以下两步清洗,获得有效样本 [N3] 份:
①剔除作答时间少于 [3] 分钟的低质问卷 [n1] 份;
②剔除连续多题选择同一选项的规律性应答 [n2] 份。

有效样本中,男性 [n_male] 人(占 [%]),女性 [n_female] 人(占 [%]);
平均年龄 [M=X, SD=Y];大一/大二/大三/大四占比分别为 [...]。

3.3 测量工具（约 300–500 字 / 每量表 100 字）

量表描述模板

markdown

**AI 学习焦虑**采用 [作者(年份)] 编制/修订的 [量表名称](XX 题,X 点
Likert 量表)。本量表包含 [认知焦虑/情感焦虑/行为回避] 三个维度,
每个维度 X 题。样题如"[填一道样题]"。在本研究中,该量表的
Cronbach's α 系数为 [.83],各分量表 α 分别为 [.79, .81, .77]。

(同样的结构对每个变量重复一次)

3.4 程序与分析（约 150–250 字）

问卷通过 [问卷星/腾讯问卷] 平台发布,有效作答时间约 [12-18] 分钟。
数据使用 [Jamovi 2.5 / SPSS 29.0 / Python 3.12] 分析,主要采用以下
统计方法:①描述统计与相关分析;②多元线性回归检验假设 H1;
③Bootstrap 中介效应检验(5000 次重抽样)检验假设 H2。

📐 Worked Example：把 Case A 的方法事实写成规范方法段

上面四块是空模板。下面用本课程贯穿的 Case A 心理问卷数据集 走一遍完整示范，看"零散事实 → 规范方法段"是怎么落地的。Case A 的关键事实如下（这些是研究设定，真值由你的研究记录提供，AI 不得改动或补充）：

Case A 事实清单：横断面问卷设计；研究"AI 焦虑（Anxiety）→ 学习策略（Strategy）→ 自我效能（Efficacy）"的中介关系；目标有效样本 N = 500；三个变量各用一套 Likert 量表测量；分析含描述统计、相关、回归与 Bootstrap 中介检验（5000 次重抽样）。

按四子结构整理后，方法段大致长这样（方括号占位符表示需你用真实记录填入的细节；量表出处一律用 [作者, 年] 占位，切勿编造看似真实的文献或 DOI）：

3.1 研究设计（被试与设计）

本研究采用横断面（cross-sectional）问卷设计，于 [年月] 在 [平台/院校] 开展数据收集，以考察 AI 焦虑、学习策略与自我效能之间的关系。本研究经 [机构] 伦理委员会审查通过（批件号：[XXX]），所有参与者在作答前阅读知情同意说明并自愿参与。

3.2 样本与抽样

采用 [便利抽样/分层抽样] 方法，共回收问卷 [N1] 份。依据预先设定的规则剔除无效作答：① 作答时长少于 [X] 秒者 [n1] 份；② 关键题项缺失超过 [20%] 者 [n2] 份；③ 在反向计分题（如 Anxiety_4_R）与正向题上出现规律性矛盾作答者 [n3] 份。最终获得有效样本 N = 500。其中男性 [n] 人（[%]）、女性 [n] 人（[%]），平均年龄 [M = X, SD = Y]，年级分布为 [……]。

3.3 测量工具与信度

AI 焦虑（Anxiety） 采用 [作者, 年] 编制的量表，共 12 题，5 点 Likert 计分（1 = 完全不符合，5 = 完全符合），其中含 1 道反向计分题（Anxiety_4_R），分析前已重新编码。样题如"[填一道真实样题]"。本研究中该量表的 Cronbach's α = [.__]。
学习策略（Strategy） 采用 [作者, 年] 的量表，共 8 题，计分方式同上；本研究 α = [.__]。
自我效能（Efficacy） 采用 [作者, 年] 的量表，共 7 题，计分方式同上；本研究 α = [.__]。

3.4 程序与分析

问卷通过 [问卷星/腾讯问卷] 在线发放，完整作答约需 [X] 分钟。数据使用 [Jamovi 2.x / SPSS 29 / Python 3.x] 分析，分析策略为：① 描述统计与变量间相关分析；② 以自我效能为因变量、控制 [性别/年级] 的多元线性回归检验 H1；③ 采用 Bootstrap（5000 次重抽样）中介效应检验，考察学习策略在 AI 焦虑与自我效能之间的间接效应，以 95% 置信区间是否包含 0 判断显著性，检验 H2。

这段示范里，AI 做了什么、没做什么：

AI 可以做——把你给的碎片（"500 人、AI 焦虑量表、跑了中介"）整理成上面这种规范语序，统一为过去时 + 被动语态，补上"5 点 Likert""95% CI 是否含 0"这类通用规范术语，并提醒你哪里缺信息（用 [ ] 标出让你填）。
AI 绝不能做——替你把 [作者, 年] 换成一个具体的（很可能不存在的）文献，替你填一个 α 值或样本量，替你编一个伦理批号。凡是方括号里的真值，只能来自你的研究记录；AI 一旦"帮你补全"，补的就是幻觉，必须删。

衔接：上面 3.4 提到的回归与 Bootstrap 中介结果怎么报（β、t、p、CI、效应量、"部分中介"判据），不属于方法部分，而是 Results 的任务——见第 36 课（Results 与 Discussion 写作）与第 30 课的"学术翻译官"流程。方法部分只说"我准备怎么分析"，不报"分析出了什么"。

🚀 拆解实战 B：方法部分整理 Prompt（AI 仅做语序与语病整理）

方法部分整理 Prompt (一键复制)

markdown

【Role】你是严谨的学术期刊语言编辑,只做语言层面的整理与校对,不做任何
内容上的发挥或补充。

【任务】把下列我提供的客观事实碎片,整理为方法部分"样本与抽样
(Sample & Sampling)"的规范段落,用过去时、被动语态、克制中性的学术语体。

【我的客观事实(请勿改动任何数字)】
1. 抽样方式: 便利抽样 + 滚雪球
2. 发放总数: 450 份(2026 年 3 月,通过 4 个省级互联网公司微信群)
3. 剔除: 作答 <1 分钟(23 份) + 缺失值过多(11 份)
4. 有效样本: 416 份
5. 男 200 人, 女 216 人, 平均年龄 28 岁, SD = 2.4

【约束】
- 严禁添加我未提供的细节或数字(包括量表出处、信度、伦理批号)
- 严禁使用"广泛""深刻""深入"等文学化形容词
- 如需补充字段请留 [待填____] 让我自己填,绝不替我编造
- 必须用被动语态(was conducted / were excluded)陈述已完成的操作

说明：这里的 N = 450/416 是一个独立的演示样例（与上方 Case A 的 N = 500 是两个不同设定，互不冲突），用来展示"碎片事实 → 规范段落"这一动作。把方括号换成你自己的真实记录即可套用。

🚀 拆解实战 C：方法部分常见错误自检

下表把方法部分最高频的"含糊写法"与"可复现写法"并排对照。判断标准始终是一条：右列让别人能照着核查/重做，左列不能。（示例中的文献一律用 [作者, 年] 占位，批件号为示意格式，请勿照抄。）

❌ 含糊/失分写法	✅ 可复现写法
"本研究样本量大,具有代表性"	"有效样本 N = 500;事前以 G*Power 估算所需样本量为……"
"采用了科学的统计方法"	"采用 Bootstrap 中介检验(5000 次重抽样)"
量表只写名字、不写出处与信度	"AI 焦虑量表([作者, 年] 编制,12 题,本研究 α = .__)"
缺伦理审查声明	"已通过 [机构] 伦理委员会审查(批件号:[示意:20XX-IRB-XXX])"
缺剔除标准	明确写"剔除作答 < 60 秒 + 关键题缺失 > 20% 者,各 n = …"
"研究者深入访谈了被试"	"对 [N] 名被试进行半结构化访谈,平均时长 [X] 分钟,全程录音转写"

方法段：写砸 vs 写好

同一组研究事实，写成方法段可以是"审稿人一眼判不可复现"，也可以是"挑不出漏"。下面把方法部分最常见的失分点逐项拆开并排对照——左列是学员高频写法，右列是把同一处"拧紧"到可复现后的写法。判据始终是一句话：别人能不能照着这句话把这一步重做出来。

维度	写砸 ❌	写好 ✅	为什么
样本量	我们收集了大量问卷	共回收 [N1] 份，剔除无效 [n] 份后得有效样本 N = 500	"大量"不可核查；N1→N3 链条完整，别人才知道你的有效样本怎么来的
剔除规则	删掉了一些无效问卷	剔除作答 < 60 秒（n = …）与关键题缺失 > 20%（n = …）者	剔除规则不写明 = 审稿人怀疑你在"挑数据"；规则 + 人数齐全才透明
测量出处	使用 AI 焦虑量表测量焦虑	AI 焦虑采用 [作者, 年] 编制的量表（12 题，5 点计分，本研究 α = .__）	只给名字无法判断量表是否可靠；出处 + 题数 + 信度缺一不可
反向题处理	（只字未提）	含反向计分题 `Anxiety_4_R`，分析前已重新编码	漏报反向题处理会让人怀疑信度计算有误，是隐蔽硬伤
分析策略	用统计软件做了相关分析	用 [Jamovi 2.x] 做相关、回归与 Bootstrap（5000 次重抽样）中介检验	不写软件版本与关键参数，他人无法复现；"科学的方法"等于没说
语体时态	研究者将深入挖掘被试的内心世界	数据于 [年月] 通过 [平台] 收集（was collected）	方法部分陈述已完成的操作，用过去时 + 被动语态；抒情措辞抹掉可复现信息
伦理声明	（缺）	经 [机构] 伦理委员会审查通过（批件号：[XXX]），参与者知情同意	涉及人类被试缺伦理声明，许多期刊直接退稿

💡 一句话判据

检验一段方法写得好不好，逐句问自己：别人照着这句话，能把这一步重做出来吗？ 样本怎么来的、量表是谁的、剔除按什么规则、分析用什么软件参数——每一项都能"照着做出来"，这一段才算合格。读起来漂不漂亮，在方法部分根本不是评分项。

跨案例迁移：把"可复现"标准搬到 Case B 与 Case C

上面的示范用的是 Case A 心理问卷。方法部分的价值在于换研究只换"要素的具体内容"，"四子结构 + 可复现"的骨架不变。下面用本课程另两个案例演示同一套标准如何迁移——重点看"每类研究各自要交代清楚的关键信息是什么"。

Case B（经管面板数据，30 省 × 10 年 = 300）

面板研究的方法部分不写"被试/量表/信度"，但可复现标准一字不变，只是要交代的要素换成了面板数据特有的那几项：

子结构	Case B 方法段要交代的关键信息
数据来源与结构	30 个省份 × 10 年（2014—2023）的平衡面板，共 300 个观测；变量 `DigEcon_Index`（数字经济指数）、`Innovation_Index`（区域创新指数）等的指标口径与数据出处（如来自哪套年鉴/数据库的占位说明）。本课程 Case B 为教学用模拟数据，方法部分须如实标注"模拟数据"，不得伪称真实统计来源。
变量测量	每个指数怎么构建/标准化（如何由原始指标合成）、单位、是否做了对数化等预处理
分析策略	面板模型设定（双向固定效应等）、Hausman 检验在 FE/RE 间取舍的依据、内生性应对（工具变量/滞后项等）、稳健性检验方向、统计软件与版本
伦理	使用公开宏观统计数据、不涉及人类被试个体，通常说明"无需伦理审查"即可（如实写明）

关键差异：Case A 的可复现性靠"量表出处 + 信度 + 剔除规则"保证，Case B 的可复现性靠"指标口径 + 数据出处 + 模型设定 + 检验依据"保证。两者形式不同，标准同一——都是"让别人照着能重做"。

Case C（LLM 评估，300 篇 × 3 模型）

模型评估类研究越来越常见，它的方法部分既不是问卷也不是面板，但同样要把"别人怎么复现"写到位——而且有几项是这类研究特有、最容易漏的：

子结构	Case C 方法段要交代的关键信息
评估设计	300 篇文章，每篇分别由 GPT-5、Claude 4.7、Gemini 2.5 生成摘要并评分（1–5 分）；同一篇被三模型评分 → 配对/重复测量设计（这决定后续该用配对检验，见第 30 课）
模型与版本	精确记录模型版本与调用时间（如 `claude-4.7` 于 [年月] 经 API 调用）——模型会迭代，不写版本则结果无法复现；这是 LLM 研究区别于传统研究的关键可复现要素
关键参数	生成时的 temperature、max tokens、提示词模板等全部生成参数；评分维度（Fluency / Accuracy / Coverage）与计分细则
标注与一致性	人工评分由几名标注者完成、如何培训、评分者间一致性（如 Accuracy 维由 3 名标注者评分、报告 ICC）；这关系到主观评分是否可靠
伦理/数据	评测语料来源与版权/使用许可说明

🔁 迁移要点

对比三个案例：要交代的要素完全不同（被试/量表 vs 指标/面板 vs 模型版本/标注一致性），但贯穿的标准只有一条——可复现性。判断你的方法部分写没写够，永远问同一个问题：一个陌生同行只读这一章，能不能复制出你的样本/数据、用同样的工具、走同样的流程、跑同样的分析？ 把这条标准套到你自己的学科，理工、经管、社科、NLP 都成立。AI 能帮你把这些要素整理得规范、检查有没有漏项，但每一项的真值（哪套数据、哪个模型版本、几名标注者）只能来自你的研究记录。

常见误区与纠正

方法部分写作阶段，学员的问题高度集中在"漏掉可复现信息"和"让 AI 越界发挥"。下表是最高频的几种，照着对号入座即可：

常见误区	症状	纠正方法
报有效样本、不交代来源	只写 N = 500，不写原始回收多少、怎么剔到有效	完整写出 N1 → N3 链条：原始回收数 + 每条剔除规则 + 对应人数
量表只写名字	"使用了 AI 焦虑量表"，无出处、无信度、无样题	每个量表交代：[作者, 年] + 题数 + 计分 + 维度 + 本研究 α + 样题
让 AI 补"看起来该有"的细节	AI 自动填了一个 α 值、一条文献、一个伦理批号	凡真值（信度/文献/批号/样本量）只能来自你的记录；AI 补的一律删，用 `[ ]` 留空
用抒情词替代参数	"深入访谈""广泛调研""大量样本"	换成可核查的数字与规则：访谈 N、时长、转写方式；样本 N 与剔除规则
漏伦理声明	涉及人类被试却无 IRB / 知情同意说明	补伦理委员会批件号或免审依据 + 知情同意陈述
时态语态混乱	一会儿"将要分析"、一会儿主动抒情	统一用过去时 + 被动语态陈述已完成的操作
让 AI 润色掉了精确信息	AI 把"剔除 < 60 秒应答"改成更"流畅"的模糊表述	校对后逐项核对：关键数字、规则、版本号有没有被"润"没

AI 初稿不满意？如何迭代与把关

把事实碎片交给 AI 整理，首版往往会有两类问题：要么漏（该交代的可复现信息没补全）、要么越界（替你编了没提供的细节）。方法部分的迭代不是"让它写得更顺"，而是"让它该全的全、该删的删"。按下面顺序处理：

先查"越界"——这是方法部分最危险的问题。 逐项核对 AI 输出里的每一个具体值：文献（[作者, 年] 有没有被换成某个具体文献？）、信度 α、样本量、伦理批号、量表题数。任何你没在输入里提供、却出现在输出里的具体值，一律视为编造，立即删除并用 [ ] 占位。 可在提示词里补一句"凡我未提供的数字/文献/批号一律留 [待填]，绝不替我填"。
再查"漏项"——对照四子结构逐块补。 用本课的四子结构当检查表：研究设计有没有交代设计类型与伦理？样本有没有 N1→N3 与人口学构成？测量有没有出处 + 信度 + 样题？分析有没有软件版本 + 关键参数？哪块缺就只补哪块，把缺的信息自己填进去，而不是让 AI 猜。
最后查"语体"——但别让润色吃掉精确信息。 确认全段是过去时 + 被动语态、无抒情形容词后，再比对一遍关键数字与规则有没有在"润色"中被改模糊（这是 AI 改稿最隐蔽的副作用：把"剔除 < 60 秒"润成"剔除作答过快者"，精度就没了）。以你的原始记录为准。

一句话

方法部分的迭代口诀：先删越界（AI 编的真值）、再补漏项（对照四子结构）、后校语体（别润掉精度）。记住——这一节宁可读起来"干"，也不能为了流畅牺牲任何一个可复现的细节。AI 负责"整理与校对"，"内容真不真、信息全不全"的责任始终在你。

边界与局限：AI 在方法部分能做什么、不能做什么

方法部分是"如实记录怎么做"的环节，它有明确的体例边界；AI 在这一步的角色比任何章节都更要划清——因为这里最不容许创造、最依赖真值。把下面几条记牢，比多背一个模板更重要。

边界 / 失效场景	为什么会这样	你应该怎么做
AI 只能整理语言，不能提供事实	大模型按概率续写，不掌握你研究的真值；让它"补"量表出处/信度/样本量/批号，它会续写出看似合理实则编造的内容（幻觉 hallucination）	真值只能来自你的研究记录；AI 输出里任何你没提供的具体值一律删除
文献 / DOI 尤其会被编造	"[量表] + (作者, 年)"这种句式在语料里极常见，模型会顺手补一个格式完美但很可能不存在的引用	草稿里量表出处一律 `[作者, 年]` 占位，定稿时逐条到数据库核实真实文献，绝不采信 AI 直接给的引用
"润色"可能吃掉精确信息	模型追求流畅，会把"剔除 < 60 秒应答"改成"剔除作答过快者"——更顺，但精度丢失	校对后逐项比对关键数字/规则/版本号；方法部分宁"干"勿"顺"
AI 给不出"该用什么方法"的判断	选什么研究设计、用哪套量表、配对还是独立检验，是研究者的专业判断，模型只会附和你给定的设定	方法选择见第 16 课与各统计课；让 AI 写方法段 ≠ 让 AI 替你定方法
AI 不能替你承担伦理与诚信责任	数据是否真实采集、伦理是否真获批、披露是否如实，模型无从知晓也不负责	伦理批号、知情同意、数据真实性由你保证并如实陈述；如实披露 AI 仅用于语言整理

⚠️ 本课红线：方法部分如实陈述，AI 只整理语言、绝不编造事实

方法部分是全文最依赖真值的章节。样本量、抽样方式、量表出处与信度、伦理批件号、数据收集时间地点、分析软件与参数——一律来自你的真实研究记录；AI 的唯一职责是把这些已有的事实整理成规范、可复现的文字。任何时候 AI 输出里出现你没提供的数字、文献或批号，一律视为编造并删除。把"做了什么、怎么做的"（真值）留给你的记录、把"语言怎么整理"交给 AI、把"该用什么方法、数据真不真"（判断与责任）留给自己——三者不可混淆。这条线一旦被"让 AI 帮我补全一下"突破，整篇论文的可复现性与诚信就归零。本课程一贯立场不变：AI 辅助、人担责，据实披露 AI 使用，追求真正的规范与原创，绝不走"伪造数据/文献、规避审查"的歪路。

📦 本课交付物

按本节实操任务完成并提交以下内容，提交 AI 初审，按 Module_Rubrics.md 对应维度评分：

[ ] 方法部分终稿：约 800–1200 字，含四子结构（研究设计 / 样本 / 测量工具 / 程序与分析）
[ ] 样本清洗日志：详细到每一步剔除的规则与人数，可还原 N1 → N3
[ ] 量表卡片：每个核心变量一张卡，含来源（[作者, 年] 占位）/ 维度数 / α / 样题
[ ] 伦理审查文件：批件号或免审说明文字
[ ] AI 协作日志：至少 1 段"我提供的事实碎片 → AI 整理输出 → 我的核对修正"记录，并标注是否有 AI 越界补全被删
[ ] 四维质检记录：用 Course_QA_Checklists.md（事实 / 逻辑 / 格式 / 引用）核查 AI 整理稿，重点查"有无被编造的文献 / 信度 / 批号、关键数字有无被润模糊"

🏁 本章小结

把本课凝练成可据以复习的几条要点：

唯一标准是可复现性：方法部分的职责不是"写得好",而是"让别人照着能把研究重做出来"。一切写法都服从这条标准——有助复现的（确切 N、量表出处、剔除规则、软件版本）必须写全，妨碍复现的（含糊、抒情、漏参数）必须删。
四子结构：研究设计 → 样本与抽样 → 测量工具（含信度）→ 程序与分析。每一块对应审稿人要核查的一类问题（样本可靠吗、测量可靠吗、能复现吗、伦理合规吗），缺一块就漏一处可复现信息。
审稿人在找漏洞：写方法段的过程，本质是预先堵上审稿人会挑的洞——N1→N3 链条、量表出处与信度、反向题处理、分析参数、伦理批号，逐项答清。
AI 只做语病纠错员：它能整理语序、统一过去时 + 被动语态、补通用规范术语、标出缺项让你填；它绝不能提供你没给的真值（文献 / 信度 / 样本量 / 批号），那是幻觉。
跨案例同一标准：Case A（被试 / 量表 / 信度）、Case B（指标 / 面板 / 模型设定）、Case C（模型版本 / 生成参数 / 标注一致性）要交代的要素不同，但"让陌生同行能复现"的标准完全一致。
迭代口诀：先删越界（AI 编的真值）、再补漏项（对照四子结构）、后校语体（别润掉精度）。方法部分宁"干"勿"顺"。
红线：真值来自你的研究记录、语言整理交给 AI、方法选择与诚信责任留给自己——AI 辅助、人担责、据实披露，绝不伪造数据 / 文献或规避审查。

自测清单（可保留逐项打勾）

[ ] 我能说清方法部分的唯一标准是可复现性，并解释为什么这一节最不需要 AI 创意发挥。
[ ] 我的方法描述按四子结构组织：研究设计 → 样本 → 测量工具 → 程序与分析。
[ ] 每个量表都注明了出处（草稿用 [作者, 年] 占位）+ 信度 α + 样题，反向题处理已交代。
[ ] 我的样本清洗链条完整（原始回收 N1 → 剔除规则与人数 → 有效样本 N3），可被复现。
[ ] 伦理审查声明已包含（批件号或免审依据 + 知情同意）。
[ ] 我用过去时 + 被动语态陈述已完成的操作，无"研究者深入……"等抒情语句。
[ ] AI 输出中凡我没提供的数字 / 文献 / 批号已全部删除，且关键参数未在润色中被改模糊。

✍️ 思考与练习

下列练习用于把本节概念用起来（区别于"本课交付物"里的任务），建议写在你的本地笔记中。

练习 1（可复现性判断）。 下面是某学生方法段里的一句："本研究通过网络平台广泛收集了大量大学生的有效问卷，采用科学的统计方法分析了 AI 焦虑与自我效能的关系。"请指出这句话在可复现性上至少缺了哪 4 项关键信息，并改写成可复现的版本（缺的真值用占位符）。

好答案要点：缺①样本量与来源（"大量"不可核查，应写原始回收 N1 → 有效 N3 与招募方式）；②抽样方式与剔除规则；③"科学的统计方法"未具体（应写回归 / Bootstrap 中介 + 软件版本 + 参数）；④量表出处与信度、伦理声明也缺。改写示例需把"广泛""大量""科学"等抒情/含糊词换成确切的 N、规则、方法名与参数，用 [ ] 占位真值。

练习 2（识别 AI 越界，紧扣 Case A）。 你把 Case A 的事实碎片（"横断面、N=500、测了 AI 焦虑/学习策略/自我效能、跑了 Bootstrap 中介"）交给 AI 整理，它回了一段流畅的方法段，其中写道："AI 焦虑采用 Wang 与 Li（2021）编制的中文版 AI 焦虑量表（α = .87），已通过某大学伦理委员会审查（批号 2021-PSY-038）。"请指出这段输出哪里越界了、为什么危险，以及你应如何处理。

好答案要点：识别"Wang 与 Li（2021）""α = .87""批号 2021-PSY-038"都是你未提供的具体值——AI 把占位符替换成了很可能不存在的文献、信度与伦理批号，属幻觉；危险在于格式完美极易被直接采信，导致虚假文献 / 伪造伦理信息进入论文（学术不端）。正确处理：全部删除改回 [作者, 年]/[α]/[批号] 占位，由自己的真实记录填入，并在提示词补"凡我未提供的一律留 [待填]"。

练习 3（跨案例要素迁移，紧扣 Case C）。 Case C 是"300 篇文章分别由 GPT-5 / Claude 4.7 / Gemini 2.5 生成摘要并由人工评分"。相比问卷研究，这类 LLM 评估的方法部分有哪 2 项是特有、最容易漏但对可复现至关重要的信息？为什么漏了就无法复现？

好答案要点：①模型版本与调用时间 + 生成参数（temperature 等）——模型持续迭代，不写精确版本与参数，他人换个时间点调用就得不到同样的生成结果，复现无从谈起；②标注者人数与评分者间一致性（如 ICC）——人工评分是主观的，不交代几名标注者、是否培训、一致性多高，就无法判断分数是否可靠、也无法复现评分过程。（这正对应"同一篇被三模型评分=配对设计"决定后续配对检验，见第 30 课。）

练习 4（方法 ≠ 结果的边界）。 有同学在方法部分（3.4 程序与分析）里写："Bootstrap 中介检验表明，学习策略在 AI 焦虑与自我效能之间起部分中介作用（ab = −.14, 95% CI [−.20, −.09]）。"请指出这句话放在方法部分为什么不合适，应该怎么改，以及这句话本该出现在哪里。

好答案要点：方法部分只交代"准备怎么分析"（"采用 Bootstrap 5000 次重抽样检验中介效应，以 95% CI 是否含 0 判断显著性"），不报具体结果（ab、CI、"部分中介"结论）；把统计发现写进方法部分混淆了"方法（怎么做）"与"结果（做出了什么）"的分工。这句报结果的话应出现在 Results 章节（见第 36 课 / 第 30 课的"学术翻译官"流程），且 ab/CI 等数字须由统计软件算出、AI 只做 APA 转写。

第 35 课：方法（Methodology）部分写作 ​

📋 课前准备（5 分钟自检） ​

工具/账号 ​

数据/素材 ​

应急通道 ​

场景导入：方法部分写的是"操作记录"，不是散文 ​

原理：方法部分为什么以"可复现"为唯一标准 ​

🗺️ 方法部分的标准结构：四大子结构 ​

🚀 拆解实战 A：四子结构标准写法 ​

3.1 研究设计（约 100–200 字） ​

3.2 样本与抽样（约 200–300 字） ​

3.3 测量工具（约 300–500 字 / 每量表 100 字） ​

3.4 程序与分析（约 150–250 字） ​

🚀 拆解实战 B：方法部分整理 Prompt（AI 仅做语序与语病整理） ​

🚀 拆解实战 C：方法部分常见错误自检 ​

方法段：写砸 vs 写好 ​

跨案例迁移：把"可复现"标准搬到 Case B 与 Case C ​

Case B（经管面板数据，30 省 × 10 年 = 300） ​

Case C（LLM 评估，300 篇 × 3 模型） ​

常见误区与纠正 ​

AI 初稿不满意？如何迭代与把关 ​

边界与局限：AI 在方法部分能做什么、不能做什么 ​

📦 本课交付物 ​

🏁 本章小结 ​

自测清单（可保留逐项打勾） ​

✍️ 思考与练习 ​