第 51 课：三篇论文综合定稿与同行互评

本课定位（plan v3 第51课）：投稿之前，组织一场认真的双盲同行互评。三条主线案例论文（A 心理问卷 / B 经管实证 / C 技术实验）此刻已走完起草、修改、润色，现在用统一的八维评分表，互相暴露自己看不见的盲点，做最后一次质量与诚信把关。
⚠️ 本课立场：互评的目的是提升论文质量、发现诚信问题（如虚构引用、未核实论断）。它不是帮彼此"把 AI 痕迹洗掉以躲过查重"——发现 AI 生成内容里的问题，正确做法是核实改写并据实披露，而不是藏起来。

🎯 本节核心目标

学会用一套八维同行评审表，认真评审同学（或自己）的论文，给出有理由的分数与可执行的修改建议；并据此完成自己三篇论文的最后一轮定稿。

📋 课前准备（5 分钟自检）

工具/账号

[ ] Claude 或 GPT / Kimi（用当前默认主力模型；独学时用长上下文模型通读全文）
[ ] 课程模板包：Course_Materials/Templates_and_Checklists/Peer_Review_Form.md（八维评分表）
[ ] Word / PDF 阅读器（批注用）

数据/素材

[ ] 你的三篇论文终稿（已脱敏、去署名）
[ ] 待评审的同学论文（由讲师/助教匿名打散后分发）
[ ] 模块三的统计结果，便于核对方法与数据部分

应急通道

没有同学可互评 → 用本课第五节"AI 审稿教练"提示词自评
评分拿不准 → 对照 Peer_Review_Form.md 各维度的评分锚点
发现疑似数据/引用问题 → 标注出来交还作者核实，不替对方下结论

一、问题引入：为什么定稿前一定要互评

写了几周的论文，作者对自己的稿子已经过于熟悉：逻辑断层、未交代的术语、与结论对不上的摘要，作者反复通读也未必能发现——因为他脑子里早已默认补全了文中没真正写出来的环节。但换一个陌生人来读，往往几分钟就能指出来。

双盲互评就是把这个"陌生人视角"提前引入：在投出去给真正的盲审之前，先让同侪帮你把最明显的硬伤挑出来。同一处硬伤，被同侪在课堂上挑出，代价远小于被审稿人在评审意见里挑出——前者只需改稿，后者可能直接导致拒稿或一轮额外的修回。

但要先把目的说清楚：互评是为了提升质量、发现诚信问题，而不是替彼此"把痕迹擦干净"。本课第四、第五节会反复回到这条边界。

原理：同行互评为什么能提升质量、审稿人在看什么

把这套互评流程跑起来之前，先想清楚它为什么有效——理解了机制，你才知道每一维该认真查什么，而不是把评审表当成走过场的勾选清单。

多视角能发现作者的"自评盲区"。 作者对自己稿子的判断系统性地偏乐观：他知道每个论证"本来想表达什么"，于是阅读时会自动脑补缺失的环节，看不见真正写在纸上的断层。一个不带这层预设的陌生读者，反而能直接撞上"摘要没交代变量怎么测""结论比数据走得更远"这类问题。两到三位互评者各自的关注点不同（有人对统计敏感、有人对论证结构敏感），合起来覆盖的盲区比作者独自检查要广得多。
"要被人逐维评分"这件事本身，会逼出作者的自检。 知道稿子将被人按八个维度逐条打分、且每个分数都要附理由，作者在交稿前就会主动去补"研究问题写清了吗、CI 解读对不对、有没有没核实的引用"。这是一种良性的外部约束：它把原本含糊的"我觉得差不多了"，逼成对照明确标准的逐项确认。
互评是模拟真实盲审的低成本预演。 期刊的同行评审（peer review）和课堂互评查的是同一类东西：研究问题是否清楚、方法是否匹配问题、统计解读是否正确、结论有没有超出数据、引用是否真实可核。区别只在于，课堂上被挑出来只需改稿，盲审时被挑出来可能直接换来一个大修（major revision）甚至拒稿。在投稿前用同一套尺子先量一遍，等于把审稿人可能提出的意见提前暴露、提前处理。

审稿人（以及课堂互评者）真正在看什么？ 概括成一句：结论的每一步是否都站得住、且能被核实。具体落到三类高频判断——首尾是否闭环（摘要许诺的，结论兑现了没有）、统计是否被正确解读（p 值 / 置信区间 / 显著性有没有读错）、内容是否真实可信（有没有虚构引用、未核实数据、空洞套话）。本课第三、第四节的八维表与查验法，正是把这三类判断展开成可操作的步骤。

⚠️ 原理层面先划清：互评的"为什么"决定了它的边界

互评之所以有价值，是因为它逼近真实审稿、提前暴露真问题。这意味着它的正当用途只有一个方向——把问题找出来交给作者据实修改。如果把同一套能力反过来用于"帮作者把 AI 痕迹藏得更深以躲过检测"，不仅背离了互评的目的，本身就是协助学术不端。发现问题的能力越强，越要守住"只用于纠错与诚信、不用于规避检测"这条线。

📘 关键术语（首次出现，先对齐定义）

同行评审 / 同行互评（peer review）：由同领域的研究者（在课堂语境下即同侪学员）依据统一标准评判一篇稿件的质量与规范，给出有理由的判断与修改建议。其目的是把关质量与学术诚信，不是帮作者规避查重 / AI 检测。
双盲（double-blind）：评审过程中作者与评审者互不知晓对方身份——稿件去署名、评审匿名提交。目的是让评分只针对内容本身，减少人情与身份带来的偏倚。
八维度评审（eight-dimension review）：本课采用的评审框架，把一篇稿子拆成研究问题、文献、方法、数据分析、结果讨论、语言、格式、AI 合规八个维度逐项打分，避免"一个总体印象分"掩盖具体问题（详见第三节）。
评分锚点（scoring anchor）：为某一维度的 1 / 3 / 5 分各写一段"出现何种情形即对应该档"的判定描述，把"凭感觉给分"变成"对号入座"，提高不同评审者之间的一致性（详见 3.2）。
诚信核查（integrity check）：在评审中专门核对"有无虚构引用、编造 / 未核实数据、似是而非的论断、是否如实披露 AI 使用"。它查的是内容的真伪与披露的诚实，与"帮人擦掉 AI 痕迹"是相反方向的两件事。
大修（major revision）：期刊评审常见结论之一，指稿件有价值但存在需要实质性修改的问题（如关键分析缺失、结论越界），作者据评审意见大幅修改后重新送审；区别于小修（minor revision，仅需局部润色 / 补充）。本课范例评审给出的"大修后可投"即此意。

二、双盲互评怎么组织

匿名脱敏：每个人的论文去掉署名、致谢等可识别信息。
打散分发：讲师/助教把论文打散，每篇分给 2 位非同组同学评审。
逐维度打分 + 写理由：按下面的八维表打分，每个分数都要附 1–2 句具体理由，禁止只打分不说明。
交还作者 + 定稿：作者收齐两份评审，对照修改，完成定稿。

三、八维同行评审表（`Peer_Review_Form.md`）

维度	看什么
1. 研究问题清晰度	RQ 是否明确、可回答
2. 文献综述逻辑性	是否梳理出 Research Gap，引用是否服务论点
3. 方法适切性	设计/样本/测量是否匹配研究问题
4. 数据分析规范性	统计方法是否正确，p 值、置信区间解读是否准确
5. 结果解释与讨论	结论是否由数据支撑，有无过度拔高
6. 学术语言规范	表达是否准确、客观、无空洞套话
7. 格式与排版	图表、参考文献格式是否规范
8. AI 合规使用	AI 使用是否如实披露；有无 AI 生成的事实错误/虚构引用

3.1 一份填好的八维评审表（范例：评 Case B 经管实证稿）

下面是一份真实填到底的评审表，针对一篇 Case B（数字经济→区域创新，省级面板）的同学稿。注意：每个分数都落到具体句子/数字上，不是"写得不错 4 分"这种空评。被评稿的摘要与结论片段先贴出，方便对照打分。

📄 被评稿片段（已脱敏，节选摘要 + 结论）

摘要（节选）：本文基于 2014–2023 年 30 个省级行政区的面板数据（清洗后 273 个观测），考察数字经济发展水平（DigEcon_Index）对区域创新能力（Innovation_Index）的影响，并检验产业结构（IndustryStr_Tertiary）的中介作用。多元回归显示数字经济显著正向预测创新能力（R²≈0.95）；Bootstrap 中介检验表明，数字经济通过产业结构升级影响创新的间接效应为 0.32（95% CI [0.23, 0.41]）。研究认为，推动数字经济发展能有效提升区域创新水平。
结论（节选）：本文证实了数字经济对区域创新的因果驱动作用，产业结构是其中的关键传导机制。地方政府应加大数字基础设施投入，必将显著提升本地创新产出。本文的发现适用于全国各类地区。

维度	打分	具体理由（落到原文）
1. 研究问题清晰度	4/5	RQ"数字经济是否及如何影响区域创新"明确、可回答，X/M/Y 都有对应列名。扣 1 分：摘要未交代"区域创新"用 `Innovation_Index` 综合指数衡量，读者要翻到方法部分才知道。
2. 文献综述逻辑性	3/5	引文基本服务论点，但 Research Gap 只用一句"已有研究不足"带过，没说清"前人用了什么数据/为何不够"。建议补"前人多用截面数据、本文用 10 年面板"这一具体缺口。
3. 方法适切性	4/5	面板数据用面板视角、报告了清洗后 N=273，设计与 RQ 匹配。扣 1 分：摘要只提"多元回归"，未说明是否处理了同省跨年的非独立性（聚类标准误）。
4. 数据分析规范性	2/5	间接效应 0.32、95% CI [0.23, 0.41] 报告规范、CI 同侧未跨 0，这点对。但 R²≈0.95 被当作模型优秀的证据直接写进摘要，未讨论"模拟/聚合省级指标导致 R² 偏高"，且正文未报 LLCI/ULCI 之外的显著性细节。属"统计数字对、但解读把偏高 R² 误读成模型好"。详见下方 3.2 锚点。
5. 结果解释与讨论	2/5	严重过度拔高：相关性研究却在结论写"因果驱动作用""必将显著提升"。面板回归未做因果识别（无工具变量/DID），不能下因果结论。
6. 学术语言规范	3/5	主体客观，但"必将""有效提升"等带承诺口吻；"适用于全国各类地区"是空泛断言，与"分地区异质性（East>Central>West）"的常识相悖。
7. 格式与排版	4/5	变量名、CI 写法规范。扣 1 分：摘要里 R² 未给小数位约定，且未注明显著性水平（p<? )。
8. AI 合规使用	3/5	全文未见虚构引用，数据与课程数据字典一致，可信度尚可；但完全没有 AI 使用披露段，而讨论部分行文有明显模板化痕迹（套话识别见下方 4.1），需作者据实补披露。

最关键的 3 个问题：①把相关/回归结论写成"因果驱动"（维度5）；②R²≈0.95 误读为模型优秀、未讨论偏高成因（维度4）；③缺 AI 使用披露（维度8）。总体建议：大修后可投。

3.2 两维评分锚点明细（维度4「数据分析」与维度8「AI 合规」）

打分最容易"凭感觉"的就是这两维。下面把 1/3/5 分各自长什么样写死，照着对号入座：

维度 4 · 数据分析规范性

分数	锚点（出现以下情形即对应该档）
1 分	p 值 / 置信区间解读错误，且结论直接依赖这个错误。例：把 95% CI [-0.05, 0.41]（跨 0）说成"中介效应显著"，并据此下结论。
3 分	统计方法选对（面板用面板、做了 Bootstrap 中介），但关键量没报全或解读含糊：如只说"中介显著"却未报 LLCI/ULCI，或报了 R²≈0.95 却不解释为何偏高。
5 分	统计正确且解读准确：间接效应 0.32、95% CI [0.23, 0.41] 同侧、未跨 0→判定中介成立；同时点明 R² 偏高源于聚合省级指标、不等于因果，报告了聚类标准误。

本例稿命中"3 分偏低"：CI 写法对（→不到 1 分），但 R² 误读 + 显著性细节缺失（→够不到 5 分），综合判 2/5。

维度 8 · AI 合规使用

分数	锚点
1 分	存在虚构引用 / 编造数据（如引用不存在的文献、数字与数据字典对不上），且无任何 AI 使用披露。
3 分	无虚构内容、数据自洽，但缺 AI 使用披露段，或行文有明显未经核实的模板化套话。
5 分	无虚构、数据可核；如实披露了 AI 在哪一步用过（如"用 AI 辅助润色讨论段、结论与数据由作者复核"），AI 生成内容均经作者核实。

3.3 Worked Example：手把手评两维（以 Case C 一段样稿为例）

3.1 给的是一张"已经评完"的表，3.2 给的是"分数长什么样"的锚点。这一节补上中间最关键的一步——拿到一段样稿，怎样一步步推出某一维的分数。下面只示范两维（维度 4 数据分析、维度 8 AI 合规），把推理过程完整写出来，你照着套用到其余六维即可。被评样稿取自 Case C（三个大语言模型的学术摘要质量对比，配对 / 重复测量评分，样本 300×3）。

📄 被评样稿片段（Case C，已脱敏，节选结果 + 结论 + 一段文献）

结果（节选）：对 300 篇论文，分别由 GPT-5、Claude 4.7、Gemini 2.5 生成摘要，3 名标注者就准确性（Accuracy）维度评分。重复测量 ANOVA 显示三模型质量得分存在显著差异（p < .001）。Accuracy 维度的标注者一致性为 ICC(2,k) ≈ .76。结果表明 Claude 4.7 在准确性上全面优于其余两个模型。
结论（节选）：本研究证明 Claude 4.7 是当前最准确的大语言模型，建议学术摘要场景一律优先采用。
文献（节选）：已有研究普遍认为大模型摘要质量逐年提升（Brown 等, 2022, 《Journal of Summarization Studies》）。

第一步：先确认这段属于哪几维要管。 出现了统计量（ANOVA、p 值、ICC）→ 归维度 4；出现了一条带刊名的引用、且通篇没看到 AI 使用披露 → 归维度 8。

第二步：对照 3.2 锚点，逐维找证据、定档。

维度	找到的证据（落到原句）	对照锚点的推理	定档
4 · 数据分析	① ANOVA 选型对路（重复测量数据用重复测量 ANOVA）；② 报了 ICC(2,k)≈.76，量给全了；③ 但"全面优于"是在没报事后两两比较（post-hoc）的情况下做出的；④ 显著的 ANOVA 只说明"三者不全相等"，不等于"某一个最优"	方法选对、关键量报了一部分（→够不到 1 分）；但由"总体差异显著"跨步到"Claude 全面最优"属解读越界、缺成对比较支撑（→够不到 5 分）	3/5
8 · AI 合规	① "Brown 等, 2022, 《Journal of Summarization Studies》"——刊名宽泛、文中无 DOI、与已知文献对不上，疑似虚构引用；② 全文未见任何 AI 使用披露段	命中"存在疑似虚构引用 + 无披露"——已落到 1 分锚点；尚需回检索核实（见第四节识别法），核实为虚构则坐实 1 分	1–2/5（疑似虚构，待核实）

第三步：把分数翻译成给作者的可执行意见（不替对方改）。

维度 4：「ANOVA 显著只说明三者不全相等；'Claude 全面最优'需补事后两两比较（如配对 t + 多重比较校正）才能下，请补做或把结论收回到'三者存在差异'。」
维度 8：「'Brown 等, 2022' 一条疑似不存在，请提供可查 DOI 或删除；并补一段 AI 使用披露，说明 AI 在本研究哪一步用过、结果是否经作者复核。」

这正是互评的标准动作：找出问题 → 落到具体句子 → 交还作者据实修改。维度 8 这一条尤其要守住边界——我们标注"这条引用疑似虚构、请核实或删除"，不是去琢磨"怎么把它改得更不像 AI 写的以躲过检测"。

四、重点查什么：三类高频问题

A. 首尾闭环：标题/摘要里许诺的目标，结论部分有没有真的回应？常见硬伤是"摘要画大饼、结论没兑现"。
B. 统计与结果：核对关键统计报表——p 值、置信区间（LLCI/ULCI 是否同侧未跨 0）、显著性解读是否正确？结论有没有超出数据能支撑的范围？
C. AI 内容的质量与诚信核查：AI 辅助生成的段落里，有没有虚构的引用、未核实的数据、似是而非的论断、或空洞套话？ 这是质量和诚信问题——发现后请标注交还作者，由作者核实改写并据实披露 AI 使用。

这一条要分清楚

查 AI 内容，查的是"这段是不是有编造/没核实/没信息量"，不是"怎么帮他把 AI 痕迹抹掉以免被知网测出"。前者是负责任的同行评审，后者是帮忙规避检测——本课只做前者。

4.1 AI 内容诚信问题：真实错误示范 + 识别法

空讲"小心虚构引用"没用。下面贴一段典型 AI 生成、混入虚构引用与空洞套话的文献综述（仍以 Case B 数字经济选题为背景），逐句标出问题，再给可操作的识别动作。

❌ 错误示范：一段有问题的 AI 生成文献综述（请勿照抄）

数字经济作为新一轮科技革命的核心驱动力，正在深刻重塑区域创新格局，其重要性不言而喻。Smith（2021）指出，数字经济每提升 1 个百分点可带动区域创新能力增长 0.8 个百分点，这一结论已得到学界广泛认可。Johnson 与 Lee（2019）在《Global Innovation Review》上的研究进一步证明，产业结构升级是数字经济影响创新的唯一路径。综上所述，数字经济对区域创新的促进作用是全方位、多层次、深远而显著的，为本研究奠定了坚实的理论基础。

逐句标注：

原文片段	问题类型	怎么判
"Smith（2021）指出……增长 0.8 个百分点"	虚构引用 + 编造数字	文中无完整出处、无 DOI；"0.8 个百分点"精确到可疑，却查无此文。
"Johnson 与 Lee（2019）在《Global Innovation Review》上……唯一路径"	虚构引用 + 绝对化断言	期刊名似是而非；"唯一路径"与本数据已知双中介（HumanCap、IndustryStr）矛盾。
"重要性不言而喻""全方位、多层次、深远而显著"	空洞套话	去掉后信息量不减，属凑字数的 AI 模板腔。
"已得到学界广泛认可""坚实的理论基础"	未核实论断	没有任何具体文献支撑的笼统背书。

识别法（四步，可直接执行）：

DOI 反查：把"Smith (2021) 数字经济区域创新 0.8"丢进 Google Scholar / Crossref，搜不到对应 DOI、或标题作者对不上 → 高度疑似虚构。真实文献应能查到 DOI 形如 10.1016/j.xxxx.2021.xxxxx。
数字溯源：每个具体数字（"0.8 个百分点"）都要问"哪张表哪一行"；溯不到来源的精确数字按编造处理。
套话删除测试：删掉该句，若论点不受影响 → 是空洞套话，标注删除。
交还作者：以上只标注、不替对方改写，写明"此处引用疑似不存在，请提供 DOI 或删除"，由作者核实改写并据实披露 AI 使用。

4.2 首尾闭环：两栏核对格 + 正反范例

"摘要画大饼、结论没兑现"是最高频硬伤。用下面两栏格逐条对：左栏抄摘要/标题的每个许诺，右栏找结论里对应的回应，缺一即标"未兑现"。

✅ 正例（闭环成立）——以本课 Case B 稿为底改写：

摘要/标题里的许诺	结论里的兑现	是否闭环
考察 `DigEcon_Index` 对 `Innovation_Index` 的影响	结论给出直接路径系数显著、方向为正	✅
检验 `IndustryStr_Tertiary` 的中介作用	结论报告间接效应 0.32、95% CI [0.23, 0.41]，判定中介成立	✅
面板数据、273 观测	结论限定"基于 2014–2023 省级面板"，未外推到企业层面	✅

❌ 反例（画大饼没兑现）——同一选题的失败写法：

摘要/标题里的许诺	结论里的兑现	是否闭环
标题称"数字经济的因果机制"	全文只做相关与 OLS，无工具变量/DID，无法支撑"因果"	❌ 未兑现
摘要承诺"揭示地区异质性"	结论只写"适用于全国各类地区"，反而抹掉了异质性	❌ 自相矛盾
摘要说"提出政策建议"	结论只有"必将显著提升"一句口号，无具体可执行建议	❌ 空兑现

评审时把反例这种"许诺—回应"缺口直接填进右栏标 ❌，交还作者；作者要么补上兑现，要么把摘要/标题的许诺收回到数据能支撑的范围。

五、独学替代：用 AI 当"审稿教练"

没有同学可互评时，把你脱敏后的论文交给长上下文模型，让它按八维做诊断。

八维同行评审提示词（复制使用）

markdown

【角色】严格、建设性的学术同行评审。
【任务】请按以下八个维度评审我（已脱敏）的论文，逐维度打分(1-5)并各附 1-2 句具体理由，
最后指出最关键的 3 个问题与修改建议：
1 研究问题清晰度；2 文献综述逻辑性；3 方法适切性；
4 数据分析规范性（重点核查 p 值/置信区间/显著性解读是否正确）；
5 结果解释与讨论（有无过度拔高）；6 学术语言规范（有无空洞套话）；
7 格式与排版；8 是否存在 AI 生成内容的典型问题（虚构引用、未核实论断、似是而非）。
【边界】只做诊断、不替我改写；目的是提升质量与发现诚信问题，不要以"规避查重检测"为目标。
【以下是我的论文】：[粘贴]

AI 的诊断只是线索：它指出的"疑似虚构引用"你要回数据库逐条核实，"统计解读问题"你要自己复算。最终判断和定稿由你负责。

六、写好 vs 写砸：一份评审写得有没有用，差在哪

同样收到一篇待评稿，评审可以写成"应付差事"，也可以写成"作者照着就能改"。差距几乎全在四个地方：分数有没有理由、理由有没有落到具体句子、问题有没有交还作者、有没有守住"纠错而非规避检测"的边界。下表逐项并排——左列是常见的无效写法，右列是把同一处"拧紧"后的写法。

维度	写砸 ❌	写好 ✅	为什么
给分依据	"写得不错，4 分""感觉一般，2 分"	"4/5：RQ 明确、X/M/Y 都有列名；扣 1 分因摘要未交代结果变量怎么测"	只给印象分，作者无从下手；分数必须落到可改的具体点
理由落点	"方法部分有问题"	"维度 3 扣 1 分：摘要只提'多元回归'，未说明是否处理同省跨年的非独立性（聚类标准误）"	笼统的"有问题"不可执行；要指到原句 / 具体缺失
统计维度	看到一堆数字就给高分	核对 CI 是否同侧未跨 0、ANOVA 显著能否支撑"某模型最优"、R² 偏高有没有解释	数字多 ≠ 解读对；维度 4 查的是解读是否正确（见 3.2 / 3.3）
诚信维度	默认"引用都是真的"，跳过不查	对疑似引用做 DOI 反查、对精确数字做溯源、标注"请提供 DOI 或删除"	虚构引用 / 未核实数据正是诚信核查的核心对象（见 4.1）
问题归属	直接替作者把句子改好	标注问题 + 交还作者，由作者核实改写	替改既越权、也剥夺作者复核的责任；评审只诊断、不代笔
结论分寸	"整体不行，建议拒" 或 "都挺好，可发"	落到"最关键的 3 个问题 + 大修/小修后可投"的具体判断	一句笼统好 / 坏没有信息量；要给可操作的总体建议
合规边界	帮作者想"怎么把 AI 痕迹洗得测不出来"	标注"此处疑似虚构、请核实或删除""请补 AI 使用披露"	前者是协助规避检测（红线），后者才是负责任的同行评审

💡 一句话判据

检验一条评审意见写得好不好，问四件事：分数有理由吗？理由指到具体句子了吗？是交还作者改、还是越权代笔？守住了"纠错而非规避检测"的边界吗？ 四项都过关，这条意见才真正帮到作者。

常见误区与纠正

学员初做互评，问题高度集中在下面几处。对号入座即可：

常见误区	症状	纠正方法
只打分不说理由	一列分数，作者不知道为什么、也不知道怎么改	每个分数附 1–2 句理由，且落到具体句子 / 数字（见 3.1）
凭印象给中间分	拿不准就一律给 3 分，评审失去区分度	对照 3.2 锚点把 1/3/5 分写死，对号入座（见 3.2 / 3.3）
统计维度看热闹	见数字就觉得"很严谨"，给高分	核对解读：CI 是否跨 0、显著能否支撑该结论、R² 偏高有无解释
跳过引用核查	默认文献都真实存在，不做反查	对可疑引用做 DOI 反查、对精确数字做溯源（见 4.1 四步法）
越权替作者改写	直接把对方句子重写一遍	只标注问题、交还作者；改写与复核是作者的责任
把边界做反	帮作者琢磨"怎么躲过 AI / 查重检测"	互评只做"查编造 / 未核实 / 没信息量"，不碰规避检测（红线）
闭环只看一头	只夸结论写得好，没回去对摘要的许诺	用 4.2 两栏格逐条对"许诺—兑现"，缺一标 ❌

边界与局限：互评能做什么、不能做什么

互评是一道有用但有限的关口。把下面几条记牢，比多评几篇更重要。

边界 / 失效场景	为什么会这样	你应该怎么做
互评提高的是发现率，不是正确率的保证	两三位同侪能挑出大多数显性硬伤，但都不是该选题的真专家，可能集体漏掉深层的方法学问题	互评通过不等于"没问题"；关键统计与因果判断仍要回去复核，必要时请教导师
评审者也会判错	互评者同样可能把对的写成错、或反过来；尤其统计维度容易误伤	收到的意见是"线索"不是"判决"：每条都回到数据 / 原文核对后再决定采纳、澄清还是记入局限
AI 审稿教练不接入可信事实库	独学时用的模型会幻觉——可能"自信地"说某条引用是假的、或漏掉真问题	AI 指出的"疑似虚构""统计问题"一律人工复核：引用回检索查、统计自己复算
互评不替作者担责	评审只诊断，最终改不改、怎么改、署名担责的是作者本人	别把"同学说没问题 / AI 说可以"当免责理由；定稿的真实性由作者负责
互评不是查重 / AI 检测，更不能用于规避它	它查的是内容真伪与诚信，方向与"擦痕迹躲检测"相反	发现疑似 AI 问题 → 标注交还作者核实改写并据实披露；绝不用于帮人规避检测（红线）

⚠️ 本课红线：互评是质量与诚信核查，不是规避检测的工具

互评的全部正当用途，是把问题找出来、交还作者据实修改。 查 AI 内容查的是"有没有编造引用、未核实数据、似是而非的论断、空洞套话"——这是质量与诚信问题。发现后正确的处理是核实改写并如实披露 AI 使用，而不是把它藏起来。
绝不能把互评能力反用于规避检测。 "帮同学把 AI 痕迹洗掉以躲过查重 / AI 检测"不是同行评审，而是协助学术不端。本课只做前者，不碰后者——发现问题的能力越强，越要守住这条线。
最终责任在作者本人。 互评者和 AI 都是助手；结论是否成立、数据是否真实、引用是否可核，最终担责的始终是作者自己。

📦 本课交付物（提交给 AI 初审）

按 Module_Rubrics.md 对应维度评分：

[ ] 两份八维评审表：你给 2 篇同学论文的评分 + 每维理由（或独学时 AI 诊断 + 你的复核）
[ ] 收到的评审 + 修改清单：别人指出的问题 → 你的处理（采纳/澄清/记入局限）
[ ] 诚信核查记录：抽查 1 处疑似 AI 问题（虚构引用/未核实论断）的核实结果
[ ] 定稿说明：本轮互评后三篇论文各改了哪些关键点

🏁 本章小结

把本课凝练成可据以复习的几条要点：

为什么要互评：作者对自己的稿子系统性地过于乐观、看不见自评盲区；多位陌生读者各自的视角能覆盖更广的盲区，而"将被逐维评分"这件事本身又会逼出作者的交稿前自检。互评是真实盲审的低成本预演——同一处硬伤，课堂上挑出只需改稿，盲审挑出可能换来大修甚至拒稿。
审稿人在看什么：归结为"结论的每一步是否都站得住、且能被核实"，落到三类高频判断——首尾是否闭环、统计是否被正确解读、内容是否真实可信（无虚构引用 / 未核实数据 / 空洞套话）。
怎么评才算到位：用八维度框架逐项打分，每个分数附理由且落到具体句子 / 数字；维度 4（数据分析）与维度 8（AI 合规）最易"凭感觉"，对照 1/3/5 分锚点对号入座（见 3.2 / 3.3 worked example）。
发现问题怎么处理：评审只诊断、不代笔——标注问题、交还作者，由作者核实改写；总体给出"最关键的 3 个问题 + 大修 / 小修后可投"这类可操作判断。
边界要诚实：互评提高的是发现率、不是正确率的保证；互评者与 AI 都可能判错、会幻觉；收到的意见是线索不是判决，关键统计与因果仍要回去复核；定稿真实性由作者本人担责。
守住红线：互评是质量与诚信核查，查的是有无编造 / 未核实 / 没信息量——发现后核实改写并据实披露 AI 使用；绝不把这套能力反用于"帮人擦掉 AI 痕迹以躲过查重 / AI 检测"。

自测清单（可保留逐项打勾）

[ ] 我能讲清同行互评为什么能提升质量（多视角发现盲区、逼出作者自检、预演真实盲审），而不只是"走个流程"。
[ ] 我能用八维评审表给出有理由的评分，而不是只打分；并能对照锚点给维度 4 / 维度 8 对号入座。
[ ] 我会重点核查首尾闭环、统计解读、以及 AI 内容的事实 / 引用。
[ ] 我知道评审是诊断而非代笔：标注问题交还作者，不替对方改写。
[ ] 我清楚互评的边界：它不保证正确、评审者与 AI 都可能判错，关键判断仍要我自己复核、由我担责。
[ ] 我清楚：查 AI 内容是为了纠错与诚信，不是为了帮谁规避检测。
[ ] 我已根据互评意见完成三篇论文的最后一轮定稿。

✍️ 思考与练习

下列练习用于把本节概念用起来（区别于"本课交付物"里的任务），建议写在你的本地笔记中。涉及文献 / 审稿意见的示例一律用占位（如 [作者, 年]）或标注"示意"，不得编造看似真实的文献、DOI 或真人。

练习 1（原理辨析）。 有同学说："我自己反复读了十遍都没发现问题，说明稿子已经没问题了，互评是多余的。"请用本课【原理】部分的机制，说明这个推断为什么不成立。

好答案要点：作者对自己的稿子系统性偏乐观、会自动脑补文中没真正写出的环节，"读十遍没发现"恰恰是自评盲区的表现，而非没有问题；陌生读者不带这层预设，能撞上作者看不见的断层；且多位评审视角互补、覆盖盲区更广——这正是互评不可被作者自查替代的原因。

练习 2（评一维，紧扣 Case A）。 某 Case A（心理问卷，N=500，AI 焦虑→学习策略→自我效能，横断面）的同学稿在摘要里写："本研究证明 AI 焦虑导致自我效能感下降，中介效应 ab≈−.14，95% CI [−.20, −.09]。"请只针对维度 4（数据分析）与维度 5（结果讨论）给出打分 + 落到原句的理由 + 交还作者的修改意见。

好答案要点：维度 4——CI [−.20,−.09] 同侧未跨 0、报告规范（→不到 1 分），但"证明……导致"是把横断面的相关 / 中介误读为因果（→够不到 5 分），约 3/5；意见："横断面不支持因果方向，请把'证明导致'改为'相关 / 中介结构'。"维度 5——结论越界、过度拔高，约 2/5；意见："间接效应显著只说明存在中介结构，不能下因果结论，请把结论收回到数据能支撑的范围。"评分关键：分数都落到具体句子、且意见是交还作者改而非代笔。

练习 3（守红线）。 互评时，同学私下问你："我这篇讨论是 AI 生成的，你帮我看看怎么改几个词、调下句式，能让查重和 AI 检测都测不出来？"请说明你会怎么回应，并讲清这件事为什么触碰本课红线。

好答案要点：这是请求协助规避检测，不是同行评审，触本课红线，应拒绝。正确做法是把讨论里可能存在的真问题（虚构引用、未核实论断、空洞套话）找出来，建议他核实改写、并据实披露 AI 使用；能改的据实改、确属 AI 辅助的如实说明。"测不出来"不是目标，"内容真实、披露诚实"才是——发现问题的能力只能用于纠错与诚信，不能反用于藏匿。

练习 4（用好收到的意见）。 你收到两份互评，A 说"你的统计全错了，建议推倒重做"，B 说"维度 4 给 4 分，挺好"。两人对同一处统计给了相反判断。请说明你不应该怎么做、应该怎么做。

好答案要点：不应做——既不能因为 A 说"全错"就慌忙推倒重写，也不能因为 B 说"挺好"就放心跳过核查；评审意见是线索不是判决，且评审者本身可能判错（见【边界与局限】）。应做——回到自己的统计结果亲自复算 / 复核那一处（如 CI 是否跨 0、检验是否选对、解读是否越界），以数据为准做出判断：确有错就改、确实没错就在回复里据理说明，最终由自己担责。

第 51 课：三篇论文综合定稿与同行互评 ​

📋 课前准备（5 分钟自检） ​

工具/账号 ​

数据/素材 ​

应急通道 ​

一、问题引入：为什么定稿前一定要互评 ​

原理：同行互评为什么能提升质量、审稿人在看什么 ​

二、双盲互评怎么组织 ​

三、八维同行评审表（Peer_Review_Form.md） ​

3.1 一份填好的八维评审表（范例：评 Case B 经管实证稿） ​

3.2 两维评分锚点明细（维度4「数据分析」与维度8「AI 合规」） ​

3.3 Worked Example：手把手评两维（以 Case C 一段样稿为例） ​

四、重点查什么：三类高频问题 ​

4.1 AI 内容诚信问题：真实错误示范 + 识别法 ​

4.2 首尾闭环：两栏核对格 + 正反范例 ​

五、独学替代：用 AI 当"审稿教练" ​

六、写好 vs 写砸：一份评审写得有没有用，差在哪 ​

常见误区与纠正 ​

边界与局限：互评能做什么、不能做什么 ​

📦 本课交付物（提交给 AI 初审） ​

🏁 本章小结 ​

自测清单（可保留逐项打勾） ​

✍️ 思考与练习 ​