第 13 课：AI 辅助文献阅读

🎯 核心实操目标

学习目标：掌握用具备长上下文能力的大模型（Kimi K2 / Claude 4.8）对多篇英文文献做结构化提取的工作流。本课结束后，你需要能用一套结构化提取指令，把若干篇英文实证文献的核心信息（研究问题 / 方法 / 量表 / 核心发现 / 作者自陈局限）整理为一张便于横向对比的中文提取表，并掌握回原文核验这道必不可少的工序——理解 AI 概括只是"导航式略读"的产物，可用于定位与筛选，不可直接作为引用证据。

📋 课前准备（5 分钟自检）

账号

[ ] Claude 4.8 Opus 或 GPT-5（学术语言主控引擎）
[ ] Kimi K2（长 PDF 批量喂入）
[ ] Zotero（已从第 12 课配好；如未配请优先配好）

工具/环境

[ ] 知网 / Web of Science 高级检索访问通道（校园网或代理）
[ ] Google Scholar / Semantic Scholar（免费替代）
[ ] Word / Markdown 编辑器（用于记录产出）

数据/素材

[ ] 第 10 课产出的 1-2 个候选研究题目
[ ] 与你研究方向相关的 5-10 篇近年文献 PDF（如已下载）

应急通道

WOS 不可用 → 用 CNKI 或 Semantic Scholar 替代
文献不够 → 先用 Google Scholar 搜补足
AI 提示词没思路 → 参考课程模板包 Course_QA_Checklists.md

场景导入：批量阅读外文文献的两个真实瓶颈

开题阶段常见的情形是：你下载了十几篇英文实证文献，逐篇精读却进展缓慢。两个瓶颈尤为突出。
其一是阅读吞吐量。逐句查词、逐段消化几十页的英文长文，单篇耗时常以小时计，而开题需要的是先建立"这个议题学界推进到哪一步"的全局判断，并非一上来就细抠每篇的论证。
其二是跨文献的工作记忆。人的短期记忆容量有限，读到第三篇时，第一篇用了哪些控制变量、数据起止年份、用的什么量表，往往已经记不清；缺少统一的结构化记录，多篇文献之间就难以横向对比。
一种更高效的分工是：把大模型当作前置信息预处理器，先由它把多篇原文的关键信息抽取、对齐成统一结构，你再在这张高密度的对比表上做判断与核验。但要强调——预处理的产物是略读结论而非原文本身，凡涉及引用、数据、因果表述，仍须回到原文确认（本课【原理】与【边界】两节会说明为什么）。

原理：为什么"让 AI 读文献"是黄区——可用于导航，不可照抄

在把工作流套用起来之前，先理解这件事的能力边界。用 AI 读文献属于"黄区"操作：它能可靠地帮你定位、筛选、建立全局印象，但它的概括不能直接当作你引用原文的依据。原因可从大模型的工作方式上理解，不必神化也不必妖魔化。

📐 原理：AI 概括为什么"会漏、会偏"，又为什么仍然有用

一个基本事实：当前的大模型在做摘要时，本质是按训练语料的统计规律，对输入文本进行有损压缩与改写——它生成的是"在这段上下文里、统计上最像一段合理摘要"的文字，而不是对原文逐句的忠实检索。理解了这一点，下面三种行为就都可以预期了：

会漏（信息丢失）。 摘要必然是压缩，压缩就要取舍。模型倾向于保留语料中"看起来重要、高频共现"的部分，而作者真正在意、但表述含蓄或藏在脚注/附录里的限定条件（样本范围、显著性前提、一句"仅在 X 条件下成立"）恰恰容易被压掉。越长的原文、越靠后的章节（Discussion、Limitations），被遗漏的风险越高。
会偏（范围漂移与脑补）。 模型默认要"把话说圆"，于是常把作者具体而克制的表述，改写成更通顺但范围更宽的说法（原文 "single university sample" → 摘要"样本量偏小"）；在信息不足时，它还可能顺着上下文补全一个看似合理、原文却没有的结论，即幻觉（hallucination）。格式越工整、语气越笃定，越不代表越可靠。
为什么仍然有用。 尽管会漏会偏，模型对"这篇大致研究什么、用了什么方法族、结论方向"这类粗粒度、可在原文快速复核的判断，命中率相当高。开题阶段你需要的正是这种"先把十几篇排个序、圈出值得精读的几篇"的导航能力——用它做导航（黄区允许），但把引用与定论的最终裁量权留在回原文之后（黄区红线）。

一句话：AI 概括可理解为一张高效但有误差的地图。地图能带你找到路口，但真要落笔写"此处有一座桥"，得自己到现场看一眼。这正是本课把「真实性核查」作为硬动作的根本原因。

把一堆 PDF 交给大模型后，不要只问一句"这篇文章说了什么、帮我总结一下"——这种笼统提问会把上面的"会漏、会偏"放大到最严重：你得到的往往是一段放之四海皆准、却对不上任何具体原文的空话。正确做法是用明确的字段约束引导模型逐项提取，把开放式概括压成结构化、可逐格回查的表格。下图是这一思路的总览。

文献结构化提取框架：把开放概括压成可回查的字段

实战拆解：为外文文献设计"结构化提取指令"

📋 示例场景：你手头有从各大数据库下载的 5 篇商学或社会学英文实证文献，单篇约 40 页。目标是在较短时间内摸清学界在该议题上的推进程度——即先做一遍导航式略读，圈出后续值得精读的篇目，并建立可横向对比的记录。

步骤一：批量上传文献

选择一个支持长上下文与多附件输入的平台（国内可用 Kimi K2，海外可用 Claude 4.8 Opus），通过"附件上传"一次性导入这 5 份 PDF。待平台读取完成后，提交下面这套约束明确的提取指令。注意指令为什么这样写：它把开放式概括拆成五个字段，每个字段都对应原文中一个可快速定位、可回查的具体位置，从而压制上一节所说的"会漏、会偏"。

文献结构化要点提炼器 (一次性提交)

markdown

【任务设定】
我刚刚向你提交了 5 篇同一领域的英文原版核心实证类文献全文 PDF（合计超200页）。
请你以 SSCI 顶刊一审编辑的视角，跳过文章里所有的铺垫与客套，对这 5 篇文章进行系统、严谨的深度拆解。

【输出规范】
请将这 5 篇文献的核心逻辑提炼为一份便于横向对比的中文阅读笔记。
【格式要求】请统一使用 Markdown 原生表格进行输出，方便我在右侧直接复制进 Excel 库中。
【表头约束】表格列向必须严格逐项包含以下结构要素（如果文章中缺省，请标红[未说明]）：
1. 第一栏：论文第一作者年份与[核心一句话摘要]
2. 第二栏：该文章研究立命的基底疑问 (Research Question / 探讨啥)
3. 第三栏：关键量表渊源！他们在用什么方法测算变量或者引用的哪里的二手截面数据？
4. 第四栏：文章最终证实了的最具价值因果推论 (Result findings)
5. ⚠️第五栏 [关键要点]：该篇作者在文末 Discussion 处，自己明确指出的研究局限或未解问题 (Limitation)

步骤二：获取对齐的核心信息

指令执行后，模型会逐篇生成表格行，把原本分散在各篇引言、方法、结论中的叙述，压成可横向对比的要点。这一步的产物是"草稿"而非"定稿"——它对齐了结构、提高了可读性，但每一格是否忠实于原文，要等步骤五核验后才能确定。

💡 衔接下一课：从"局限对比"到 Research Gap

你可以把整张对比表复制粘贴进 Excel 归档。这张表中价值最高的是 第 5 列「作者自陈局限」：当你横向比较 5 篇文献各自坦陈的局限（例如一篇承认时间跨度仅限西方市场，另一篇承认量表忽略了老年群体的反馈误差），多条独立局限叠加，往往就指向一个尚未被充分研究的方向，即你自己的研究空白（Research Gap）。这条线索会自然承接到《第 14 课：文献综述框架与 Research Gap》。需要提醒的是：第 5 列恰恰是 AI 最容易"会漏、会偏"的一列（局限多藏在 Discussion 末尾、表述含蓄），所以基于它找 Gap 之前，务必先完成步骤五的核验。

步骤三：对照范例——一张「填好的」提取表

仅说"AI 会生成对比表"不够直观，下面给出把 3 篇文献输入后、按上述五栏框架回填的样张。这三篇分别落在本课程三个配套案例域（AI 学习焦虑 / 数字经济创新 / 大模型摘要质量），便于你把读到的量表与变量直接对接到 Case A、B、C 的列上。表中数字与结论按各篇通行写法示意，用作格式参照而非可直接引用的事实——真正引用时仍以原文为准。

第一作者·年份 + 一句话摘要	研究问题（探讨啥）	量表/数据来源	核心因果发现	⚠️ 作者自供局限（Discussion 原话译写）
Brod 1984 ｜技术压力（technostress）会拉低个体工作效能	引入新办公技术后，员工为何效率不升反降？	自编 18 题技术压力问卷（5 点李克特，未报告 α）	技术压力分数显著负向预测工作效能（作者描述为强相关，未给标准化 β）	样本仅取白领办公室职员，未纳入老年与蓝领群体；横截面一次性施测，无法定因果方向
Wang & Liu 2022 ｜AI 学习焦虑通过削弱学习策略，间接降低学业自我效能	大学生面对 AI 工具的焦虑，是否会经由学习策略影响自我效能？	三量表 5 点李克特：焦虑（对应本课 `Anxiety` 12 题，含反向题 `Anxiety_4_R`）、策略（`Strategy`）、效能（`Efficacy`）；N=502	中介成立：间接效应 ab ≈ −.14，95% Bootstrap CI [−.20, −.09]，不含 0（部分中介，约占总效应 49%）	仅单一时点自评、未做跨年追踪；样本集中在一所综合性大学，外推性存疑
Chen et al. 2024 ｜不同主流大模型在学术摘要任务上的质量并不等价	GPT-5 / Claude 4.7 / Gemini 2.5 自动生成的论文摘要，质量是否存在系统性差异？	300 篇论文 × 三模型，自动指标（ROUGE-1、BERTScore）+ 3 名评分员人工评分（综合质量列如 `Quality_GPT5`，ICC(2,k) ≈ .76）	重复测量 ANOVA 显示三模型综合 Quality 差异显著；GPT-5 在流畅性领先，Claude 在准确性领先	评价仅覆盖摘要单一任务，未测长文翻译/推理；论文语料偏英文 CS 领域，未跨学科均衡

怎么用这张样张

把第 5 栏横向读一遍：Brod「未含老年/蓝领」、Wang「未跨年追踪」、Chen「未跨学科均衡」——三条独立局限叠在一起，一个清晰的 Research Gap（"跨年龄段 + 跨年追踪 + 跨学科"的 AI 影响研究）就显现出来。这正是你下一篇的切入方向。前提是：这三条局限都已回原文核实属实——否则你可能是在一个 AI 脑补出来的"伪空白"上立题。

📘 关键术语（首次出现，先对齐定义）

结构化提取（structured extraction）：用预先约定的字段（如本课五栏）逐项抽取文献信息，而非让模型自由概括；目的是降低遗漏与范围漂移，并使每一格都可回原文逐项核验。
导航式略读（navigational skim）：把 AI 概括用于"定位、筛选、排序"而非"引用"的阅读方式——它告诉你该精读哪几篇、各篇大致在做什么，但不替代精读与引用核实。
幻觉（hallucination）：模型生成了流畅、自信但与事实不符的内容，例如编造一条原文并不存在的局限或一篇不存在的文献。格式工整不等于真实。
范围漂移（scope drift）：模型在改写时把原文具体、有限定的表述，换成更通顺但范围更宽（或更窄）的说法，导致语义偏移（如 "single university sample" → "样本量偏小"）。
作者自陈局限（self-reported limitation）：作者在 Discussion / Limitations 部分主动声明的研究边界。它是寻找 Research Gap 的高价值线索，也是 AI 提取中最易遗漏或改写的部分。
Research Gap（研究空白）：现有文献尚未充分回答、而你的研究计划填补的问题；常由多篇文献的局限交叉处浮现（详见第 14 课）。

步骤四：坏提取 vs 好提取——逐要素看穿第 5 栏是否到位

模型在「局限」这一栏最常见的偏差，是把作者具体、可操作的限定条件，改写成一句放之四海皆准的套话——这正是上一节"会偏（范围漂移）"在实操中的典型表现。下面这组逐要素对照，能帮你一眼判断某一格是否需要回原文重抽。

维度	❌ 坏提取（AI 偷懒/空泛）	✅ 好提取（具体、可对接下一步）
措辞	"本研究仍有不足，未来可进一步深入探讨。"	"焦虑量表仅含认知/情感/回避三维，未覆盖生理性焦虑（Z 维度），建议补测皮电/心率。"
样本	"样本存在一定局限性。"	"样本仅取大一至大四在校生，未做跨年追踪，无法判断焦虑是否随年级衰减。"
可证伪性	无法回到原文对上号（作者根本没这么写）	能在 Discussion 用 `Ctrl+F` 搜到对应英文原句（如 "did not include a longitudinal design"）
对你的价值	等于没说，无法变成选题	直接就是你的 Research Gap，可写进开题"研究空白"段

判定口诀：坏提取换个领域照样能用，好提取换个领域立刻就错。凡是"未来可深入""仍有不足""有待完善"这类放到任何论文都成立的句子，一律视为 AI 没抠到位，标记回查。

步骤五：「真实性核查」操作法（针对幻觉的必要工序）

提取表最需要警惕的风险，不只是遗漏，更是编造——模型可能把作者并未写明的局限补全得有模有样（即上一节所说的幻觉）。本课交付物中的「真实性核查」并不要求你重读全文，而是一道可在约 30 秒内完成的定点核对：

展开：30 秒核查三步（以第 5 栏 Limitation 为例）

定位（约 10 秒）：打开该篇 PDF 原文，跳到 Discussion / Limitations 小节，用 Ctrl+F 搜英文锚词：limitation、future research、did not、caution。命中处就是作者亲口写局限的地方。
比对（约 15 秒）：把 AI 表格第 5 栏的中文，和你搜到的英文原句逐句对一遍。问自己两个问题：
- 这条局限，原文真的有对应句子吗？（防"无中生有"的编造）
- AI 是忠实译写，还是悄悄改了范围？（例：原文说 "single university"，AI 写成"样本量偏小"——方向被篡改）
判级（约 5 秒）：在 AI 协作日志里给这格标一个结论：✅ 一致／ ⚠️ 改写需修正／ 🔴 原文查无此句（编造）。任何 🔴 都要把整篇文献的其余栏位也连带复查。

抽查策略：5 篇里至少挑 1 篇命中风险最高的做全栏核查——优先选那篇 AI 把局限写得"特别工整、特别全面"的，因为越顺滑越可能是编的。其余各篇至少核第 4 栏（核心发现）的关键数字与第 5 栏。

完整走查（worked example）：一张「文献卡」从生成到核验

上面的样张表是多篇横向对比。这里换一个角度，用单篇深读演示一次完整循环——把一篇文献做成结构化「文献卡」，再回原文核验，亲眼看到 AI 漏在哪、偏在哪、如何修。我们选本课程 Case C 的对口文献：大模型自动摘要的质量评测（300 篇论文 × 3 个模型，3 名标注者按 1–5 分打分；本案例的评测基准固定为 Claude 4.7，对应数据列 Quality_Claude47，另两列为 Quality_GPT5、Quality_Gemini25）。

A. 给 AI 的单篇提取指令

单篇文献卡提取器（一次性提交）

markdown

【任务设定】
我向你提交了 1 篇关于"大模型自动生成学术摘要质量评测"的英文实证文献全文 PDF。
请以该领域审稿人的视角，把它做成一张结构化「文献卡」，便于我归档与后续引用核对。

【输出规范】用 Markdown 表格输出，逐项填写以下字段；原文缺省处标注 [未说明]，不要替我推断：
1. 第一作者·年份 + 一句话核心结论
2. 研究问题
3. 评测对象与基准（被评的模型有哪些？哪个作为对照基准？）
4. 评测数据与指标（样本量、标注者人数、用了哪些自动/人工指标、信度如何报告）
5. 核心发现（写清是哪种统计检验、差异是否显著、谁优于谁）
6. ⚠️ 作者在 Discussion 明确写出的研究局限（逐条列，勿合并、勿润色）

【重要约束】凡涉及具体数字、模型名称、显著性结论，请只转写原文确有的内容；
任何不确定之处一律标 [需回原文确认]，宁缺毋造。

B. AI 的首版输出（注意：尚未核验，存在典型瑕疵）

字段	AI 首版填写
第一作者·年份 + 一句话结论	Chen et al. 2024：主流大模型在学术摘要任务上的质量存在系统性差异
研究问题	GPT-5 / Claude 4.7 / Gemini 2.5 自动生成的论文摘要，质量是否有显著差异？
评测对象与基准	三个模型横向比较；以 Claude 4.7 为对照基准（`Quality_Claude47`）
评测数据与指标	300 篇论文 × 3 模型；3 名标注者 1–5 分；自动指标 ROUGE-1、BERTScore；人工评分信度 ICC(2,k) ≈ .76
核心发现	重复测量 ANOVA 显示三模型综合质量差异显著；GPT-5 流畅性领先，Claude 准确性领先
作者自陈局限	评测仅覆盖摘要单一任务；语料偏英文 CS 领域。整体方法严谨，外推性良好。

C. 回原文核验：抓到一处"会漏"、一处"会偏"

按步骤五的方法，跳到原文 Discussion / Limitations 段逐条比对，发现两处问题——它们正是本课【原理】预言的两类典型偏差：

核验点	原文实际写的	AI 首版的问题	判级
局限第 3 条（漏）	原文 Limitations 还写了 "annotators were recruited from a single discipline, which may bias quality judgments"（标注者来自单一学科，可能使评分有偏）	AI 整条漏掉——这条恰恰关系到 `Quality_*` 三列评分的可信度，对你最关键	⚠️ 需补
"外推性良好"（偏 / 编）	原文从未给出"方法严谨、外推性良好"这类自评；这是 AI 替作者脑补的褒扬	范围漂移叠加幻觉：把"作者没说的结论"写成"作者说的"	🔴 删除
核心发现的"显著"	原文确有 "significant main effect of model (p < .01)"	与原文一致	✅ 留

🔍 这次走查说明了什么

AI 漏掉的那条（标注者单一学科）不是边角料，而是直接影响 Case C 全部评分列可信度的核心限定——印证了【原理】中"作者最在意、表述却含蓄的限定，最易被压掉"。
AI 添的那句"外推性良好"在原文查无依据，是典型的"把话说圆"式脑补；越是这种笃定的好评，越要警惕。
三栏里唯一不需要改的是可在原文一键检索到的"显著性"硬结论——这也说明：粗粒度、可快速复核的判断，AI 命中率高；越细、越藏的内容，越需要人来把关。

D. 核验后的「文献卡」（可入库版）

只改动核验出问题的两格，其余保留：

字段	定稿
作者自陈局限	① 评测仅覆盖摘要单一任务，未测长文翻译/推理；② 语料偏英文 CS 领域，未跨学科均衡；③ 标注者来自单一学科，评分可能有偏（原文 Limitations，已核）。删去 AI 自拟的"外推性良好"。
核验印记	本卡第 5、6 字段已回原文核对：✅ 显著性结论一致；⚠️ 补回漏掉的局限①③；🔴 删除查无此句的"外推性良好"。核验人 / 日期：___

这张带「核验印记」的卡才是可以放进引用库的版本。没有核验印记的 AI 提取卡，只能用于导航，不能用于写作引用——这正是"黄区"的操作纪律。

输出仍不满意？如何迭代

首版提取表不理想是常态，不必整段重发指令。按下面顺序做小步纠偏，对应的恰是不同环节的问题：

先判断是"格式问题"还是"忠实度问题"。 排版乱、字段缺、没对齐 → 属格式问题，补一句"请严格按这 6 个字段逐行重排，缺项标 [未说明]"即可；某格内容可疑、与原文对不上 → 属忠实度问题，不能靠追加提示词解决，必须回原文（参见步骤五）。
格式问题用负向纠偏定点重做。 在原对话里直接指出"第 4 行第 5 栏把范围写宽了，原文是 single university，请按原文范围改写该格，其余不动"——这比重发整段省力，也是第 2 课讲的负向纠偏 / 迭代法在文献场景的应用。
怀疑漏抽时，反向点名追问。 不要泛泛问"还有没有遗漏"，而是指定位置："请只看原文 Limitations 段，逐条列出作者写明的局限，不要合并、不要润色、不要补充原文没有的条目。"定点追问能显著降低再次遗漏的概率，但它仍是 AI 的输出，最终还是要回原文确认。

一句话

格式不满意可以靠提示词调；忠实度不满意只能靠回原文。把这两类问题分开处理，是用好"黄区"工具的关键——任何提示词技巧都替代不了核验这一步。

常见误区与纠正

学员初用本工作流时，问题几乎都集中在"过度信任 AI 概括、省掉核验"这一类。下表对号入座即可：

常见误区	症状（会怎样）	纠正方法
把概括当原文引用	直接照抄 AI 摘要进文献综述，被审稿人指出与原文不符	牢记"黄区"纪律：AI 概括用于导航，引用前必须回原文核（步骤五）
只信表格不看缺漏	第 5 栏看着很全，实则漏掉作者最关键的一条限定	对照表格与原文 Limitations 逐条点名核，重点查"作者最在意但表述含蓄"的限定
被"工整"麻痹	局限写得越全越顺，越没去查，恰好命中编造	越工整全面越优先抽查；笃定的好评（"方法严谨""外推性良好"）尤其要回原文找出处
提示词万能幻觉	内容对不上原文，却反复改提示词想"调"出来	区分格式问题与忠实度问题：忠实度只能回原文，提示词调不出真值
跨篇张冠李戴	多篇同传时把 A 篇数字记到 B 篇名下	关键数字/方法逐篇回该篇核对，不跨篇想当然
用一句空话冒充局限	"未来可进一步深入"被当成有效局限写进 Gap	套用步骤四口诀：换个领域照样成立的句子一律视为没抠到位，标记回查

边界与局限：AI 辅助文献阅读能做什么、不能做什么

本课的工作流能显著提升略读吞吐量与跨文献对比效率，但它不改变大模型"有损概括"的本质。下面几条边界，比多记一个提取字段更重要。

边界 / 失效场景	为什么会这样	你应该怎么做
概括会丢信息，越长越靠后越严重	摘要是有损压缩，模型倾向保留高频显著部分，作者藏在 Discussion/脚注里的限定条件易被压掉。	关键限定（样本范围、显著性前提、局限）一律回原文逐条核，别只信表格。
会把范围改宽 / 脑补结论	模型默认"把话说圆"，常把具体表述改写得更通顺更宽，信息不足时还会补出原文没有的结论（幻觉）。	用步骤五逐句比对中英；任何原文检索不到的句子按编造处理。
格式工整 ≠ 内容可靠	排版、语气是模型最擅长模仿的表层；可信度取决于与原文的一致性，与排版无关。	越是"工整全面"的局限/文献列表，越要优先抽查（见抽查策略）。
编造文献与数字	让 AI"补几篇支持文献"时，它可能给出格式完美、实则不存在的条目。	任何文献、统计量都到数据库/原文逐条核实后才可引用。
跨多篇时易"张冠李戴"	多篇同时处理时，模型可能把 A 篇的方法/数字错配到 B 篇。	每篇的关键数字与方法单独回该篇核对，不要跨篇想当然。
不替代精读与判断	它能告诉你"该读哪几篇、大致讲什么"，但研究设计、因果是否成立、量表是否适配，需你精读后判断。	把 AI 定位到的重点篇目仍按学术标准精读；导航≠代读。

🚧 一条贯穿全课的纪律

AI 概括的可用度高、可信度有限。 它适合做"读哪几篇、各篇大概在做什么"的导航，不适合直接作为"原文确实这么说"的证据。结构越漂亮越容易让人放松核查——而这恰是最该回原文的时刻。对文献内容的最终责任始终在你本人，不在替你略读的模型。

📦 本课交付物

按本节实操任务完成并提交以下内容，提交 AI 初审，按 Module_Rubrics.md 对应维度评分：

[ ] 文献阅读卡 ×3：每篇含研究问题 / 方法 / 量表 / 核心发现 / 局限五项
[ ] 真实性核查：抽 1 篇做全栏核对，确认 AI 提取的发现/数据/局限与原文一致（无遗漏、无编造），并标注 ✅／⚠️／🔴 判级
[ ] AI 协作日志：文献提取提示词的"指令 → 输出 → 回原文核对 → 修正"记录
[ ] 沉淀模板：把"文献卡字段 + 核验印记"模板存入个人工具箱

🏁 本章小结

把本课凝练成可据以复习的几条要点：

定位：用 AI 读文献属于"黄区"——它是高效但有误差的略读工具，可用于导航（定位、筛选、建立全局印象），不可直接照抄为引用证据。
核心方法：不要让模型自由概括，而要用结构化提取把开放式总结压成约定字段（研究问题 / 方法 / 量表 / 核心发现 / 作者自陈局限），使每一格都可回原文逐项核验；多篇横向对比成表，单篇深读成「文献卡」。
为什么会漏会偏：大模型摘要是按统计规律对原文做有损压缩与改写——压缩导致遗漏（作者含蓄的限定最易被压掉），"把话说圆"导致范围漂移乃至幻觉（脑补原文没有的结论）。格式越工整越不代表越可靠。
核验是硬工序：「真实性核查」用 Ctrl+F 锚词（limitation/did not/future research）跳到原文比对，逐句判级 ✅／⚠️／🔴；优先全栏抽查那篇"写得特别工整全面"的。没有核验印记的提取卡只能导航、不能引用。
不满意分两类处理：格式问题可用负向纠偏调提示词；忠实度问题只能回原文，任何提示词技巧都调不出真值。
边界要诚实：AI 概括可用度高、可信度有限，会漏、会偏、会编造文献、会跨篇张冠李戴，且不替代精读与研究判断；对文献内容的最终责任在你本人。
承接：把多篇第 5 栏「作者自陈局限」横向叠加，核实属实后即浮现你的 Research Gap，直接承接第 14 课。

自测清单（可保留逐项打勾）

[ ] 我能说清"用 AI 读文献为什么是黄区"，并讲出它"会漏、会偏"的来源（有损压缩 + 把话说圆），且不编造模型内部机制。
[ ] 我已实战：把多篇长 PDF 一次性提交给具备长上下文的模型，用结构化提示词产出五栏对比表并导出归档。
[ ] 我能用"换个领域是否照样成立"一眼判别坏提取 vs 好提取，识别出第 5 栏被改宽或被脑补的格。
[ ] 我完成过至少一次回原文核验（含一处"漏"、一处"偏/编"的抓取与修正），并给文献卡标了核验印记。
[ ] 我能区分"格式不满意"（可调提示词）与"忠实度不满意"（必须回原文），不再指望靠改提示词把真值"调"出来。

✍️ 思考与练习

下列练习用于把本节概念用起来（区别于"本课交付物"里的任务），建议写在本地笔记中。

练习 1（原理辨析）。 有同学说"既然 AI 概括有误差，那读文献干脆全程自己读、完全不用 AI 最稳妥"。请用本课【原理】说明：为什么更合理的做法不是"弃用"而是"限定用途"？AI 概括在哪一类判断上命中率高、可放心用于导航，在哪一类上必须回原文？

好答案要点：区分粗粒度可快速复核的判断（这篇大致研究什么、方法族、结论方向——导航可用）与细粒度易藏的限定（具体局限、显著性前提、确切数字——须回原文）；指出"黄区"纪律是限定用途而非二元取舍；能点明全程纯人工会牺牲略读吞吐量这一真实收益。

练习 2（核验实操）。 取 Case C 文献卡（评测 Quality_GPT5 / Quality_Claude47 / Quality_Gemini25，基准为 Claude 4.7）。假设 AI 首版把核心发现写成"三模型质量无显著差异，可互相替代"，而原文实为 "significant main effect of model (p < .01)"。请说明：你用哪个英文锚词、跳到原文哪一段核对？这格应判 ✅／⚠️／🔴 中的哪一级？为什么这类"结论方向被反写"比"措辞略宽"更危险？

好答案要点：用 significant/main effect/p < 跳到 Results/统计结论段；判 🔴（结论与原文相反，属编造/严重范围漂移）；指出方向被反写会直接误导选题与引用，且会牵连复查该文其余栏位。

练习 3（边界识别）。 你让 AI 基于 Case C 数据"补三篇支持'模型间存在质量差异'结论的权威文献"，它给出三条作者、年份、期刊俱全、格式完美的文献。请指出这最可能踩中本课哪条边界，以及你会做的核验动作；并说明"格式完美"为何不能作为可信依据。

好答案要点：识别为编造文献（幻觉）；动作是逐条到数据库/检索核实是否真实存在、作者年份卷期是否对得上；点明格式是模型最擅长模仿的表层，工整≠真实，呼应"可用度≠可信度"。

练习 4（提取设计）。 针对 Case A 心理问卷文献（量表含反向计分题 Anxiety_4_R），请改写本课的提取指令，新增一个能逼出"量表计分细节"的字段，使 AI 必须报告：各分量表题数、是否含反向题、信度（α）是否报告。说明你为该字段加了哪条"原文缺省就标 [未说明]、不要推断"的约束，以及为什么这条约束能压制 AI 脑补。

好答案要点：新增"量表与计分（题数 / 反向题 / 信度报告情况）"字段；明确要求缺省标 [未说明] 而非补值；解释该约束把"信息不足时把话说圆"的默认行为，改成"显式留白"，从而降低范围漂移与幻觉，且便于回原文核对反向题是否需重编码。

第 13 课：AI 辅助文献阅读 ​

📋 课前准备（5 分钟自检） ​

账号 ​

工具/环境 ​

数据/素材 ​

应急通道 ​

场景导入：批量阅读外文文献的两个真实瓶颈 ​

原理：为什么"让 AI 读文献"是黄区——可用于导航，不可照抄 ​

文献结构化提取框架：把开放概括压成可回查的字段 ​

实战拆解：为外文文献设计"结构化提取指令" ​

步骤一：批量上传文献 ​

步骤二：获取对齐的核心信息 ​

步骤三：对照范例——一张「填好的」提取表 ​

步骤四：坏提取 vs 好提取——逐要素看穿第 5 栏是否到位 ​

步骤五：「真实性核查」操作法（针对幻觉的必要工序） ​

完整走查（worked example）：一张「文献卡」从生成到核验 ​

A. 给 AI 的单篇提取指令 ​

B. AI 的首版输出（注意：尚未核验，存在典型瑕疵） ​

C. 回原文核验：抓到一处"会漏"、一处"会偏" ​

D. 核验后的「文献卡」（可入库版） ​

输出仍不满意？如何迭代 ​

常见误区与纠正 ​

边界与局限：AI 辅助文献阅读能做什么、不能做什么 ​

📦 本课交付物 ​

🏁 本章小结 ​

自测清单（可保留逐项打勾） ​

✍️ 思考与练习 ​