Skip to content

第 1 课:课程导论与 AI 能力边界

🎯 本节核心目标

看清这门课如何带你从「选题」走到「投稿与 Rebuttal」;亲手测出大语言模型在学术任务上的"能力三界";并产出你的三件随身工具——个人学习路线表、AI 任务分类表、轨道选择结论

📋 课前准备(5 分钟自检)

账号

  • [ ] 豆包(必备,中文友好入口):doubao.com
  • [ ] 至少一个海外主力平台(任选其一):
  • [ ] 已能打开本课程网站(你正在看的就是)

💡 模型版本每 3–6 个月就会迭代,本课不把方法绑死在某个版本号上。登录后用各平台当前默认的主力模型即可,操作步骤完全不变;需要查版本基线时见课程大纲第十六条。

工具/环境

  • [ ] 一台可上网的电脑(Win / Mac / Linux 均可)
  • [ ] 任意现代浏览器(Chrome / Edge / Safari 最新版)
  • [ ] 一份记录提示词与产出的本地笔记(Markdown / Word / 飞书文档均可)

数据/素材

  • [ ] 准备一个你工作或学习中真实卡住的小问题(一段待翻译的文字、一份要缩写的初稿等),本课用它来实操

应急通道

  • 海外平台访问不畅 → 用国产替代:Kimi K2 / DeepSeek(V3 / R1)/ 通义千问
  • 拿不准选哪条轨道 → 完成本课末尾的轨道自测

一、问题引入:为什么第一课先讲"边界",而不是"技巧"

绝大多数论文里的 AI 事故,不是因为不会用,而是因为不知道它在哪儿靠谱、在哪儿绝不能信。最常见的两类翻车——后面你会亲手复现一次:

  • 编造的"真文献":AI 给你一段引言,配上格式完美的 APA 参考文献和 DOI 链接。作者、期刊都真实存在,但那篇论文根本不存在。盲审专家随手一搜,露馅。
  • 正确却空洞的"AI 味":一段读起来很"学术"、其实没有任何观点和证据的综述。内行一眼看出是机器快餐。

这门课的第一件事,就是让你建立对 AI 能力边界的肌肉记忆:把它当"高级加工车间",而不是"事实采矿点"。把边界搞清楚,后面 54 课的技巧才用得安全。


二、课程导论:这门课会带你产出什么

2.1 一条主线:论文的全生命周期

选题 → 文献 → 研究设计 → 问卷/数据 → 统计分析 → 写作 → 排版 → 投稿 → 审稿应对(Rebuttal) → 归档
└─ 模块二 ─┘ └──── 模块三 ────┘ └─── 模块四 ───┘ └──────── 模块六 ────────┘
   模块一打地基(AI 使用基本功);模块五(技术进阶轨)补 Git/Python/LaTeX 等工具链

这门课不止教你"把论文写完",而是陪你走完到投稿、盲审、修回为止的完整链路。

2.2 学完你会带走的"实物"(不是听个热闹)

  • 3 篇贴着投稿水平、经人工核验后可进入投稿流程的完整论文成稿(跟随三条案例主线产出)
  • 1 套你自己的提示词模板库
  • 1 套科研与写作工作流手册(SOP)
  • 1 套批判性使用 AI 的检查清单
  • 1 份 AI 使用合规声明模板 + 1 套 Rebuttal Letter 应对模板
  • 1 套个人高效科研工具箱

2.3 三条案例主线(你将从中任选其一产出论文)

主线学科研究问题(示例)配套数据集
A心理 / 教育 / 问卷AI 学习焦虑对学业自我效能的影响——学习策略的中介作用模拟问卷 N=540
B经济 / 管理 / 实证数字经济发展对区域创新能力的影响省级面板数据
C计算机 / AI 实验大模型自动摘要生成的质量评估(技术进阶轨)300 篇 × 3 模型评估

三套数据集都已配好数据字典、可复现生成脚本与 README,可在本站 数据集下载 一键获取。

2.4 怎么用这个网站

  • 按左侧 sidebar 顺序学,每课 30–45 分钟,自成一个"学完即能做"的单元
  • 每课开头有 📋 课前准备(账号/工具/数据/应急通道),别跳过——它保证你不卡在环境问题上
  • 每课结尾有 📦 交付物,照着提交即可纳入作业评估
  • 看到 ::: code-group 代码块里的提示词,可一键复制直接用
  • 发现错字或有建议 → 用每页底部的"在 GitHub 上提建议"

2.5 工具版图:你会遇到的三类 AI,本课先用哪一类

后面的课程会用到的 AI 工具,按"它在哪里运行、能动什么"大致分三类——先有个全局,不必现在全懂:

  • 对话模型(chat model):在网页或 App 里一问一答的通用助手,如豆包、GPT、Claude、Gemini、DeepSeek。本模块(模块一)只用这一类,它也是全课的主力。
  • OS 级 / 桌面助手:能在你的操作系统里跨应用代你操作(开文件、点按钮、跨软件搬运),如腾讯 Marvis 一类的桌面智能体。后续模块按需介绍
  • AI 编码代理(AI coding agent):直接读写代码、跑命令、改文件的代理(如各类 IDE 内的编码代理),主要服务于技术进阶轨的 Git/Python/LaTeX 工具链,模块五详述。

三类的"能力三界"判断同样适用:工具越能"代你动手",越要守住红区——让它动手不等于可以不验。本课聚焦第一类,把判断力打牢,后两类自然水到渠成。

2.6 贯穿全课的一条红线:批判性使用 + 学术诚信

全课红线

AI 是辅助工具,不是作者。 论文的每一句话、每一个结论,责任都在你。 我们教你规范地用 AI 辅助——引用要可查、数据要真实、使用要披露;绝不教代写、伪造数据或规避检测。这既是学术底线,也是你论文能过盲审、不被撤稿的前提。第 8 课会专门讲这条线怎么落地。


三、核心方法:AI 能力"三界碑"——一张你要用一整学期的分类表

3.1 先搞懂底层:它是"语言概率引擎",不是"事实数据库"

大语言模型(GPT、Claude、Gemini、豆包、DeepSeek 等)的本质,是一个预测"下一个词"的概率引擎:它从海量文本里学会了"在这个语境下,接哪个词最像人会写的"。

这带来一个关键后果:它追求的是"读起来对",不是"事实上对"。 当你逼它给出它并不"知道"的具体事实(某篇论文的 DOI、某量表的信度数值),它不会说"我不知道",而会生成一个最像答案的东西——这就是"幻觉(hallucination)"的来源。

为什么会"似真造假":三条确凿的机制

可以用三个关于大模型行为的、确凿而通俗的事实来理解它为什么"读起来对、事实上错":

  1. 它按训练语料的概率续写下一个词。 模型生成时在做"接哪个词最像人类会写"的概率选择,通常并不区分"这是我记牢的事实"还是"这是个像样的填空"。因此一个格式完美的 DOI,对模型而言只是"长得最像 DOI 的字符串",未必对应真实文献。
  2. 它没有接入一个可信的真值数据库。 训练把语料里的统计规律压进了参数,但并不等于存了一张可逐条核对的事实表。被问到训练时罕见或根本不存在的具体数值(页码、信度、年鉴数字),它倾向于补全出一个最合理的版本,而不是报错或留白。
  3. "流畅"与"正确"是两件事。 语言上的通顺由概率续写直接保证,事实上的正确却没有独立的校验环节。所以越是它不确定的地方,输出反而可能越自信、越规整——这正是危险所在。

一句话:幻觉不是模型"偷懒"或"撒谎",而是"按概率把话说圆"这一机制在缺乏可信事实时的自然产物。理解到这一层,你就不会指望"换个更强的模型"或"把话说重一点"就能根除它。

为什么联网/RAG 能缓解、却不能消除

联网检索、RAG(检索增强生成,Retrieval-Augmented Generation)等做法,是在模型续写之前先去外部来源取回相关材料,再让它"看着材料作答"。这把任务从"凭记忆生成"挪向了"绿区式的文本加工",因而能大幅缓解幻觉。但它不能消除,原因有三:检索可能没召回到真正相关的来源;召回的来源本身可能不可靠;即便来源正确,模型在概括、拼接时仍可能张冠李戴。所以无论开不开联网,核心动作只有一个字:验。

📖 本节关键术语

  • 大语言模型(LLM,Large Language Model):基于海量文本训练、按概率预测下一个词的生成式模型,如 GPT / Claude / Gemini / 豆包 / DeepSeek。
  • 幻觉(hallucination):模型生成看似合理、实则与事实不符的内容(伪造的 DOI、并不存在的论文、编造的统计量)。
  • 检索增强生成(RAG,Retrieval-Augmented Generation):先从外部来源检索材料、再据材料生成答案的做法;缓解幻觉但不能根除。
  • 上下文窗口(context window):模型一次能"读进去并参考"的文本总量(含你的提示、上传材料与本轮对话历史)。承载本轮对话的就是它;窗口之外的内容模型并不"记得",开新对话即清空。
  • 能力三界:本课的核心分类法,按"能不能信"把 AI 任务分为绿区(文本加工)/ 黄区(长逻辑·解读)/ 红区(凭空事实·精密数值)。

3.2 能力三界碑(核心分类表)

把所有 AI 任务,按"能不能信"分进三个区。这张表是本课第一件交付物的底版,请收好。

能力区典型学术任务可信度你必须做的验证动作
🟢 绿区
文本加工
(你已提供底料)
把你写的中文方法段译成英文;把啰嗦初稿缩写成 150 词摘要;把杂乱访谈整理成结构化要点;校对语法/格式;把你给的 5 篇文献要点按主题归类成表核对术语是否准确、有没有漏掉或擅自添加信息
🟡 黄区
长逻辑 / 解读
(启发,不可照抄)
读你上传的 PDF 提炼 Research Gap;对比两篇文献的理论分歧;解读你跑出的回归结果;据你的数据提"可能的讨论方向"回原文/原数据按图索骥核对;统计解读自己复算(第 30 课专讲)
🔴 红区
凭空事实 / 精密数值
(禁止直接采信)
让它"查"文献并给 DOI/页码;报某量表的 Cronbach's α / 信效度;给统计年鉴/政策的具体数字;"计算"你没给原始数据的统计量极低一律不直接用:DOI 到 doi.org 验证、数字回官方源、统计量用你自己的数据算

💡 一句话记牢:AI 是材料的"加工车间",不是事实的"采矿点"。绿区放手用,黄区核对用,红区先验证再说


四、工具演示 + 学员跟做:亲手测出"红区"造假

理论说一百遍,不如自己被骗一次。下面两个任务,请真的去做,把过程记进你的笔记。

跟做任务一:复现一次"隐性学术幻觉"

打开任意平台(推荐豆包 / 通义千问 / DeepSeek 的常规模式先不要开联网搜索),新建对话,原样发送:

markdown
我在写一篇学位论文,核心立论是:"长期使用生成式 AI 会加剧中年知识工作者的存在主义焦虑"。
请写一段 400 字的引言来支撑它,并满足:
1. 引用 3 篇 2022–2024 年发表的真实英文 SSCI 期刊文献;
2. 段末给出这 3 篇文献的标准 APA 参考文献;
3. 每篇附真实可查的 DOI 链接。

▶ 它很可能给你一段格式完美的答案。现在做"验证三连":

  1. 验 DOI:把它给的每个 https://doi.org/10.xxxx/... 链接逐个打开。解析不到、或跳到一篇标题完全不同的论文 → 这条是编的。
  2. 验标题:把论文标题原样粘到 Google Scholar 或知网搜。搜不到这个标题 → 编的。
  3. 验组合:作者、期刊、年份可能各自真实,但被错误地拼在了一起——这是最隐蔽的一种。

你会观察到的真相

作者(如某领域常发文的学者)和期刊(如 Computers in Human Behavior)往往真实存在,但标题和 DOI 是拼出来的——DOI 到 doi.org 会显示 "DOI Not Found"。 这就是最坑人的"似真造假(plausible fabrication)":格式越完美,越危险。直接粘进论文,盲审一搜就露馅。

⚠️ 进阶观察:如果你开了联网搜索再问一遍,模型可能会给出真实文献——但仍需逐条点开验证。"看起来对"永远不等于"真的对"。

跟做任务二:识别"AI 学术塑料味"

新建一个干净窗口,发送:

markdown
请写一段 500 字的文献综述,主题:"社交媒体依赖与中学生抑郁倾向的影响机制",
要求结构严密、符合期刊基调。

它会在几秒内交卷。请用审稿人的眼光读,对照下面这张"AI 味"识别清单打钩:

  • [ ] 套话连接词:"近年来""引起学界广泛关注""在日益复杂的环境下""综上所述,未来研究应进一步……"
  • [ ] 没有真矛盾:通篇在用不同长句重复"影响很大"这个常识,没有呈现学派分歧(如 A 派认为正相关、B 派指出某条件下负相关)
  • [ ] 虚假精确:给出看似具体、实则无出处的"研究表明 73% 的……"
  • [ ] 缺具体证据:没有任何一个可追溯的研究、数据或情境

勾中 2 项以上,就是典型"AI 味"。 根因:你没给骨架和限定,它只能输出"标准作文的平均值"。


五、批判性复核:本节高风险点

做完任何一次 AI 任务,养成"复核三问":

  1. 事实可查吗?(红区内容一律按"验证三连"核对)
  2. 逻辑自洽吗?(黄区结论回原文/原数据核对)
  3. 引用真实吗?(每条引用都要能在数据库找到原文)

"三界碑"的边界与局限:诚实地知道它何时失效

这套方法是个实用的风险分类器,不是物理定律。用它时要清楚它的边界:

  • 三区没有硬边界。 同一个任务可能随你给的材料而移区:让 AI 凭空"查"某量表信度是红区;若你先上传了量表手册再让它从中找出信度值,就降成了绿/黄区。判断的不是任务名称,而是"事实由谁提供"。
  • 绿区也会出错,只是错得"安全"。 翻译会误译术语、缩写会悄悄漏掉一个限定条件、归类可能合并了你本想区分的两类。绿区可信度高指的是错误可控、易核对,不等于免检。
  • 模型会迭代,差异会变。 模型版本每 3–6 个月更新,"哪些任务算红区"会随之漂移——今天编 DOI 的模型,明天可能联网后给出真引文(但仍需逐条验)。不同模型也有差异:同一道题,豆包、GPT、Claude 可能一个老实拒答、一个照编不误。所以本课交付的是判断框架,不是某个模型的固定结论。
  • 准确性红线(扣全课红线):凡进入论文的事实、数字、引用,最终责任永远在你,不在模型,也不在"它说联网查过了"。RAG / 联网只是把核对变容易,没有替你免除核对。
  • 伦理红线:用 AI 加工你自己的材料与思路是辅助;让 AI 凭空生成"证据"(伪造文献、编造数据、虚构统计量)是学术不端。本课只教前者;第 8 课专讲如何合规披露 AI 使用。

承上启下

你现在有了"边界意识"。第 3 课会把它升级成一套可复用的系统提示词框架(S-P-O / BROF),把"知道该验"变成"每次开局自动就位"。本课末尾先给你一份精简版对齐指令收藏。


六、成果沉淀:本课三件交付物

交付物 1:个人学习路线表

复制下表到你的笔记,填好——它决定你后面怎么学、产出什么。

项目你的填写
我的研究方向 / 学科
目标期刊层次(中文核心 / CSSCI / SSCI / 会议)
我选的轨道(通识 / 技术进阶,做完第七节自测后填
每周可投入学习时间
我打算跟哪条案例主线产出论文(A / B / C / 我自己的课题)
学完最想拿到的 1 个具体成果
我当前最大的卡点(选题 / 文献 / 数据 / 写作 / 投稿)

交付物 2:AI 任务分类表

从第三节的"三界碑"出发,列出你自己 10 个高频任务,逐个分到绿/黄/红区,并写明验证动作。例如:

我的高频任务能力区验证动作
把中文摘要译成英文🟢核对专业术语
让 AI 提炼我上传文献的 Gap🟡回原文核对
让 AI 给某主题的参考文献🔴doi.org 逐条验证(基本不用)
…(补满到 10 条)

交付物 3:轨道自测表(结论回填交付物 1)

完成第七节的 5 题自测,把判定出的轨道结论填回交付物 1。

📦 本课交付物(提交 AI 初审,按 Module_Rubrics.md 评分)

  • [ ] 个人学习路线表(已填)
  • [ ] AI 任务分类表(≥10 条,含验证动作)
  • [ ] AI 协作日志:任务一的"指令 → AI 输出 → 你的验证结论"完整记录
  • [ ] 一条你亲手测出的幻觉记录(哪个 DOI 是假的、怎么验出来的)
  • [ ] 轨道自测表结论

⏱️ 时间建议:跟做任务一在课中完成;跟做任务二与三张表可作课后作业,避免单节超时。


七、轨道自测:你该走通识轨还是技术进阶轨?

本课程为双轨制

  • 通识轨(47 课):聚焦"搞定论点撰写与跑出结果",用 Jamovi / JASP 等免代码工具 + Word 排版
  • 技术进阶轨(55 课):在通识轨基础上,额外掌握 Git / Python / Jupyter / LaTeX / AI 编码代理等完整工具链

核心提醒:两轨的方法论与论文产出目标完全一致,差异只在工具深度。进阶不代表水平高,通识不等于水平低。选工具只有一个标准——在限定时间内,什么工具能最平滑、最少报错地帮你拿到录用通知。

5 题自测(请如实勾选)

#问题
1你是否打开并用过电脑的命令行(Windows 的 PowerShell/CMD 或 Mac 的 Terminal)?
2你是否亲自安装过 Python 等编程环境?
3你是否写过 10 行以上能跑通的任何语言代码?
4你的研究方向是否涉及大数据运算、自定义爬虫、算法训练等常规可视化统计软件覆盖不了的领域?
5你是否愿意为本课额外多投入 20–30% 精力去磕代码报错、查环境配置?

判定规则

"是"的数量推荐轨道学习内容
≥ 3🎯 技术进阶轨(55 课)系统学 Git、Python、Jupyter、LaTeX 与 AI 编码代理
≤ 2🎯 通识轨(47 课)聚焦 Jamovi、Word、问卷工具完成全部分析与论文(跳过模块五)

📋 课后任务

  1. 把自测结果与最终选择记进交付物 1(个人学习路线表)
  2. 第 18 课"数据分析工具选型"会直接对应你此处的选择安装工具
  3. 中途可调:如发现选错,在第三模块前都能切换(建议尽早决定,避免重学)

完整自测表与说明也可在 Course_Materials/Templates_and_Checklists/Track_Self_Assessment.md 查阅。


🏁 课后自检清单

下线前,对照复盘:

  • [ ] 我理解 AI 是"语言概率引擎",会"似真造假",绝不再让它凭空给带出处的 DOI 文献当事实用
  • [ ] 我能凭"套话连接词 + 没有真矛盾"嗅出文章里的"AI 学术味"
  • [ ] 我已用"验证三连"(验 DOI / 验标题 / 验组合)亲手抓出至少一条幻觉
  • [ ] 我已填好个人学习路线表,并选定了学习轨道
  • [ ] 我已收藏下面这段防幻觉对齐指令,作为今后每次开新对话的"开局首发"(第 3 课会展开成完整框架)
markdown
【学术合规预设协议】
在本次对话中,请严格遵守以下四条,同意请只回复"协议已锁定,等待材料":
1. 事实与引用,由我提供原文或数据来支撑;
2. 当我的问题超出我提供的材料范围时,立即停止推断,并回复"⚠️ 超出已提供材料范围,不臆测";
3. 若我提供的材料逻辑有漏洞,请直接以学术批判视角指出,不要顺着错误往下推;
4. 输出去除"然而、在这个复杂的时代、带来了深远影响、综上所述"等冗余抒情连接词,保持凝练、客观、可核查。

📘 本章小结

把本章凝练成可据以复习的几条,供你日后快速回看:

  1. 先界后术。 学 AI 用法之前先学边界——多数论文 AI 事故源于"不知道它在哪儿不能信",而非"不会用"。
  2. 它是语言概率引擎,不是事实数据库。 模型按训练语料的概率续写下一个词,没有接入可信真值库,因此追求"读起来对"而非"事实上对";幻觉(hallucination)是这一机制在缺乏可信事实时的自然产物,而非"撒谎"。
  3. 联网/RAG 缓解但不消除幻觉。 检索可能没召回、来源可能不可靠、拼接可能出错——所以无论开不开联网,核心动作只有一个字:
  4. 能力三界是本章的随身判据。 🟢 绿区(你已给底料的文本加工,可信度高、仍需核对术语)/ 🟡 黄区(长逻辑与解读,仅作启发、回原文原数据核对)/ 🔴 红区(凭空事实与精密数值,一律先验证)。判断的关键是"事实由谁提供",任务会随材料移区。
  5. 三类工具,本模块只用对话模型。 OS 级助手与 AI 编码代理后续模块再讲;工具越能代你动手,越要守红区。
  6. 边界会漂移,框架不变。 模型每 3–6 个月迭代、不同模型表现有别,本课交付的是判断框架验证习惯,不绑定某个版本或某个结论。
  7. 责任永远在你。 进入论文的每个事实、数字、引用都要可查;AI 加工你的材料是辅助,AI 凭空造"证据"是不端。

(上面的课后自检清单用于"我做到了没",本小结用于"我记住了没"——两者配合复盘。)


🧠 思考与练习

下面 4 题用来检验你能否应用本节概念(区别于三件交付物的"产出")。建议写进笔记,自评对照"好答案要点"。

练习 1(移区判断) 下列任务各属绿/黄/红区?若可通过"补充材料"把它从红区降到绿/黄区,请说明补什么。

  • (a) 让 AI 把你写好的中文研究假设译成英文;
  • (b) 让 AI 报告 Case A 心理问卷中 Anxiety_1..12 这套量表的 Cronbach's α;
  • (c) 让 AI 解读你已跑出的 Case B 面板回归里 DigEcon_IndexInnovation_Index 的系数含义。

好答案要点:(a) 绿区(你已给底料,核对术语即可);(b) 红区——量表信度是"精密数值",AI 凭空给的不可信;补上原始数据,用你自己的统计软件算出 α 后即变为你提供事实、可信;(c) 黄区——解读可作启发,但须回你的回归输出核对系数符号、显著性,不可照抄它的措辞。

练习 2(机制解释) 用本节的"三条机制"向一位没上过这门课的同学解释:为什么 AI 会给出一个格式完美却不存在的 DOI?请避免使用任何你说不清的"内部机制"词。

好答案要点:能说出"按概率续写下一个词→DOI 只是长得最像 DOI 的字符串""没有可信真值库可核对""流畅≠正确"三点中的至少两点;用"通常/往往/倾向于"等措辞而非绝对断言;不杜撰诸如"算力""锚定"之类的伪术语。

练习 3(联网的边界) 有同学说:"我开了联网搜索,AI 给的文献就一定是真的了。" 用本节内容指出这句话错在哪、应当怎么做。

好答案要点:指出 RAG/联网只是"先查再答",仍可能没召回、来源不可靠、拼接出错;正确做法是把联网当成降低核对成本而非免除核对——文献仍要逐条用"验证三连"(验 DOI / 验标题 / 验组合)确认。

练习 4(用 Case C 设计一次验证) Case C 的 LLM 评估数据含 Quality_GPT5Quality_Claude47Quality_Gemini25 三列(300×3,1–5 分,3 名标注者)。假设你让 AI 直接"估计"这三个模型评分的均值与标注者一致性,它给了你一组很整齐的数字。请说明:这属于哪个区?你应如何获得可信结果?

好答案要点:红区——AI 在你没给原始数据时"算"出的统计量是凭空生成的精密数值,不可信;正确做法是用真实的 300×3 数据自己计算均值,并用合适的一致性指标(如评分者间信度)核验,AI 至多用于解释结果或检查你的代码(仍属黄区,需回数据核对)。


🎓 本课小结:你已经看清这门课的全貌,建立了 AI 能力的"三界碑"判断力,理解了它"似真造假"的底层机制,并产出了三件随身工具。下一课起,我们正式开练——从最友好的入口"豆包"开始。

助力学者在 AI 时代极速产出高质量学术成果 · 55 课时双轨制 · plan v3.3