第 8 课:学术伦理与 AI 合规使用
🎯 核心实操目标
学习目标:守住学术道德的红线。本节课后,你需要掌握把隐私数据规范清洗后再交给大模型分析的脱敏技术;同时,你需要学会如何在投稿信(Cover Letter)中合规声明 AI 的使用边界,避免被期刊编辑列入学术诚信不良记录。
📋 课前准备(5 分钟自检)
账号
- [ ] 豆包(必备,国内零基础友好):doubao.com
- [ ] 至少一个海外平台账号(任选其一):GPT-5 / Claude 4.8 / Gemini 2.5
工具/环境
- [ ] 一台可上网的电脑(Windows / Mac / Linux 均可)
- [ ] 任意浏览器(推荐 Chrome / Edge / Safari 最新版)
- [ ] 一份用于记录提示词与对话的本地笔记(Markdown / Word / Notion)
数据/素材
- [ ] 一段你自己工作/学习中真实卡住的文字问题(用作实操对象)
应急通道
- 海外平台无法访问 → 用国产替代:Kimi K2 / DeepSeek V3 / 通义千问
- 浏览器卡顿 → 关闭其他标签后重试,AI 网页对内存敏感
- 不会注册 → 加入课程答疑群索取注册教程
场景导入:你可能在不知不觉中泄露了受访者隐私甚至涉密信息
“你花了三个月走访 1000 位重度抑郁症患者,拿到了包含他们真实姓名、身份证后四位、电话号码以及服药史的高度敏感原始 Excel。 为了图方便,你把这份 Excel 直接上传给了公有云版本的大语言模型进行分析。
但这样做可能危及你的毕业资格。任何公有云模型都有可能将用户发送的文本作为二次训练语料,上述行为构成了严重的隐私泄露,既违背了抽样伦理审查,也可能触犯法律。”
📖 本节关键术语(首次出现先对齐定义)
- 脱敏 / 匿名化(anonymization):在数据离开本地、交给第三方(含云端 AI)之前,移除或替换掉能直接或间接指向具体个人/机构的标识,使其无法被反向还原到真实主体。
- 幻觉(hallucination):大模型生成了看似合理、实则不存在或不正确的内容(如编造的文献、DOI、统计量)。它不是"撒谎",而是模型在按概率续写文本时填补出了一个统计上像真的、但无事实依据的答案。
- 上下文窗口(context window):模型本轮对话能"看见"的文本范围。你粘进对话框的敏感数据就落在这个窗口里被处理——这也是"按下发送即已上传"的由来。
- AI 使用合规声明(AI-use disclosure statement):在论文/投稿信中如实写明是否使用、在何处使用、用何模型、用于何用途的一段标准化声明。
- 署名规范(authorship criteria):判定谁有资格成为作者的标准(须能对研究负责并担责)。AI 因无法承担责任,依此标准不具备作者资格。
- 学术不端(academic misconduct):违反学术诚信的行为统称,下文给出分类。
🔍 原理:为什么"脱敏"与"如实披露"是不可让步的底线
理解了大模型的两条基本行为,本课所有规则就都成了常识,而非死记的条文:
其一,公有云模型没有"私人保险箱"。 你输入的文本进入模型的上下文窗口被处理,而多数公有云服务在条款中保留了将用户输入用于后续训练/改进的可能。可理解为:数据一旦发送,你就失去了对它的独占控制——这与"伦理审查承诺过的数据仅用于本研究"直接冲突。所以脱敏必须发生在本地、离线、上传之前:指望"先传上去再让 AI 帮我抹掉名字"是自相矛盾的,因为按下发送的那一刻,原始敏感文本已经进入了对方系统。
其二,大模型是"按概率预测下一个词"的文本生成器,没有接入可信的事实数据库。 它倾向于生成读起来最连贯的内容,而非经过核实的内容。因此它会以同样流畅的语气给出真实的与编造的文献(即幻觉)。这解释了为什么"AI 给的引用必须逐条回数据库核实"不是谨慎,而是必需——模型本身无从分辨自己写出的 DOI 是真是假。
为什么"如实披露"能保护你? 学术诚信的内核是可复核:他人能据你交代的方法、数据、工具来源复现并检验你的工作。AI 使用一旦发生却不交代,就在这条可复核链上留下了一个无法追溯的黑箱——这正是出版商真正惩罚的对象。所以本课反复强调的"如实披露 + 真正原创 + 可追溯",本质是把你的工作维持在可被检验的状态。
🗺️ 上传前的脱敏流程 (Anonymization)
在将任何带有个人属性、企业横向核心数据、未公开专利发明的文本交付给云端 AI 之前,必须先经过这一层脱敏处理:
🚀 实操 A:本地数据的规范清洗
📋 操作要求:不可以在连网的状态下要求 AI 帮你抹去私密名词。因为当你在对话框里打出私密数据并按发送的那一秒,数据已经上传入库了。你需要在把文件上传前,用本地 Excel 或 Word 进行清洗。
操作步骤:
- 删除敏感列:在本地 Excel 中,直接将“受访者真实姓名”、“家庭确切住址”、“手机号”、“身份证号”等无统计意义且涉及隐私的列名【右键删除】。
- 随机代号法:将受访者的名字使用本地 WPS/Excel 批量替换拉拽,全部变为
Subject_001到Subject_1000。 - 模糊保密法:如果你是在做企业横向战略研究,要把真实的
华为公司技术部核心财报,在输入 AI 分析时全文替换泛化为G公司(大型科技制造类企业)某部门业绩样本。
跨学科完整实例:经管面板与 LLM 评估的合规处理
上面的示例针对的是"含个人隐私的问卷数据"(对应课程 Case A)。但不同学科的合规风险点并不相同——经管研究的风险常在数据来源与授权,而 LLM 评估研究的风险常在人工标注的一致性披露。下面用课程的 Case B 与 Case C 各演示一次。
场景一:经管面板数据(Case B,30 省 × 10 年)的来源合规
经管面板的敏感点通常不是"个人隐私",而是"数据来源是否可公开追溯、是否经授权"。如果数据来自付费数据库(如 CSMAR、Wind),直接把原始整库上传 AI 既可能违反数据库使用协议,也无法在论文中交代清楚来源。
我有一份省级面板数据,30 个省份 × 10 年(2014–2023),三列指标:
DigEcon_Index(数字经济指数)、HumanCap_per10k(每万人专科以上学历人数)、
Innovation_Index(创新指数)。原始指标来自某付费数据库和统计年鉴。
请帮我做两件事:
1. 用一段话规范说明"数据来源与可得性"(Data Availability),
说清哪些指标来自公开统计年鉴、哪些来自受协议限制的付费数据库,
以及读者如何在合规前提下获取。
2. 指出我把这份数据交给 AI 分析前,在"来源授权"上需要自查哪些点。
注意:不要编造具体数据库名称或年鉴卷期,需要我填的地方用【】标出。预期输出(节选):
数据可得性说明(草稿):本研究使用的省级面板数据涵盖 30 个省份、2014–2023 年。其中
HumanCap_per10k等指标来自公开出版的【统计年鉴名称】(公众可免费获取);DigEcon_Index、Innovation_Index的底层数据来自【付费数据库名称】,受订阅协议限制,不可随原文公开分发,研究者可在订阅该数据库后按本文附录的指标构建口径复现。上传前的来源自查:① 付费数据库的使用协议是否允许把原始数据导出给第三方服务(含云端 AI)——多数协议禁止整库再分发,建议只上传已聚合的省级指标而非逐条原始记录;② 指标若经你二次计算(如指数合成),应保留可复现的计算口径;③ 公开年鉴数据可直接使用,但仍需在论文中标注准确出处。
这里的合规要点与 Case A 不同:省级聚合指标本身不含个人隐私,真正的红线是"数据库授权范围"与"来源可追溯"——这也是经管类期刊 Data Availability 审查的重点。
场景二:LLM 评估研究(Case C,300 条 × 3 模型)的标注一致性披露
当你的研究本身就是"用 AI 给文本打分"(如比较 GPT-5、Claude 4.7、Gemini 2.5 的输出质量),合规风险点又变了:你必须如实交代评分是怎么来的、人工标注者之间是否一致,否则结论无法被信任。
我做了一项 LLM 输出质量评估:300 条相同任务,分别由三个模型作答,
得到三列质量分 Quality_GPT5、Quality_Claude47、Quality_Gemini25。
评分由 3 名人工标注者按同一套 1–5 评分量表独立打分。
请帮我起草一段"评分方法与标注一致性"的方法学说明,需包含:
1. 评分量表与标注流程怎样描述才算透明;
2. 报告标注者间一致性应使用什么指标、低于阈值时如何处理分歧;
3. 如果某些环节用了 AI 辅助(如让 AI 预先粗筛),该如何如实声明、
而不能让读者误以为是纯人工标注。
具体数值我来填,用【】标出占位。预期输出(节选):
评分方法:每条输出由 3 名独立标注者依据 1–5 分质量量表(维度:【准确性/相关性/…】)盲评,标注者事先不知道文本来自哪个模型。
一致性报告:报告标注者间一致性(如 Cohen's κ 或 ICC,具体值【待填】);对评分差异≥【N】分的条目,由第三人仲裁或经讨论达成共识后定稿,并说明被仲裁条目占比。
AI 使用的如实边界:若使用了 AI 进行预筛或辅助,应明确写为"AI 仅用于【粗筛/去重】,全部最终质量分由人工标注者给出并担责",不得把 AI 的中间判断悄悄计入人工一致性,否则等同于伪造标注流程。
这里的红线是:"人工评分"就必须真的是人工评分。把 AI 的粗筛结果混进去却宣称是多人独立标注,性质等同于数据造假——比"不披露润色"严重得多。
📚 学术不端的类型:先认清红线在哪
"AI 合规"不是一条孤立的新规,而是嵌在既有的学术诚信框架里。先把学术不端(academic misconduct)的主要类型系统地认全,才能判断某次 AI 使用会落到哪条红线上:
| 类型 | 英文 | 含义 | 在本课的 AI 关联 |
|---|---|---|---|
| 抄袭/剽窃 | plagiarism | 把他人(或来源不明)的文字、观点据为己有而不注明 | 大段照抄 AI 生成文本而不披露、不重写,等同于来源不明的剽窃 |
| 伪造 | fabrication | 凭空编造数据、结果或引用 | 直接采信 AI 编造的文献/DOI(幻觉)即引入伪造;把 AI 粗筛结果谎称人工标注亦属此类 |
| 篡改 | falsification | 删改、挑选数据使结论失真 | 让 AI"美化"或选择性改写数据/结果 |
| 不当署名 | improper authorship | 该署名者未署、不够格者却署名 | 把 AI 列为作者(违规),或代写者隐身 |
| 未披露的利益/工具 | non-disclosure | 隐瞒应当声明的协助、资助或工具 | 用了 AI 却不声明,或声明含糊、漏报实质性使用 |
| 重复发表/自我抄袭 | duplicate / self-plagiarism | 同一成果反复发表而不说明 | 与 AI 关联较弱,但同属诚信框架,一并知晓 |
记住这张表的用法:每当你打算让 AI 做某件事,先自问"如果照做且不说,会落到上表哪一行?"——这比逐条背规则更可靠。其中伪造与不当署名是 AI 时代最易踩、后果最重的两类。
🚀 实操 B:合规的论文 AI 使用声明
目前包括 Elsevier、Springer、Nature 在内的国际主流出版商并不禁止使用大语言模型润色英文。但他们明确反对瞒报,也反对把 AI 直接列为共同作者。
如果在查重或机器审核阶段被检测出使用了 AI 而你未做报备,结果往往是直接拒稿。
📌 主流出版商对 AI 使用的政策共识(客观概览,非逐刊条文)
尽管各家措辞与声明位置不同(细节见下文实操 C 的速查表),但 Elsevier、Springer Nature、Nature 系列、Science/AAAS、以及国际出版伦理委员会(COPE)等已形成几条高度一致的共识。把握这几条,你在任何一家投稿时都不会出大错:
- AI 不能当作者。 这是最无争议的一条——作者须能对研究负责并回应质询,AI 无法担责,故不具备作者资格(署名规范)。
- 允许把 AI 用于语言/可读性润色,但须如实披露。 "改语法、提流畅度"普遍被接受,前提是声明清楚。
- 实质性的科研判断不能外包给 AI。 研究设计、数据解释、结论必须由人类作者做出并担责。
- 数据与图像有更严的底线。 多数出版商禁止用生成式 AI伪造或生成数据、实验图像;这与"润色文字"是两回事。
- 人类作者对全文负完全责任。 无论用没用 AI,最终内容的正确性、原创性都由作者承担——不存在"错误归咎于工具"的免责。
注意边界:"共识"指方向一致,不等于条款一致:谁要求声明、声明放哪、措辞模板各家有别。所以最终仍以投稿时目标刊官网原文为准(见实操 C)。
【投稿信(Cover Letter)中需必加的披露尾段】:
Declaration of Generative AI and AI-assisted technologies in the writing process:
During the preparation of this work the author(s) used [填写模型名称,例如: GPT-5] in order to [填写具体用途,例如: improve readability and correct grammatical errors over English syntax]. After using this tool/service, the author(s) meticulously reviewed, evaluated, and edited the content as needed and take full academic responsibility for the content of the final manuscript.这段话的意思是:“我是为了改善英语表达才让 AI 帮我修饰了语法的。修饰后我进行了严谨的复审,这篇论文的核心创意和数据论据依然由作为人类作者的我本人承担最终责任。”
一份声明,写好 vs 写砸
合规声明的关键不在"有没有写",而在"是否如实、可核查"。同样一件事,下面几种写法决定了编辑把你归入"诚实作者"还是"试图规避"。
① 用途说明:含糊 vs 具体
❌ 差:
The author used AI to help with this paper.("help"是什么?润色?代写?编辑无法判断,反而引发怀疑。)
✅ 好:
...used GPT-5 in order to improve the readability and correct grammatical errors of the English text in the Discussion section.(限定了模型、用途、作用范围——一眼可核查,落在"语言润色"这一被允许的范畴内。)
② 责任归属:把锅甩给 AI vs 人类担责
❌ 差:
Any errors in this manuscript may be attributed to the AI tool used.(把错误推给工具,等于自认没有尽到复审义务,反而坐实失责。)
✅ 好:
After using this tool, the author reviewed and edited the content as needed and takes full responsibility for the content of the publication.(明确人类作者承担最终责任,这正是出版商要求的核心句式。)
③ 披露范围:只报润色、瞒报实质性使用 vs 边界清晰
❌ 差:声明只写"用于语言润色",但实际上还让 AI 起草了文献综述的整段论证。 (一旦被发现,性质从"未充分披露"升级为"虚假声明",后果远重于如实上报。)
✅ 好:把 AI 实际触及的每个环节分别说清——"语言润色"如实报为润色,"协助梳理文献脉络"如实报为辅助梳理,且这些内容均经人工核实、重写与担责。
④ 把"未使用 AI"也写清楚
如果你确实没有使用 AI,也建议在被要求声明时主动写明(如 No generative AI tools were used in the preparation of this manuscript.),而不是留空——留空会让审核系统无法区分"没用"与"用了不报"。
一句话原则
如实披露永远比隐瞒安全。 出版商惩罚的不是"用了 AI",而是"用了却不说、或说了假话"。声明写得越具体、越可核查,你越安全。
🚀 实操 C:主流期刊 AI 政策速查表(2026)
不同期刊政策不同,投稿前务必查目标刊官网最新版。下面是常见出版社的要点(声明的具体位置详见第 41 课,完整版见 Journal_AI_Policy_Quickref.md):
| 出版社 / 期刊 | AI 政策要点 | 声明位置 |
|---|---|---|
| Nature / Springer | 允许 AI 辅助;禁列为作者;禁 AI 生成数据图;须披露 | Methods |
| Science | 禁 AI 生成正文文本;允许润色但须披露 | 致谢 |
| Elsevier | 投稿须填写 AI 使用声明 | 参考文献前独立 "Declaration of Generative AI" 小节 |
| IEEE | 允许 AI 辅助;禁 AI 生成核心内容 | 致谢 |
| 国内 CSSCI / 核心 | 多数要求声明是否使用 AI | 投稿信(+ 致谢注明) |
⚠️ 政策约半年一变,以投稿时目标期刊官网 "Editorial Policies / Guide for Authors" 原文为准。
🚀 实操 D:投稿前 AI 合规自检单
提交前对照这 8 条,全部能打勾才算合规:
- [ ] 1. 我没有把 AI 列为作者
- [ ] 2. AI 辅助的部分我都据实披露了(按目标期刊要求的位置,见上表 / 第 41 课)
- [ ] 3. 研究设计、数据解释、学术结论由我做出,不是 AI 代写
- [ ] 4. 上传 AI 的数据已脱敏(无姓名/身份证/电话/未公开数据)
- [ ] 5. AI 给的每条引用我都回数据库核实过(无虚构 DOI)
- [ ] 6. AI 给的统计/事实我都自己复核过
- [ ] 7. 我对论文全部内容负完全责任,能口头答辩每一段
- [ ] 8. 我已查目标期刊官网最新 AI policy 并据此声明
把这张表存进个人工具箱,每次投稿前过一遍。
⚠️ 本课常见误区
学员在合规这件事上最容易踩的几个坑,几乎都来自"想省事"或"想模糊过关"。逐条对照纠正:
| 常见错误 | 为什么是错的 | 正确做法 |
|---|---|---|
| 把 AI 代写当原创:让 AI 起草整段论证/结论,自己只改几个词就署名提交 | 实质性内容由 AI 生成而隐瞒,构成学术不端;一旦答辩追问,无法对每段负责 | AI 只做辅助(润色、查错、整理思路),研究设计/数据解释/结论必须由你做出并能口头答辩(见自检单第 3、7 条) |
| 虚构文献"凑参考":直接采信 AI 给的标题、作者、DOI 不核实 | LLM 会编造看似真实的引用(幻觉),假 DOI 在审稿期被一抓一个准 | 每条引用都回数据库(知网/Web of Science/出版社官网)核实存在性后再用(自检单第 5 条) |
| 敏感数据直接上云:把含姓名/身份证/电话或未公开数据的原始表上传公有云 AI | 公有云可能把输入作为训练语料,构成隐私泄露、违反伦理审查甚至触法 | 先在本地离线按实操 A 脱敏,再上传无害化特征表(自检单第 4 条,脱敏细节见第 9 课) |
| 声明含糊或漏报:只写"used AI to help",或润色之外的使用不报 | 编辑无法核查用途;漏报实质性使用一旦被发现,性质升级为虚假声明 | 限定模型、用途、作用范围,如实覆盖每个使用环节(见上文"写好 vs 写砸") |
| 想把 AI 列为"作者":把 AI 列为 co-author 或在作者栏署名 | 所有主流出版商明令禁止——AI 无法承担学术责任,不具备作者资格 | AI 只能在方法/致谢中作为工具披露,永远不进作者栏(见实操 C 政策表) |
| "反正查不出来"心态:赌审稿不会发现 AI 使用 | 检测工具与编辑审查逐年收紧,且一旦事后被发现可撤稿、记入诚信档案 | 把"如实披露"当默认动作——披露的成本远低于被查实的代价 |
🔁 如果 AI 给的合规文本仍不满意,怎么迭代
本课的 AI 使用声明、数据可得性说明、方法学披露,首版往往不会一步到位——常见问题是"太笼统、漏了某个使用环节、或套话太多"。这时不要手动从头重写,用第 2 课的负向纠偏与迭代法继续逼近:
- 指出具体不满意点(负向纠偏):不要只说"再改改",而要说"用途写得太笼统,请把模型名、具体用途、作用到哪一节都补上"或"这版漏了文献梳理这一使用环节,请如实补进去"。(负向纠偏的写法见 第 2 课。)
- 给正向锚点:把上文"✅ 好"的句式作为范例贴给 AI,要求"照这个粒度和担责口径改写"。
- 逐环节自查再让它补全:先对照本课"常见误区表"和"合规自检单"找出缺口,再把缺口作为明确指令交回给 AI,比泛泛要求"写得更合规"有效得多。
- 涉及来源/隐私的硬约束要写进提示词:例如"不得编造数据库名称或文献""个人信息一律用占位符",避免 AI 在迭代中又把敏感内容或虚构信息写回来。
原则:合规文本宁可多迭代两轮,也不要带着含糊或漏报的版本去投稿。
⚖️ 方法的边界与局限:脱敏和声明"做不到什么"
本课的两件工具——脱敏与合规声明——都很有用,但都不是一劳永逸的保险。诚实地知道它们的失效边界,才能避免"做了就高枕无忧"的错觉:
脱敏(匿名化)的局限
- 删名字 ≠ 不可识别。 即使去掉了姓名、电话,若干"准标识符"组合在一起仍可能重新定位到个人——例如 Case A 中
Age加上罕见的得分模式、罕见的人口学组合,在小样本里可能唯一对应某位受访者。真正的去标识要考虑这种"组合可识别"风险,而不只是删几列。 - 本地脱敏挡不住协议层面的违规。 如 Case B,省级数据本身不含隐私,但若原始记录来自付费数据库,脱敏并不能解除"协议禁止整库再分发"的约束——这是授权问题,不是隐私问题,脱敏对它无效。
- 脱敏改变不了"是否该上传"的判断。 涉密、未公开专利、签了保密协议的横向数据,正确答案往往是根本不要上云,而不是"脱敏后上传"。脱敏是降低风险的手段,不是绕过禁令的通行证。
合规声明的局限
- 声明只解决"诚信透明",不替你解决"质量"。 如实写明用了 AI,并不会让一段 AI 代写、未经你真正消化的论证变得可靠;可复核性保住了,学术价值仍取决于你本人。
- 政策在动、检测会误判。 出版商政策约半年一变(实操 C 已标注),AI 检测工具也存在误报——把人写的判成 AI、或反之。所以声明要落在可核查的事实上(用了什么模型、改了哪节),而不是去赌检测器的脾气。
- "未使用 AI"的声明同样要诚实。 为了省事写"未使用",却实际用了,一旦被发现是虚假声明,比如实上报严重得多。
准确性与伦理的总红线
无论脱敏多干净、声明多规范,有三件事任何工具都替代不了你:① 每条 AI 给的引用与统计必须由你回权威来源核实(模型无法分辨自己是否在幻觉);② 研究设计、数据解释、结论必须由你做出并能逐段答辩;③ 真实主体的隐私与数据授权必须在上传前就守住。守不住这三条,再合规的声明也救不了一篇站不住的论文。
🛠️ 配套模板(课程模板包)
本课配套以下已发布模板(在 Course_Materials/Templates_and_Checklists/,由运营随课发放):
- 📄
AI_Usage_Declaration_Templates.md—— AI 使用声明万能模板(润色 / 数据 / 未使用三场景) - 📄
Journal_AI_Policy_Quickref.md—— 主流期刊 AI 政策速查表(完整版) - 📄
Data_Anonymization_SOP.md—— 数据脱敏标准操作流程(配合本课实操 A 使用)
📦 本课交付物
按本节实操任务完成并提交以下内容,提交 AI 初审,按 Module_Rubrics.md 对应维度评分:
- [ ] 脱敏样例:取一段含敏感信息的文本,按实操 A 做"脱敏前 → 脱敏后"对照
- [ ] AI 使用声明终稿:用实操 B 模板写好一段,并标注它该放在你目标期刊的哪个位置
- [ ] AI 合规自检单:实操 D 的 8 项逐项打钩(截图或勾选表)
- [ ] 目标期刊政策摘要:用 1 段话总结你目标期刊对 AI 使用的 3 条要求 + 声明位置
- [ ] AI 协作日志:至少 1 段完整的"任务描述 → AI 输出 → 人工修正"对话记录
🏁 本章小结
把本课要点凝练成一条主线与五个支点,供你复习时按图索骥:
一条主线:学术诚信的内核是可复核——他人能据你交代的方法、数据、工具来源复现并检验你的工作。AI 时代的所有合规要求,都是为了不在这条可复核链上留下无法追溯的黑箱。
五个支点:
- 原理先于规则:公有云模型可能把你的输入用于训练、且没有独占保险箱,所以脱敏必须本地、离线、上传前完成;模型是按概率续写、不接事实库,所以会"幻觉"出真假难辨的文献——这两条行为事实,解释了本课几乎所有规则。
- 认清红线类型:把每次 AI 使用对照"学术不端类型表"自问会落到哪一行;其中伪造(信幻觉文献、把 AI 粗筛谎称人工标注)与不当署名(把 AI 列为作者)最易踩、后果最重。
- 分学科守不同的点:Case A 的风险在个人隐私(脱敏 + 组合可识别风险);Case B 在数据来源与授权(Data Availability、协议是否允许再分发);Case C 在标注一致性的如实披露(人工评分必须真的是人工)。
- 声明要如实、具体、可核查:限定模型 / 用途 / 作用范围,覆盖每个使用环节,人类作者担全责;如实披露永远比隐瞒安全,未使用也要照实写明。
- 知道工具的边界:脱敏挡不住授权违规、也不等于不可识别;声明保住透明却保不了质量;引用核实、结论担责、上传前守隐私这三条,任何工具都替代不了你。
✅ 自测清单(投稿前过一遍)
- [ ] 我记住了在向任何网页大模型提交数据前,先自检有没有带入敏感个人/企业隐私。
- [ ] 我能说清"为什么脱敏必须在本地离线完成、为什么 AI 给的引用必须逐条核实"——而不只是记住结论。
- [ ] 我明白了 AI 不应(也不被允许)被列为任何学术文章的共同作者 (Co-author),它只是一个工具。
- [ ] 我掌握了在投稿时如何用规范的官方话术,如实声明自己使用过 AI 进行文字加工。
- [ ] 我知道主流期刊(Nature / Science / Elsevier / IEEE / 国内核心)的 AI 政策要点与声明位置各不相同,会以目标刊官网为准。
- [ ] 我会用本课的 8 项合规自检单在每次投稿前过一遍。
🧠 思考与练习
下面 4 题用于把本课概念真正用起来(区别于交付物,重在"判断与说理")。每题附"好答案要点",供你自评。
练习 1(原理判断) 有同学说:"我不怕,我会在对话框里先打出原始名单,再让 AI 把名字都换成代号,这样上传的就脱敏了。" 请指出这个做法的根本错误,并用本课的模型行为原理解释为什么它无效。
好答案要点:抓住"按下发送即已上传进上下文窗口/对方系统"这一点——原始敏感名单在 AI 替换之前就已经离开了本地、失去独占控制;脱敏的因果顺序必须是"先本地处理、后上传",让联网 AI 来脱敏在逻辑上自相矛盾。
练习 2(分学科迁移) Case A(心理问卷,N=500,含 Age、各题项得分)与 Case B(经管面板,30 省 × 10 年,来自付费数据库)在"能不能/怎么上传给 AI"上的主要风险点完全不同。请分别指出两者的核心风险,并各给一条对应的处置动作。
好答案要点:Case A 的风险是个人隐私 + 组合可识别(即便删名,
Age加罕见得分模式仍可能定位个人)→ 处置:本地去标识、用Subject_001代号、警惕准标识符组合;Case B 的风险是数据来源授权/可追溯(付费数据库协议多禁止整库再分发)→ 处置:只上传已聚合的省级指标、写清 Data Availability、不导出逐条原始记录。能点出"隐私 vs 授权是两类问题、脱敏对授权无效"即为佳。
练习 3(声明改写) 某投稿信里写道:The author used AI to help with this paper, and any remaining errors may be due to the tool. 请指出它违反了本课哪两条原则,并改写成一段合规声明(中文说明思路即可,可参照实操 B 的模板粒度)。
好答案要点:两处问题——① 用途含糊("help"未限定模型/用途/作用范围,编辑无法核查);② 责任倒置(把错误推给工具 = 自认失责)。改写需:限定模型与用途(如"用 GPT-5 润色 Discussion 部分英文语法")、明确人类作者已复审并对全文负完全责任、并按目标刊要求放到正确位置。
练习 4(边界辨析) 在 Case C(300 条 × 3 模型,3 名标注者 1–5 分)中,研究者为赶进度,让 AI 先对 300 条做了一轮"粗评分",再请标注者在 AI 评分基础上微调,最后报告了三名标注者的"高一致性"。请判断:这只是"未充分披露",还是更严重的问题?为什么?
好答案要点:这是伪造/数据造假级别的问题,而非单纯漏报。把 AI 的中间判断混入并宣称是"多人独立标注的高一致性",使一致性指标失真、误导读者对结论可信度的判断;性质比"未披露润色"严重得多。正确做法是:人工评分必须真正独立产生,AI 若仅用于去重/粗筛须如实声明为辅助、且不计入人工一致性。
