算法新闻与人工新闻区分度检验

Abstract

本研究通过问卷调查方式采集795份有效样本，系统探索受众对ChatGPT与文心一言生成新闻的识别能力及其影响因素。研究发现：受众对AI生成新闻的识别能力受教育程度、专业背景、媒体使用习惯、算法素养等因素显著影响。高等教育群体、互联网高频使用者、算法素养较高的受众表现出更强的识别能力。其中，21-30岁群体识别能力最强，呈现反直觉的年龄效应。算法素养对识别正确率具有高度显著影响（p<0.001），是提升公众鉴别能力的关键因素。本研究为理解公众对AI技术应用认知提供了实证依据，为AI新闻内容优化、受众教育及监管政策制定提供了科学参考。

关键词：算法新闻；人工新闻；区分度检验；回归分析；算法素养

一、研究背景与方法

随着人工智能技术的快速发展，ChatGPT、文心一言等大语言模型已具备生成高质量新闻内容的能力。根据Reuters Institute的报告，全球已有超过三分之一的主要新闻机构开始探索AI技术辅助内容生产。这一趋势引发了一个核心问题：普通受众能否准确区分算法生成与人工撰写的新闻？

这一问题的重要性不仅关乎新闻传播的公信力，更涉及AI内容监管、公众媒介素养、以及"深度伪造"（Deepfake）信息的治理等多个重要议题。如果受众无法有效识别AI生成内容，那么信息生态系统的可信度将面临严峻挑战。

795

Valid Sample

Test Articles

AI Models

Occupations

1.1 研究问题

本研究聚焦以下核心问题：

受众能否有效区分AI生成与人工撰写的新闻内容？
哪些因素影响受众的识别能力？
不同AI模型（ChatGPT vs. 文心一言）生成内容的可识别度是否存在差异？
算法素养如何影响受众的AI内容识别能力？

1.2 研究设计

本研究采用问卷调查法，选取9篇新闻作为测试材料。其中，ChatGPT生成3篇、文心一言生成3篇、人工撰写3篇。新闻选题涵盖社会新闻、科技新闻、经济新闻等类别，以控制题材效应。

测量方式：受访者对每篇新闻进行1-10分评分。1分表示"一定是算法生成"，10分表示"一定是人工撰写"。评分越高，表示受访者越倾向于认为该新闻为人工撰写。研究同时记录受访者的人口学特征、媒体使用习惯、AI认知水平等信息。

1.3 分析方法

数据分析采用多元线性回归和单因素方差分析。回归分析考察各因素对新闻评分的影响方向和强度；方差分析检验不同群体间识别正确率的差异。显著性水平设定为α=0.05。对于多重比较问题，采用Bonferroni校正。

此外，研究采用熵权法对算法素养各维度进行客观赋权，构建综合算法素养指数。卡方检验用于分析分类变量间的关联性。

二、样本特征

本研究通过在线问卷平台发放，经数据清洗后获得有效样本795份。样本覆盖不同年龄、教育程度、职业背景的受众群体。以下对样本的人口学特征进行描述性分析。

2.1 人口学特征

图 1

样本人口学特征分布

性别、年龄与教育程度分布情况

样本概况：女性受访者占比69.3%（551人），男性占比30.7%（244人）。年龄集中于21-40岁（占比73.2%），其中21-30岁占比37.2%，31-40岁占比36.0%。教育程度以大学本科为主（558人，70.2%），研究生及以上学历占比13.5%（博士8人、研究生99人）。

2.2 职业与专业分布

职业分布方面，在校学生（203人，25.5%）和企业职员（233人，29.3%）为主要群体，其次为企业管理者（46人）、个体户（38人）、党政机关工作者（30人）等。样本覆盖19个职业类别，具有一定的职业多样性。

专业背景方面，管理学（256人，32.2%）、工学（107人，13.5%）、经济学（105人，13.2%）为前三大专业。新闻传播学相关专业占比7.4%（59人），这对于考察专业背景对AI新闻识别能力的影响提供了基础。

2.3 AI认知与使用情况

受访者对AI大模型的认知程度整体较高。"比较了解"（440人，55.3%）和"非常了解"（56人，7.0%）合计占比62.3%，仅1.1%（9人）表示"完全不了解"。这表明样本整体对AI技术具有一定认知基础。

图 2

AI大模型使用情况

使用频率与主要目的分布

数据来源：问卷调查（n=795）。使用目的可多选。

在使用频率方面，"一周几次"占比最高（330人，41.5%），"一月几次"次之（235人，29.6%），"几乎每天"使用AI大模型的受访者占比13.5%（107人）。在AI使用目的上，89.7%的受访者表示使用AI"辅助完成工作相关内容"，56.2%表示用于"辅助阅读文献、完成课程任务"。这表明AI大模型已在受访者群体中得到广泛应用，且主要集中于工作与学习场景。

三、新闻识别结果

针对9篇测试新闻，受访者需判断每篇新闻是算法生成还是人工撰写。评分范围为1-10分，得分越高表示受访者越倾向于认为该新闻为人工撰写。本节对评分结果进行描述性分析。

图 3

各新闻评分均值分布

评分均值越低，表示受访者越倾向判断为AI生成

新闻1、4、6为ChatGPT生成（深色）；新闻2、3、5为文心一言生成（红色）；新闻7、8、9为人工撰写（黑色）。虚线为中值5.5分。

核心发现

对于全部9篇新闻，评分均值均处于5.54-6.48区间，略高于中值5.5。这表明受访者整体倾向于认为这些新闻为人工生成，呈现轻微的"人类偏向"（Human Bias）。ChatGPT生成的"美国枪击事件"新闻（新闻4）评分最高（6.43），最容易被误判为人工撰写；文心一言生成的"失踪女童"新闻（新闻3）评分最低（5.54），相对容易被识别为AI生成。

3.1 区分算法新闻的考量因素

受访者在判断新闻是否为算法生成时，主要考量以下因素：

考量因素	选择人数	占比
新闻的风格和语言质量	694	87.3%
新闻的主题和深度	615	77.4%
新闻内容的可信度	341	42.9%
其他因素	36	4.5%

87.3%的受访者将"风格和语言质量"作为区分算法新闻的关键依据，远高于其他因素。这表明受众对新闻的表达方式、文字规范性、语言流畅度等方面有较高敏感度。当AI生成的新闻在语言风格上呈现"机器感"时，受众能够识别。

"主题和深度"（77.4%）是第二重要考量因素。受众会关注新闻是否涉及复杂议题、是否提供深入见解、是否呈现多元视角。AI生成内容在这方面的局限性可能成为识别线索。

四、预调查分析

在正式调查前，研究团队进行了预调查，收集有效问卷130份。预调查采用不同的测量方式：每篇新闻设有明确的"正确答案"（算法生成/人工撰写），可计算受众识别AI新闻的客观正确率。

图 4

预调查：新闻来源识别正确率

正确率越高，表示受众越能准确判断新闻来源

绿色为算法生成新闻（正确识别为算法）；蓝色为人工撰写新闻（正确识别为人工）。正确率=正确判断人数/总人数。

重要发现

算法生成的新闻内容存在明显的"机器感"差异。受访者能清晰分辨部分算法内容（如"基本养老金"报道正确率达76%），但对另一些内容则难以区分（如"失踪女童"报道正确率仅27%）。这一结果证明不同AI模型、不同题材的新闻在"拟人化"程度上存在显著差异，也为AI新闻生成技术的优化提供了方向。

4.1 专业背景与识别能力的卡方检验

预调查通过卡方检验分析了专业背景、教育程度与识别正确率的关系：

检验变量	卡方值(χ²)	自由度	显著性	结论
专业背景 × 总分	227.098	230	0.542	不显著
教育程度 × 总分	21.436	20	0.372	不显著

卡方检验结果显示，专业背景（p=0.542）和教育程度（p=0.372）与识别正确率均无显著关联。然而，这一结果可能受限于预调查样本量较小（n=130），统计检验力不足。正式调查将对此进行更深入的分析。

五、回归分析

为深入探索影响受众识别AI新闻的关键因素，本研究构建了多元线性回归模型。因变量为受众对AI生成新闻的评分（包括ChatGPT新闻评分、文心一言新闻评分、综合评分），自变量包括年龄、教育程度、专业背景、职业、媒体使用习惯、AI认知水平等。回归系数为正表示更倾向判断为人工撰写，为负表示更倾向判断为算法生成。

5.1 年龄的影响

图 5

年龄对ChatGPT新闻评分的影响（回归系数）

参照组：51岁及以上；*表示p<0.05

回归分析显示，相较"51岁及以上"群体，"20岁及以下"（B=1.973, p=0.029）、"31-40岁"（B=1.966, p=0.019）、"41-50岁"（B=2.168, p=0.025）群体均更倾向于给予较高评分——即更倾向认为ChatGPT生成的新闻为人工撰写。

反直觉发现

出人意料的是，"21-30岁"群体表现出最强的识别能力。相较"31-40岁"群体，"21-30岁"群体对算法新闻的综合评分显著更低（B=-1.523, p=0.022），即更倾向正确识别出AI生成内容。这一群体可能是AI技术的核心用户，对AI生成特征更为敏感。这一发现挑战了"年轻人更容易被AI欺骗"的普遍假设。

5.2 教育程度的影响

教育程度对识别能力的影响呈现明显梯度。下表展示各教育程度群体相较参照组（大学专科）的回归系数：

教育程度	回归系数(B)	标准误(SE)	显著性	解读
初中	6.678	3.356	0.048	更倾向判断为人工
中专/技校	5.412	2.654	0.043	更倾向判断为人工
普通高中	4.440	1.924	0.022	更倾向判断为人工
大学本科	0.304	0.921	0.742	无显著差异
研究生	1.123	1.180	0.340	无显著差异
博士	-0.863	2.745	0.753	无显著差异

数据显示，中等教育群体（中专/技校、初中、高中）更倾向于将AI新闻误判为人工撰写，回归系数在4.44-6.68之间（p<0.05）。而高等教育群体（本科、研究生、博士）与参照组无显著差异，判断更为准确。这表明教育程度对AI内容识别能力有显著正向影响。

5.3 专业背景的影响

图 6

专业背景对算法新闻评分的影响

参照组：未上大学；负值表示更倾向识别为AI生成

相较"未上大学"群体，多个专业背景群体表现出更强的AI新闻识别能力（回归系数为负）：

教育学专业：识别能力最强（B=-7.620, p<0.001），可能与专业训练中对文本分析、语言风格的要求有关
工学专业：B=-5.209, p<0.001，对技术特征敏感度较高
法学专业：B=-5.420, p=0.007，逻辑分析能力可能发挥作用
新闻传播学专业：B=-4.766, p=0.003，专业背景带来识别优势
语言文学专业：B=-4.651, p<0.001，对语言风格敏感度高

专业差异的深层解读

教育学、工学、法学、新闻传播学、语言文学等专业群体识别能力较强，可能与以下因素相关：（1）专业训练中对文本逻辑、语言风格的敏感度培养；（2）对技术原理的理解（工学）；（3）批判性思维的训练（法学、新闻学）；（4）语言美学素养（文学）。值得注意的是，管理学、经济学专业群体识别能力相对较弱，原因有待进一步研究。

5.4 媒体使用习惯的影响

媒体使用习惯对AI新闻识别能力有显著影响，这一发现具有重要的政策启示意义。

图 7-a

互联网使用频率的影响

参照组：从不使用

图 7-b

纸质媒体使用频率的影响

参照组：非常频繁使用

互联网使用频率与识别能力呈显著正相关。相较"从不使用互联网"的群体，所有其他频次类别（很少、有时、经常、非常频繁）的群体均更倾向于正确识别AI生成新闻（回归系数均为负值，p<0.05）。高频互联网使用者可能更多接触AI生成内容，对其特征更为熟悉。

相反，纸质媒体使用频率与识别能力呈负相关。相较"非常频繁使用纸质媒体"的群体，"有时"和"经常"使用的群体更倾向于将AI新闻误判为人工撰写（回归系数为正，p<0.05）。这可能是因为纸质媒体使用者接触数字化内容的频率较低，对AI生成特征不够敏感。

这一发现揭示了"数字鸿沟"对AI素养的影响：传统媒体使用者可能面临更高的"AI欺骗风险"。在AI内容泛滥的时代，如何保护这一群体的知情权，值得政策制定者关注。

六、方差分析（ANOVA）

为进一步验证各因素对AI新闻识别正确率的影响，研究进行了单因素方差分析。因变量为受众识别AI新闻的正确率，自变量包括人口学特征、媒体使用习惯、AI认知水平等。

6.1 ChatGPT新闻识别正确率的影响因素

影响因素	F值	自由度	显著性	效应解读
算法素养	2.375	86, 708	<0.001	高度显著
AI满意度	2.510	25, 769	<0.001	高度显著
电视使用情况	1.827	24, 770	0.006	显著
报纸杂志使用情况	1.748	22, 772	0.010	显著
境外媒体接触	1.760	24, 770	0.009	显著

6.2 算法素养的测量

算法素养是本研究的关键变量之一，通过五个维度进行测量。研究采用熵权法进行客观赋权，避免主观赋权的偏差：

图 8

算法素养维度权重分布（熵权法）

各维度在算法素养构成中的相对重要性

算法素养的五个维度中，"理解算法概念与术语"权重最高（23.4%），其次是"对算法逻辑进行思考"（21.2%）。这表明理论知识与批判性思维是算法素养的核心组成部分。"调整推送内容"权重最低（17.8%），说明操作层面的能力相对次要。

关键发现

算法素养对AI新闻识别正确率有高度显著影响（F=2.375, p<0.001）。这意味着提升公众的算法素养——包括理解算法原理、培养批判性思维、保护个人信息——是增强其AI内容识别能力的有效途径。政策制定者应考虑将算法素养纳入媒介素养教育体系。

6.3 综合识别正确率的影响因素

对于综合识别正确率（同时识别ChatGPT和文心一言新闻），除上述共性因素外，以下变量也具有显著影响：

影响因素	F值	显著性	主要发现
职业	1.382	0.049	在校学生、自由职业者识别能力较强
教育程度	1.496	0.019	高等教育群体优于中等教育群体
互联网使用情况	2.493	<0.001	高频使用者识别能力更强
对互联网的偏好	1.755	0.028	偏好互联网者识别能力更强

七、结论与建议

本研究通过对795份有效问卷的分析，系统考察了受众对AI生成新闻的识别能力及其影响因素。研究发现，AI新闻识别能力并非均匀分布，而是受到多种因素的复杂影响。以下总结核心结论并提出政策建议。

7.1 核心结论

1 教育程度与识别能力正相关

高等教育群体（本科、研究生）在识别AI新闻方面表现更优，中专/技校与初中群体误判率较高，回归系数达4.44-6.68。教育不仅提供知识，更培养批判性思维，这对识别AI内容至关重要。中等教育群体应是AI素养教育的重点对象。

2 媒体使用习惯影响显著

互联网高频使用者更善于识别AI生成新闻，而纸质媒体使用者识别能力相对较弱。这揭示了数字鸿沟对AI素养的影响：传统媒体使用者可能面临更高的"AI欺骗风险"。在AI内容日益普及的背景下，如何保护这一群体的知情权，值得政策关注。

3 算法素养是关键因素

算法素养对识别正确率有高度显著影响（F=2.375, p<0.001）。提升公众的算法素养——包括理解算法原理、识别算法影响、保护个人信息——是应对AI内容泛滥的核心策略。其中，理论理解（23.4%）和批判思维（21.2%）是算法素养的核心维度。

4 "21-30岁"群体识别能力最强

这一反直觉发现表明，AI技术的核心用户群体可能对AI生成特征更为敏感。他们既是AI的高频使用者，也是最佳的"AI内容检测者"。这一发现挑战了"年轻人更容易被AI欺骗"的普遍假设，对于AI素养教育的人群定位具有启示意义。

7.2 政策建议

基于上述发现，本研究提出以下建议：

第一，加强算法素养教育。建议在中小学信息技术课程中增加算法原理、AI特征识别等内容。针对中等教育程度群体开展专项培训，可考虑通过社区教育、职业培训等渠道进行。教育部门应考虑将算法素养纳入媒介素养教育体系，编写相关教材，培训师资力量。

第二，建立AI内容标识机制。新闻平台应建立AI生成内容的标识制度，帮助受众辨别内容来源。对于新闻类AI应用，可考虑强制要求标注"AI辅助生成"或"AI原创"。标识机制应有统一标准，避免平台各自为政。

第三，关注数字弱势群体。研究发现纸质媒体使用者和中等教育群体识别能力较弱，建议通过社区教育、老年大学、农村文化活动中心等渠道，开展针对性的AI素养培训。这部分群体可能是AI虚假信息的"易感人群"，应予以特别关注。

第四，优化AI新闻生成策略。研究发现不同AI模型、不同题材的新闻在"拟人化"程度上存在差异。建议AI开发者在新闻生成过程中加强语言风格优化，提高内容透明度，主动标识AI生成痕迹，而非追求"以假乱真"。

本研究为理解公众对AI技术应用认知提供了实证依据，为AI新闻内容优化、受众教育及监管政策制定提供了科学参考。随着AI技术的持续发展，相关研究需要持续跟踪，以应对不断变化的挑战。未来研究可进一步探讨AI生成内容对新闻公信力的长期影响，以及不同文化背景下受众识别能力的差异。