Data Analysis Report

算法新闻与人工新闻区分度检验

基于ChatGPT与文心一言生成新闻的受众识别能力实证研究

Sample Size 795 Valid Responses
Methodology Regression Analysis · ANOVA · Chi-square Test
Affiliation Shantou University
Abstract

本研究通过问卷调查方式采集795份有效样本,系统探索受众对ChatGPT与文心一言生成新闻的识别能力及其影响因素。研究发现:受众对AI生成新闻的识别能力受教育程度、专业背景、媒体使用习惯、算法素养等因素显著影响。高等教育群体、互联网高频使用者、算法素养较高的受众表现出更强的识别能力。其中,21-30岁群体识别能力最强,呈现反直觉的年龄效应。算法素养对识别正确率具有高度显著影响(p<0.001),是提升公众鉴别能力的关键因素。本研究为理解公众对AI技术应用认知提供了实证依据,为AI新闻内容优化、受众教育及监管政策制定提供了科学参考。

关键词:算法新闻;人工新闻;区分度检验;回归分析;算法素养

一、研究背景与方法

随着人工智能技术的快速发展,ChatGPT、文心一言等大语言模型已具备生成高质量新闻内容的能力。根据Reuters Institute的报告,全球已有超过三分之一的主要新闻机构开始探索AI技术辅助内容生产。这一趋势引发了一个核心问题:普通受众能否准确区分算法生成与人工撰写的新闻?

这一问题的重要性不仅关乎新闻传播的公信力,更涉及AI内容监管、公众媒介素养、以及"深度伪造"(Deepfake)信息的治理等多个重要议题。如果受众无法有效识别AI生成内容,那么信息生态系统的可信度将面临严峻挑战。

795
Valid Sample
9
Test Articles
2
AI Models
19
Occupations

1.1 研究问题

本研究聚焦以下核心问题:

  1. 受众能否有效区分AI生成与人工撰写的新闻内容?
  2. 哪些因素影响受众的识别能力?
  3. 不同AI模型(ChatGPT vs. 文心一言)生成内容的可识别度是否存在差异?
  4. 算法素养如何影响受众的AI内容识别能力?

1.2 研究设计

本研究采用问卷调查法,选取9篇新闻作为测试材料。其中,ChatGPT生成3篇、文心一言生成3篇、人工撰写3篇。新闻选题涵盖社会新闻、科技新闻、经济新闻等类别,以控制题材效应。

测量方式:受访者对每篇新闻进行1-10分评分。1分表示"一定是算法生成",10分表示"一定是人工撰写"。评分越高,表示受访者越倾向于认为该新闻为人工撰写。研究同时记录受访者的人口学特征、媒体使用习惯、AI认知水平等信息。

1.3 分析方法

数据分析采用多元线性回归和单因素方差分析。回归分析考察各因素对新闻评分的影响方向和强度;方差分析检验不同群体间识别正确率的差异。显著性水平设定为α=0.05。对于多重比较问题,采用Bonferroni校正。

此外,研究采用熵权法对算法素养各维度进行客观赋权,构建综合算法素养指数。卡方检验用于分析分类变量间的关联性。

二、样本特征

本研究通过在线问卷平台发放,经数据清洗后获得有效样本795份。样本覆盖不同年龄、教育程度、职业背景的受众群体。以下对样本的人口学特征进行描述性分析。

2.1 人口学特征

图 1
样本人口学特征分布
性别、年龄与教育程度分布情况
样本概况:女性受访者占比69.3%(551人),男性占比30.7%(244人)。年龄集中于21-40岁(占比73.2%),其中21-30岁占比37.2%,31-40岁占比36.0%。教育程度以大学本科为主(558人,70.2%),研究生及以上学历占比13.5%(博士8人、研究生99人)。

2.2 职业与专业分布

职业分布方面,在校学生(203人,25.5%)和企业职员(233人,29.3%)为主要群体,其次为企业管理者(46人)、个体户(38人)、党政机关工作者(30人)等。样本覆盖19个职业类别,具有一定的职业多样性。

专业背景方面,管理学(256人,32.2%)、工学(107人,13.5%)、经济学(105人,13.2%)为前三大专业。新闻传播学相关专业占比7.4%(59人),这对于考察专业背景对AI新闻识别能力的影响提供了基础。

2.3 AI认知与使用情况

受访者对AI大模型的认知程度整体较高。"比较了解"(440人,55.3%)和"非常了解"(56人,7.0%)合计占比62.3%,仅1.1%(9人)表示"完全不了解"。这表明样本整体对AI技术具有一定认知基础。

图 2
AI大模型使用情况
使用频率与主要目的分布

数据来源:问卷调查(n=795)。使用目的可多选。

在使用频率方面,"一周几次"占比最高(330人,41.5%),"一月几次"次之(235人,29.6%),"几乎每天"使用AI大模型的受访者占比13.5%(107人)。在AI使用目的上,89.7%的受访者表示使用AI"辅助完成工作相关内容",56.2%表示用于"辅助阅读文献、完成课程任务"。这表明AI大模型已在受访者群体中得到广泛应用,且主要集中于工作与学习场景。

三、新闻识别结果

针对9篇测试新闻,受访者需判断每篇新闻是算法生成还是人工撰写。评分范围为1-10分,得分越高表示受访者越倾向于认为该新闻为人工撰写。本节对评分结果进行描述性分析。

图 3
各新闻评分均值分布
评分均值越低,表示受访者越倾向判断为AI生成

新闻1、4、6为ChatGPT生成(深色);新闻2、3、5为文心一言生成(红色);新闻7、8、9为人工撰写(黑色)。虚线为中值5.5分。

核心发现

对于全部9篇新闻,评分均值均处于5.54-6.48区间,略高于中值5.5。这表明受访者整体倾向于认为这些新闻为人工生成,呈现轻微的"人类偏向"(Human Bias)。ChatGPT生成的"美国枪击事件"新闻(新闻4)评分最高(6.43),最容易被误判为人工撰写;文心一言生成的"失踪女童"新闻(新闻3)评分最低(5.54),相对容易被识别为AI生成。

3.1 区分算法新闻的考量因素

受访者在判断新闻是否为算法生成时,主要考量以下因素:

考量因素 选择人数 占比
新闻的风格和语言质量 694 87.3%
新闻的主题和深度 615 77.4%
新闻内容的可信度 341 42.9%
其他因素 36 4.5%

87.3%的受访者将"风格和语言质量"作为区分算法新闻的关键依据,远高于其他因素。这表明受众对新闻的表达方式、文字规范性、语言流畅度等方面有较高敏感度。当AI生成的新闻在语言风格上呈现"机器感"时,受众能够识别。

"主题和深度"(77.4%)是第二重要考量因素。受众会关注新闻是否涉及复杂议题、是否提供深入见解、是否呈现多元视角。AI生成内容在这方面的局限性可能成为识别线索。

四、预调查分析

在正式调查前,研究团队进行了预调查,收集有效问卷130份。预调查采用不同的测量方式:每篇新闻设有明确的"正确答案"(算法生成/人工撰写),可计算受众识别AI新闻的客观正确率。

图 4
预调查:新闻来源识别正确率
正确率越高,表示受众越能准确判断新闻来源

绿色为算法生成新闻(正确识别为算法);蓝色为人工撰写新闻(正确识别为人工)。正确率=正确判断人数/总人数。

重要发现

算法生成的新闻内容存在明显的"机器感"差异。受访者能清晰分辨部分算法内容(如"基本养老金"报道正确率达76%),但对另一些内容则难以区分(如"失踪女童"报道正确率仅27%)。这一结果证明不同AI模型、不同题材的新闻在"拟人化"程度上存在显著差异,也为AI新闻生成技术的优化提供了方向。

4.1 专业背景与识别能力的卡方检验

预调查通过卡方检验分析了专业背景、教育程度与识别正确率的关系:

检验变量 卡方值(χ²) 自由度 显著性 结论
专业背景 × 总分 227.098 230 0.542 不显著
教育程度 × 总分 21.436 20 0.372 不显著

卡方检验结果显示,专业背景(p=0.542)和教育程度(p=0.372)与识别正确率均无显著关联。然而,这一结果可能受限于预调查样本量较小(n=130),统计检验力不足。正式调查将对此进行更深入的分析。

五、回归分析

为深入探索影响受众识别AI新闻的关键因素,本研究构建了多元线性回归模型。因变量为受众对AI生成新闻的评分(包括ChatGPT新闻评分、文心一言新闻评分、综合评分),自变量包括年龄、教育程度、专业背景、职业、媒体使用习惯、AI认知水平等。回归系数为正表示更倾向判断为人工撰写,为负表示更倾向判断为算法生成。

5.1 年龄的影响

图 5
年龄对ChatGPT新闻评分的影响(回归系数)
参照组:51岁及以上;*表示p<0.05

回归分析显示,相较"51岁及以上"群体,"20岁及以下"(B=1.973, p=0.029)、"31-40岁"(B=1.966, p=0.019)、"41-50岁"(B=2.168, p=0.025)群体均更倾向于给予较高评分——即更倾向认为ChatGPT生成的新闻为人工撰写。

反直觉发现

出人意料的是,"21-30岁"群体表现出最强的识别能力。相较"31-40岁"群体,"21-30岁"群体对算法新闻的综合评分显著更低(B=-1.523, p=0.022),即更倾向正确识别出AI生成内容。这一群体可能是AI技术的核心用户,对AI生成特征更为敏感。这一发现挑战了"年轻人更容易被AI欺骗"的普遍假设。

5.2 教育程度的影响

教育程度对识别能力的影响呈现明显梯度。下表展示各教育程度群体相较参照组(大学专科)的回归系数:

教育程度 回归系数(B) 标准误(SE) 显著性 解读
初中 6.678 3.356 0.048 更倾向判断为人工
中专/技校 5.412 2.654 0.043 更倾向判断为人工
普通高中 4.440 1.924 0.022 更倾向判断为人工
大学本科 0.304 0.921 0.742 无显著差异
研究生 1.123 1.180 0.340 无显著差异
博士 -0.863 2.745 0.753 无显著差异

数据显示,中等教育群体(中专/技校、初中、高中)更倾向于将AI新闻误判为人工撰写,回归系数在4.44-6.68之间(p<0.05)。而高等教育群体(本科、研究生、博士)与参照组无显著差异,判断更为准确。这表明教育程度对AI内容识别能力有显著正向影响。

5.3 专业背景的影响

图 6
专业背景对算法新闻评分的影响
参照组:未上大学;负值表示更倾向识别为AI生成

相较"未上大学"群体,多个专业背景群体表现出更强的AI新闻识别能力(回归系数为负):

  • 教育学专业:识别能力最强(B=-7.620, p<0.001),可能与专业训练中对文本分析、语言风格的要求有关
  • 工学专业:B=-5.209, p<0.001,对技术特征敏感度较高
  • 法学专业:B=-5.420, p=0.007,逻辑分析能力可能发挥作用
  • 新闻传播学专业:B=-4.766, p=0.003,专业背景带来识别优势
  • 语言文学专业:B=-4.651, p<0.001,对语言风格敏感度高
专业差异的深层解读

教育学、工学、法学、新闻传播学、语言文学等专业群体识别能力较强,可能与以下因素相关:(1)专业训练中对文本逻辑、语言风格的敏感度培养;(2)对技术原理的理解(工学);(3)批判性思维的训练(法学、新闻学);(4)语言美学素养(文学)。值得注意的是,管理学、经济学专业群体识别能力相对较弱,原因有待进一步研究。

5.4 媒体使用习惯的影响

媒体使用习惯对AI新闻识别能力有显著影响,这一发现具有重要的政策启示意义。

图 7-a
互联网使用频率的影响
参照组:从不使用
图 7-b
纸质媒体使用频率的影响
参照组:非常频繁使用

互联网使用频率与识别能力呈显著正相关。相较"从不使用互联网"的群体,所有其他频次类别(很少、有时、经常、非常频繁)的群体均更倾向于正确识别AI生成新闻(回归系数均为负值,p<0.05)。高频互联网使用者可能更多接触AI生成内容,对其特征更为熟悉。

相反,纸质媒体使用频率与识别能力呈负相关。相较"非常频繁使用纸质媒体"的群体,"有时"和"经常"使用的群体更倾向于将AI新闻误判为人工撰写(回归系数为正,p<0.05)。这可能是因为纸质媒体使用者接触数字化内容的频率较低,对AI生成特征不够敏感。

这一发现揭示了"数字鸿沟"对AI素养的影响:传统媒体使用者可能面临更高的"AI欺骗风险"。在AI内容泛滥的时代,如何保护这一群体的知情权,值得政策制定者关注。

六、方差分析(ANOVA)

为进一步验证各因素对AI新闻识别正确率的影响,研究进行了单因素方差分析。因变量为受众识别AI新闻的正确率,自变量包括人口学特征、媒体使用习惯、AI认知水平等。

6.1 ChatGPT新闻识别正确率的影响因素

影响因素 F值 自由度 显著性 效应解读
算法素养 2.375 86, 708 <0.001 高度显著
AI满意度 2.510 25, 769 <0.001 高度显著
电视使用情况 1.827 24, 770 0.006 显著
报纸杂志使用情况 1.748 22, 772 0.010 显著
境外媒体接触 1.760 24, 770 0.009 显著

6.2 算法素养的测量

算法素养是本研究的关键变量之一,通过五个维度进行测量。研究采用熵权法进行客观赋权,避免主观赋权的偏差:

图 8
算法素养维度权重分布(熵权法)
各维度在算法素养构成中的相对重要性

算法素养的五个维度中,"理解算法概念与术语"权重最高(23.4%),其次是"对算法逻辑进行思考"(21.2%)。这表明理论知识与批判性思维是算法素养的核心组成部分。"调整推送内容"权重最低(17.8%),说明操作层面的能力相对次要。

关键发现

算法素养对AI新闻识别正确率有高度显著影响(F=2.375, p<0.001)。这意味着提升公众的算法素养——包括理解算法原理、培养批判性思维、保护个人信息——是增强其AI内容识别能力的有效途径。政策制定者应考虑将算法素养纳入媒介素养教育体系。

6.3 综合识别正确率的影响因素

对于综合识别正确率(同时识别ChatGPT和文心一言新闻),除上述共性因素外,以下变量也具有显著影响:

影响因素 F值 显著性 主要发现
职业 1.382 0.049 在校学生、自由职业者识别能力较强
教育程度 1.496 0.019 高等教育群体优于中等教育群体
互联网使用情况 2.493 <0.001 高频使用者识别能力更强
对互联网的偏好 1.755 0.028 偏好互联网者识别能力更强

七、结论与建议

本研究通过对795份有效问卷的分析,系统考察了受众对AI生成新闻的识别能力及其影响因素。研究发现,AI新闻识别能力并非均匀分布,而是受到多种因素的复杂影响。以下总结核心结论并提出政策建议。

7.1 核心结论

1 教育程度与识别能力正相关

高等教育群体(本科、研究生)在识别AI新闻方面表现更优,中专/技校与初中群体误判率较高,回归系数达4.44-6.68。教育不仅提供知识,更培养批判性思维,这对识别AI内容至关重要。中等教育群体应是AI素养教育的重点对象。

2 媒体使用习惯影响显著

互联网高频使用者更善于识别AI生成新闻,而纸质媒体使用者识别能力相对较弱。这揭示了数字鸿沟对AI素养的影响:传统媒体使用者可能面临更高的"AI欺骗风险"。在AI内容日益普及的背景下,如何保护这一群体的知情权,值得政策关注。

3 算法素养是关键因素

算法素养对识别正确率有高度显著影响(F=2.375, p<0.001)。提升公众的算法素养——包括理解算法原理、识别算法影响、保护个人信息——是应对AI内容泛滥的核心策略。其中,理论理解(23.4%)和批判思维(21.2%)是算法素养的核心维度。

4 "21-30岁"群体识别能力最强

这一反直觉发现表明,AI技术的核心用户群体可能对AI生成特征更为敏感。他们既是AI的高频使用者,也是最佳的"AI内容检测者"。这一发现挑战了"年轻人更容易被AI欺骗"的普遍假设,对于AI素养教育的人群定位具有启示意义。

7.2 政策建议

基于上述发现,本研究提出以下建议:

第一,加强算法素养教育。建议在中小学信息技术课程中增加算法原理、AI特征识别等内容。针对中等教育程度群体开展专项培训,可考虑通过社区教育、职业培训等渠道进行。教育部门应考虑将算法素养纳入媒介素养教育体系,编写相关教材,培训师资力量。

第二,建立AI内容标识机制。新闻平台应建立AI生成内容的标识制度,帮助受众辨别内容来源。对于新闻类AI应用,可考虑强制要求标注"AI辅助生成"或"AI原创"。标识机制应有统一标准,避免平台各自为政。

第三,关注数字弱势群体。研究发现纸质媒体使用者和中等教育群体识别能力较弱,建议通过社区教育、老年大学、农村文化活动中心等渠道,开展针对性的AI素养培训。这部分群体可能是AI虚假信息的"易感人群",应予以特别关注。

第四,优化AI新闻生成策略。研究发现不同AI模型、不同题材的新闻在"拟人化"程度上存在差异。建议AI开发者在新闻生成过程中加强语言风格优化,提高内容透明度,主动标识AI生成痕迹,而非追求"以假乱真"。

本研究为理解公众对AI技术应用认知提供了实证依据,为AI新闻内容优化、受众教育及监管政策制定提供了科学参考。随着AI技术的持续发展,相关研究需要持续跟踪,以应对不断变化的挑战。未来研究可进一步探讨AI生成内容对新闻公信力的长期影响,以及不同文化背景下受众识别能力的差异。