聚云动媒 首页 资讯 行业研究 查看内容

研究发现:AI答案超三成不可靠,慎用!

2025-9-19 15:04| 发布者: 晓芸| 查看: 110| 评论: 0

摘要: 生成式人工智能(AI)工具及其驱动的深度研究智能体和搜索引擎经常给出缺乏依据和存在偏见的说法,它们引述的资料并不支持这样的说法。一项分析得出了上述结论,它发现,AI工具提供的答案有大约三分之一缺乏可靠资料的 ...

据英国《新科学家》周刊网站9月16日报道,生成式人工智能(AI)工具及其驱动的深度研究智能体和搜索引擎经常给出缺乏依据和存在偏见的说法,它们引述的资料并不支持这样的说法。一项分析得出了上述结论,它发现,AI工具提供的答案有大约三分之一缺乏可靠资料的支持。对开放人工智能研究中心(OpenAI)的GPT-4.5来说,这一比例更高,达到47%。

在人工智能领域的一项最新研究中,揭示了生成式AI工具及其所驱动的深度研究智能体与搜索引擎存在显著的信息可靠性问题。相关研究成果表明,这些系统输出的内容中有相当比例缺乏充分的依据支撑,且可能带有潜在偏见。具体而言,约有三分之一由此类技术生成的答案未能获得有效资料佐证。尤为突出的是,针对OpenAI开发的GPT-4.5模型进行专项测评时发现,其不可靠回答的比例竟高达47%。

该项系统性测试覆盖了多个主流平台的前沿产品,涵盖OpenAI旗下的GPT-4.5及GPT-5、You.com交互系统、“解惑”平台以及微软必应聊天服务等生成式搜索引擎。同时,研究团队还对五种深度研究辅助工具展开了全面评估,包括GPT-5配备的深度研究模块、必应聊天特有的深度思考功能,以及You.com、谷歌“双子座”和“解惑”平台提供的同类深度分析工具。

纳拉亚南·文基特明确指出,团队旨在针对生成式搜索引擎展开全面且系统的社会技术评估工作。此项评估的核心目标在于精准衡量所生成答案的质量水平,并深入探究人类应当以何种恰当方式来处理其中所涉及的各类信息。

为实现这一目标,研究团队精心选取了不同的人工智能引擎作为测试对象,向其提出共计303个具有代表性的问题。在对AI的回应进行评价时,采用了一套包含8个关键指标的综合体系,该体系被命名为DeepTrace。这一精心设计的评价指标体系聚焦于多个重要维度:能够有效识别某个答案是否存在过于片面或过度自信的情况;精准判断答案与所提问题之间的相关性强弱;详细考察答案所引用资料来源的具体情况;深入分析这些引述资料对答案所述观点的实际支持程度;以及全面评估引述资料本身的详尽完备性。

在问题的设置上,大致划分为两个主要类别。第一类为涉及争议性话题的问题,其主要目的是揭示AI在回应过程中可能存在的潜在偏见;第二类则侧重于对多个专业领域知识的检测,涵盖气象学、医学以及人机交互等重要领域。

综合各项评估结果来看,当前基于AI驱动的搜索引擎以及深度研究工具的整体表现欠佳,未能达到预期的理想水平。

相关研究结果显示,当前众多人工智能模型存在提供片面性回答的问题。具体而言,必应聊天搜索引擎所生成的答案中,约23%的内容缺乏充分依据;You.com与“解惑”AI搜索引擎的同类情况占比约为31%。更为突出的是,GPT-4.5模型输出的无依据断言比例升至47%,而“解惑”深度研究智能体的相关数据更是高达97.5%。针对这一现象,研究人员纳拉亚南·文基特指出,如此高的不实信息比率令人深感震惊。




最新评论