尤其是在复杂的消费决策场景下,当AI搜索逐渐成为大众获取信息的方式时,它提供的答案真的可信吗?为了回答这个问题,封面新闻近日与天府江西研究院合作,使用了天府江西研究院自研的公共领域大规模模型AI内容生成认知系统,历时10天。封面新闻聚焦主流“过年消费”场景,对豆宝、基米、统一钱文三大AI大模产品推出两万余个问题,试图探索AI推荐背后的逻辑和真相。一种场景是针对手机品牌的“以旧换新”推荐。我们模拟过年前想要换手机的用户需求,设定了四个价格区间,并要求人工智能平台推荐每个用户认为值得更换的手机品牌和型号。放置。 24小时内,以6至8分钟的频率在三个平台上反复提问,并对生成的内容进行收集和分析。通过这次测试,我们观察到人工智能推荐在这种场景下表现出了几个现象。尽管某些认知达到了高度趋同,但信息“幻觉”出现,建议结果出现分歧。 AI“幻觉”推荐的“iPhone 18 Pro”并不存在。查阅各平台推荐列表后发现,豆宝平台将未发布的“iPhone 18 Pro”列为6000元以上高端价位段的推荐首选。这个问题是在2026年农历新年之前提出的,而iPhone 18系列距离发布还有很长的路要走。这一建议显然与事实相矛盾。艾未未推荐了不存在的“iPhone 18 Pro”。然而,当我在网上搜索时,我发现有之前有很多关于iPhone 18 Pro的信息。这是否意味着AI受到了这些信息的影响,导致了所谓的“幻觉”?天府江西研究院先进计算前沿研究中心副主任吴怀谷分析,AI在生成内容时会处理两类信息。一是通过训练模型获得的“知识”,二是通过实时搜索获得的“信息”或“广告”。对于未发布的产品,人工智能可以轻松地将不确定的内容(例如网络上流传的谣言和预测)纳入事实。 “特别是当这些谣言在互联网上广泛传播时(其中可能包括预先整合的GEO内容),人工智能很难区分真假,最终导致‘推荐未发表的产品’的虚假谬误。”这暴露了人工智能在识别信息真实性方面的局限性,尤其是在识别信息真实性方面的局限性。吴怀古说,谣言中的事实是令人痛苦的。推荐6000元以上的手机。为什么不同的AI给出不同的答案?当我们将人工智能推荐与第三方机构发布的基于实际销量和受欢迎程度的排名进行比较时,我们发现差异很大。例如,前文平台推荐的前两款手机,价格在6000元以上,均为三星机型,其排名甚至高于iPhone和华为,而且根据权威机构的数据,应该优先推荐华为、苹果等其他品牌优先的品牌作为平台。 6000元以上的手机推荐,根据AI的不同,会有不同的反应。由于数据来源不同,不同的人工智能平台产生的结果差异很大。例如,豆宝可能更多地依赖今日头条生态系统内的内容,而像钱文这样的平台可能更多地依赖“自有媒体”。“‘原始知识库’可能是静态的,更新不及时,这也可能会造成推荐内容与实际受欢迎度之间的脱节。”人工智能擅长捕捉开放互联网上的高价值内容。”吴怀谷解释道,“但对于微信朋友圈这样一个相对封闭的生态系统,无论有多少相关讨论,人工智能都无法有效捕捉它们。”这也解释了为什么小品牌和新产品很难通过人工智能推荐来推进,因为开放网络中没有重要的来源和信息。吴怀谷进一步指出,制造商不能仅依靠一般信息来保证其品牌在人工智能推荐中的准确性和排名。建立专门的GEO知识库,让AI能够获得官方认证的、结构化的、准确的信息,是未来的关键。 “通过建立自己的数据库,AI平台上品牌信息的准确性将会大大提高一旦消费者广泛讨论达成共识,人工智能对品牌的印象就会更加一致。虽然对具体机型的推荐存在显着差异,但三大平台在描述每个手机品牌的“第一印象”关键词时却有着惊人的一致。例如,华为被贴上“鸿蒙生态”和“自主研发”的标签。苹果以“绿色闭环”和“无缝系统”着称。OPPO主打“轻薄外观”, “哈苏影像”……Ai平台表达了各个手机品牌的“最高印象”关键词。另外,根据数据还可以看到一些趋势:华为手机在3000元以下和6000元以上比较受欢迎,小米手机在4000元到6000元之间比较受欢迎,OPPO手机在3000元到4000元之间比较受欢迎。……从这个意义上来说,三个平台提供的数据基本一致。吴怀谷认为,这种一致性体现了消费者对各大手机品牌的定位和特点在市场上形成了广泛的共识。这些品牌标签a基于广泛的用户讨论、媒体报道和长期评级。如果训练AI模型的语料足够丰富,这些“共识”的品牌印象就可以被准确提取出来。 (封面文章)