作者:赵路 来源:中国科学报https://www.php.cn/link/b305a9a1f5bb7d20480d2d586e4ee65d
一项最新研究指出,大语言模型(llm)在识别用户错误信念方面可能存在局限性。该研究结果提示,在医学、法律和科学等高风险决策场景中,应谨慎对待llm输出的内容,尤其是在面对与事实相冲突的个人信念时。相关成果于11月4日发表在《自然-机器智能》上。
随着人工智能技术的发展,尤其是大语言模型的应用日益广泛,让这些系统具备分辨个体信念与客...
近日,美国斯坦福大学的一项研究在《自然·机器智能》期刊上发表,指出当前大语言模型(LLM)在识别用户错误信念方面存在显著短板,难以稳定区分主观信念与客观事实。研究发现,当个人信念与真实情况相悖时,这些模型常常无法准确判断何为事实、何为误信。
该成果对LLM在医学、法律及科学决策等高风险领域的应用提出了警示。研究人员强调,在涉及主观认知与事实偏差的复杂情境中,必须谨慎对待模型输出,否则可能助长错误信息扩散,甚至支持基于误解的决策。
研究团队评估了包括DeepSeek...
根据 TestingCatalog 的最新消息,Google Gemini 网页端近日出现了一张新的功能预告卡片。
该信息显示,谷歌正计划推出其下一代图像生成模型,属于 Nano Banana 系列的升级版本。新模型或将命名为“GEMPIX2”,作为 Nano Banana 的第二代产品亮相。
报道指出,此类预告卡片通常在功能正式上线前一周左右出现,因此推测 GEMPIX2 很可能将在下周正式发布。
此前发布的 Nano Banana(即 Gemini 2.5...
据 CNBC 引述知情人士消息,月之暗面于 11 月 6 日推出的 Kimi K2 Thinking 模型,其训练成本约为 460 万美元。该公司宣称,该模型在多项测试中表现优于 GPT-5 和 Sonnet 4.5 Thinking。作为参考,DeepSeek V3 官方公布的训练成本为 560 万美元,而 GPT 系列模型的训练开销据估计高达十亿美元级别。
Kimi 在传统 MoE 架构基础上(涵盖 DeepSeek 等开源模型所采用的结构)进行了多项深度优化,...
ai被吹捧了这么久,大家都在期待能与人媲美的通用人工智能(agi)何时到来。马斯克和奥特曼等大佬也在不断预言,agi近在咫尺。但如何衡量它,却一直是个玄学问题。
给AGI来一场“人类高考”?
1、最近,图灵奖得主、谷歌前CEO等几十位顶尖大佬联手发布论文,首次为AGI提出了一个可量化的定义框架。他们认为,真正的AGI,就应该具备“一个受过良好教育的成年人”所拥有的能力。
2、这个定义借鉴了心理学界权威的CHC智力理论。该理论认为,智力是多维度的,不能用单一标准衡量...
openai正式推出gpt-5.1,标志着大模型竞赛从“智商比拼”迈入“情商融合”新阶段。此次更新不再仅追求推理精度,而是系统性强化情绪价值供给、个性化交互与人性化表达,直面用户长期反馈的“ai冰冷、工具感过强”痛点。目前该模型正向全球用户分批推送,付费用户可在未来3个月内继续使用旧版gpt-5作为过渡。
双模型协同:Instant快准稳,Thinking深而透
GPT-5.1采用双模型架构:
Instant模型:作为默认高频调用引擎,首次引入自适应推理机制——面对数...
“9.11和9.9,究竟谁更大?”——这道看似简单的小学数学题,却曾难倒了一众海内外的ai大模型,成为了检验大模型常识与逻辑推理能力的一块“试金石”。
今日,记者在测试阿里巴巴最新公测的“千问”APP时,意外发现,此前曾答对该问题的千问,这次竟也“翻车”了。
先答错,再自我纠错
当记者提问:“数字9.9和9.11谁大?”时,千问APP给出的第一反应竟是:“9.11更大”。
然而,有趣的是,在随后的详细解析中,千问又通过正确的逻辑拆解,得出了“9.9大于9.11”的结...
xai公司近日宣布,最新人工智慧语言模型grok 4.1正式发布,主打速度、準确度及对话体验大幅提升,据平台官方说明,grok 4.1在系统架构与回应品质均有突破,且在多项用户测评中表现获得更高肯定,先前grok 4.0版本曾因涉及敏感主题时系统崩溃,引发各界关注,此次更新未见类似问题。
延伸阅读:
辉达推AI搜寻神器Hyperlink AI帮你找到电脑里的资料
官方数据显示,Grok 4.1的「幻觉率」(模型产生不实资讯的机率)已从前一版本的12.09%大幅降...
openai 已向其 api 用户发出通知,确认将于2026年2月16日起正式停止对 chatgpt-4o-latest 模型的访问支持。这意味着仍在使用 gpt-4o 构建应用的开发者将有大约三个月的时间完成迁移过渡。
据 OpenAI 发言人说明,该时间安排仅适用于 API 接口服务。目前,GPT-4o 依然作为核心模型服务于 ChatGPT 的免费用户及付费订阅者,公司暂未计划在消费者产品中移除该版本。
在 OpenAI 内部,GPT-4o 已被归类为遗留系统。...
微软近日开源了一款名为 fara-7b 的新型计算机使用智能助手(computer use agent,cua),该模型具备70亿参数,专为在用户本地设备上运行而设计,能够直接执行复杂的自动化任务。
得益于其轻量化的架构,Fara-7B 有效解决了企业在数据隐私和安全方面的核心顾虑。敏感操作如内部账户管理或机密文件处理均可在本地完成,确保关键信息无需上传至云端或离开终端设备。
Fara-7B 的核心技术在于其视觉驱动的交互方式——它像人类一样“看”网页。通过分析屏幕截...