星空影视网

展开菜单

大语言模型无法可靠地区分信念、知识与事实

大语言模型无法可靠地区分信念、知识与事实
作者:赵路 来源:中国科学报https://www.php.cn/link/b305a9a1f5bb7d20480d2d586e4ee65d 一项最新研究指出,大语言模型(llm)在识别用户错误信念方面可能存在局限性。该研究结果提示,在医学、法律和科学等高风险决策场景中,应谨慎对待llm输出的内容,尤其是在面对与事实相冲突的个人信念时。相关成果于11月4日发表在《自然-机器智能》上。 随着人工智能技术的发展,尤其是大语言模型的应用日益广泛,让这些系统具备分辨个体信念与客...

大语言模型仍无法可靠区分信念与事实

大语言模型仍无法可靠区分信念与事实
近日,美国斯坦福大学的一项研究在《自然·机器智能》期刊上发表,指出当前大语言模型(LLM)在识别用户错误信念方面存在显著短板,难以稳定区分主观信念与客观事实。研究发现,当个人信念与真实情况相悖时,这些模型常常无法准确判断何为事实、何为误信。 该成果对LLM在医学、法律及科学决策等高风险领域的应用提出了警示。研究人员强调,在涉及主观认知与事实偏差的复杂情境中,必须谨慎对待模型输出,否则可能助长错误信息扩散,甚至支持基于误解的决策。 研究团队评估了包括DeepSeek...

谷歌准备发布新一代图像生成与编辑模型“Nano Banana 2”

谷歌准备发布新一代图像生成与编辑模型“Nano Banana 2”
根据 TestingCatalog 的最新消息,Google Gemini 网页端近日出现了一张新的功能预告卡片。 该信息显示,谷歌正计划推出其下一代图像生成模型,属于 Nano Banana 系列的升级版本。新模型或将命名为“GEMPIX2”,作为 Nano Banana 的第二代产品亮相。 报道指出,此类预告卡片通常在功能正式上线前一周左右出现,因此推测 GEMPIX2 很可能将在下周正式发布。 此前发布的 Nano Banana(即 Gemini 2.5...

月之暗面 K2 Thinking 模型训练成本据称为 460 万美元

月之暗面 K2 Thinking 模型训练成本据称为 460 万美元
据 CNBC 引述知情人士消息,月之暗面于 11 月 6 日推出的 Kimi K2 Thinking 模型,其训练成本约为 460 万美元。该公司宣称,该模型在多项测试中表现优于 GPT-5 和 Sonnet 4.5 Thinking。作为参考,DeepSeek V3 官方公布的训练成本为 560 万美元,而 GPT 系列模型的训练开销据估计高达十亿美元级别。 Kimi 在传统 MoE 架构基础上(涵盖 DeepSeek 等开源模型所采用的结构)进行了多项深度优化,...

AI进化成人的速度比你想象的还慢

AI进化成人的速度比你想象的还慢
ai被吹捧了这么久,大家都在期待能与人媲美的通用人工智能(agi)何时到来。马斯克和奥特曼等大佬也在不断预言,agi近在咫尺。但如何衡量它,却一直是个玄学问题。 给AGI来一场“人类高考”? 1、最近,图灵奖得主、谷歌前CEO等几十位顶尖大佬联手发布论文,首次为AGI提出了一个可量化的定义框架。他们认为,真正的AGI,就应该具备“一个受过良好教育的成年人”所拥有的能力。 2、这个定义借鉴了心理学界权威的CHC智力理论。该理论认为,智力是多维度的,不能用单一标准衡量...

GPT-5.1正式发布!不光更聪明,还会“共情”:新增6种人格风格

GPT-5.1正式发布!不光更聪明,还会“共情”:新增6种人格风格
openai正式推出gpt-5.1,标志着大模型竞赛从“智商比拼”迈入“情商融合”新阶段。此次更新不再仅追求推理精度,而是系统性强化情绪价值供给、个性化交互与人性化表达,直面用户长期反馈的“ai冰冷、工具感过强”痛点。目前该模型正向全球用户分批推送,付费用户可在未来3个月内继续使用旧版gpt-5作为过渡。 双模型协同:Instant快准稳,Thinking深而透 GPT-5.1采用双模型架构: Instant模型:作为默认高频调用引擎,首次引入自适应推理机制——面对数...

阿里千问APP公测:9.9和9.11谁大?AI先“翻车”后“纠错”

阿里千问APP公测:9.9和9.11谁大?AI先“翻车”后“纠错”
“9.11和9.9,究竟谁更大?”——这道看似简单的小学数学题,却曾难倒了一众海内外的ai大模型,成为了检验大模型常识与逻辑推理能力的一块“试金石”。 今日,记者在测试阿里巴巴最新公测的“千问”APP时,意外发现,此前曾答对该问题的千问,这次竟也“翻车”了。 先答错,再自我纠错 当记者提问:“数字9.9和9.11谁大?”时,千问APP给出的第一反应竟是:“9.11更大”。 然而,有趣的是,在随后的详细解析中,千问又通过正确的逻辑拆解,得出了“9.9大于9.11”的结...

xAI发布Grok 4.1 幻觉率降低30%、领先同级AI模型

xAI发布Grok 4.1 幻觉率降低30%、领先同级AI模型
xai公司近日宣布,最新人工智慧语言模型grok 4.1正式发布,主打速度、準确度及对话体验大幅提升,据平台官方说明,grok 4.1在系统架构与回应品质均有突破,且在多项用户测评中表现获得更高肯定,先前grok 4.0版本曾因涉及敏感主题时系统崩溃,引发各界关注,此次更新未见类似问题。 延伸阅读: 辉达推AI搜寻神器Hyperlink AI帮你找到电脑里的资料 官方数据显示,Grok 4.1的「幻觉率」(模型产生不实资讯的机率)已从前一版本的12.09%大幅降...

OpenAI 将于 2026 年 2 月停止 GPT-4o 模型的 API 访问

OpenAI 将于 2026 年 2 月停止 GPT-4o 模型的 API 访问
openai 已向其 api 用户发出通知,确认将于2026年2月16日起正式停止对 chatgpt-4o-latest 模型的访问支持。这意味着仍在使用 gpt-4o 构建应用的开发者将有大约三个月的时间完成迁移过渡。 据 OpenAI 发言人说明,该时间安排仅适用于 API 接口服务。目前,GPT-4o 依然作为核心模型服务于 ChatGPT 的免费用户及付费订阅者,公司暂未计划在消费者产品中移除该版本。 在 OpenAI 内部,GPT-4o 已被归类为遗留系统。...

微软开源 Fara-7B:本地运行的计算机智能助手

微软开源 Fara-7B:本地运行的计算机智能助手
微软近日开源了一款名为 fara-7b 的新型计算机使用智能助手(computer use agent,cua),该模型具备70亿参数,专为在用户本地设备上运行而设计,能够直接执行复杂的自动化任务。 得益于其轻量化的架构,Fara-7B 有效解决了企业在数据隐私和安全方面的核心顾虑。敏感操作如内部账户管理或机密文件处理均可在本地完成,确保关键信息无需上传至云端或离开终端设备。 Fara-7B 的核心技术在于其视觉驱动的交互方式——它像人类一样“看”网页。通过分析屏幕截...