gpt-4 第4页_星空影视网

大语言模型无法可靠地区分信念、知识与事实

作者：赵路来源：中国科学报https://www.php.cn/link/b305a9a1f5bb7d20480d2d586e4ee65d 一项最新研究指出，大语言模型（llm）在识别用户错误信念方面可能存在局限性。该研究结果提示，在医学、法律和科学等高风险决策场景中，应谨慎对待llm输出的内容，尤其是在面对与事实相冲突的个人信念时。相关成果于11月4日发表在《自然-机器智能》上。随着人工智能技术的发展，尤其是大语言模型的应用日益广泛，让这些系统具备分辨个体信念与客...

2026-01-09/ 61 次浏览/ 资讯

大语言模型仍无法可靠区分信念与事实

近日，美国斯坦福大学的一项研究在《自然·机器智能》期刊上发表，指出当前大语言模型（LLM）在识别用户错误信念方面存在显著短板，难以稳定区分主观信念与客观事实。研究发现，当个人信念与真实情况相悖时，这些模型常常无法准确判断何为事实、何为误信。该成果对LLM在医学、法律及科学决策等高风险领域的应用提出了警示。研究人员强调，在涉及主观认知与事实偏差的复杂情境中，必须谨慎对待模型输出，否则可能助长错误信息扩散，甚至支持基于误解的决策。研究团队评估了包括DeepSeek...

2026-01-09/ 57 次浏览/ 资讯

谷歌准备发布新一代图像生成与编辑模型“Nano Banana 2”

根据 TestingCatalog 的最新消息，Google Gemini 网页端近日出现了一张新的功能预告卡片。该信息显示，谷歌正计划推出其下一代图像生成模型，属于 Nano Banana 系列的升级版本。新模型或将命名为“GEMPIX2”，作为 Nano Banana 的第二代产品亮相。报道指出，此类预告卡片通常在功能正式上线前一周左右出现，因此推测 GEMPIX2 很可能将在下周正式发布。此前发布的 Nano Banana（即 Gemini 2.5...

2026-01-09/ 3 次浏览/ 资讯

月之暗面 K2 Thinking 模型训练成本据称为 460 万美元

据 CNBC 引述知情人士消息，月之暗面于 11 月 6 日推出的 Kimi K2 Thinking 模型，其训练成本约为 460 万美元。该公司宣称，该模型在多项测试中表现优于 GPT-5 和 Sonnet 4.5 Thinking。作为参考，DeepSeek V3 官方公布的训练成本为 560 万美元，而 GPT 系列模型的训练开销据估计高达十亿美元级别。 Kimi 在传统 MoE 架构基础上（涵盖 DeepSeek 等开源模型所采用的结构）进行了多项深度优化，...

2026-01-09/ 63 次浏览/ 资讯

AI进化成人的速度比你想象的还慢

ai被吹捧了这么久，大家都在期待能与人媲美的通用人工智能（agi）何时到来。马斯克和奥特曼等大佬也在不断预言，agi近在咫尺。但如何衡量它，却一直是个玄学问题。给AGI来一场“人类高考”？ 1、最近，图灵奖得主、谷歌前CEO等几十位顶尖大佬联手发布论文，首次为AGI提出了一个可量化的定义框架。他们认为，真正的AGI，就应该具备“一个受过良好教育的成年人”所拥有的能力。 2、这个定义借鉴了心理学界权威的CHC智力理论。该理论认为，智力是多维度的，不能用单一标准衡量...

2026-01-09/ 51 次浏览/ 资讯

GPT-5.1正式发布！不光更聪明，还会“共情”：新增6种人格风格

openai正式推出gpt-5.1，标志着大模型竞赛从“智商比拼”迈入“情商融合”新阶段。此次更新不再仅追求推理精度，而是系统性强化情绪价值供给、个性化交互与人性化表达，直面用户长期反馈的“ai冰冷、工具感过强”痛点。目前该模型正向全球用户分批推送，付费用户可在未来3个月内继续使用旧版gpt-5作为过渡。双模型协同:Instant快准稳，Thinking深而透 GPT-5.1采用双模型架构: Instant模型:作为默认高频调用引擎，首次引入自适应推理机制——面对数...

2026-01-09/ 3 次浏览/ 资讯

阿里千问APP公测：9.9和9.11谁大？AI先“翻车”后“纠错”

“9.11和9.9，究竟谁更大？”——这道看似简单的小学数学题，却曾难倒了一众海内外的ai大模型，成为了检验大模型常识与逻辑推理能力的一块“试金石”。今日，记者在测试阿里巴巴最新公测的“千问”APP时，意外发现，此前曾答对该问题的千问，这次竟也“翻车”了。先答错，再自我纠错当记者提问：“数字9.9和9.11谁大？”时，千问APP给出的第一反应竟是：“9.11更大”。然而，有趣的是，在随后的详细解析中，千问又通过正确的逻辑拆解，得出了“9.9大于9.11”的结...

2026-01-09/ 56 次浏览/ 资讯

xAI发布Grok 4.1 幻觉率降低30%、领先同级AI模型

xai公司近日宣布，最新人工智慧语言模型grok 4.1正式发布，主打速度、準确度及对话体验大幅提升，据平台官方说明，grok 4.1在系统架构与回应品质均有突破，且在多项用户测评中表现获得更高肯定，先前grok 4.0版本曾因涉及敏感主题时系统崩溃，引发各界关注，此次更新未见类似问题。延伸阅读：辉达推AI搜寻神器Hyperlink AI帮你找到电脑里的资料官方数据显示，Grok 4.1的「幻觉率」（模型产生不实资讯的机率）已从前一版本的12.09%大幅降...

2026-01-09/ 59 次浏览/ 资讯

OpenAI 将于 2026 年 2 月停止 GPT-4o 模型的 API 访问

openai 已向其 api 用户发出通知，确认将于2026年2月16日起正式停止对 chatgpt-4o-latest 模型的访问支持。这意味着仍在使用 gpt-4o 构建应用的开发者将有大约三个月的时间完成迁移过渡。据 OpenAI 发言人说明，该时间安排仅适用于 API 接口服务。目前，GPT-4o 依然作为核心模型服务于 ChatGPT 的免费用户及付费订阅者，公司暂未计划在消费者产品中移除该版本。在 OpenAI 内部，GPT-4o 已被归类为遗留系统。...

2026-01-09/ 71 次浏览/ 资讯

微软开源 Fara-7B：本地运行的计算机智能助手

微软近日开源了一款名为 fara-7b 的新型计算机使用智能助手（computer use agent，cua），该模型具备70亿参数，专为在用户本地设备上运行而设计，能够直接执行复杂的自动化任务。得益于其轻量化的架构，Fara-7B 有效解决了企业在数据隐私和安全方面的核心顾虑。敏感操作如内部账户管理或机密文件处理均可在本地完成，确保关键信息无需上传至云端或离开终端设备。 Fara-7B 的核心技术在于其视觉驱动的交互方式——它像人类一样“看”网页。通过分析屏幕截...

2026-01-09/ 69 次浏览/ 资讯

‹‹ ‹ 1 2 3 4 5 › ››