一位历史学者对 Gemini3Pro 展开了一项极为严苛的评估:使用50份总计约一万词的英文历史手稿图像,涵盖多种复杂笔迹风格与不同成像质量条件。测试结果令人震惊——Gemini3在字符错误率(CER)和词语错误率(WER)上取得突破性进展,CER低至0.56%,WER仅为1.22%,已逼近甚至在某些情况下达到专业人工转录的水准。
该模型不仅成功识别出未曾在训练数据中出现的复杂手写体与表格结构,其表现甚至超越受过专门训练的研究生。在严格评分标准下,前代模型 Gemi...
澳大利亚联邦政府正计划探索采用人工智能(AI)技术参与撰写内阁提案及商业论证文件。此举是推动AI在公共部门更广泛应用的一部分,尽管随之而来的数据安全与隐私泄露风险已引起外界关注。财政部长凯蒂・加拉赫(Katy Gallagher)在近期一场会议上透露,政府将开发专属的人工智能工具,以提升公共服务效率,并积极评估如ChatGPT、Copilot和Gemini等生成式AI系统的应用潜力。
一项试点项目显示,不少公务员认为AI显著提升了工作效率,但同时也对AI输出内容的准...
Google Photos近期迎来重磅AI功能升级,正式引入Google DeepMind开发的生成式影像模型「Nano Banana」,推出三项全新的免费编辑工具。此次更新让使用者只需透过文字或语音指令,即可实现更自然、真实的AI照片编辑与智能搜寻体验,大幅简化日常修图流程,操作更直觉且贴近真实情境。
根据ZDNET报导,本次推出的三大新功能分别为「Help me edit(帮我编修)」、「Create with AI(用AI创作)」以及全新设计的「Ask(询问)...
百度正式发布全新一代原生全模态大模型——文心5.0。该模型参数规模高达2.4万亿,采用先进的原生全模态统一建模架构,具备同时处理和生成文本、图像、音频及视频等多类型信息的能力,展现出卓越的跨模态理解与生成性能。
在多项核心能力上,文心5.0实现了重大突破,涵盖多模态感知、指令执行、创意写作、事实准确性、智能体决策规划以及工具调用等方面。其在逻辑推理、记忆保持、语言表达和说服力等维度均有显著增强。经过40余项权威基准测试验证,文心5.0在语言理解和多模态任务上的表现已...
11 月 14 日讯,当地时间周四,苹果公司对其《App 审核指南》进行了更新。此次修订首次明确提出:任何应用程序若计划将用户的个人数据传输给第三方人工智能服务,必须提前公开告知并取得用户的明确授权。
这一政策调整恰逢苹果为预计在 2026 年发布的、具备全新 AI 功能的 Siri 做准备的关键阶段。据彭博社此前报道,升级后的 Siri 将支持通过语音命令跨应用执行更复杂的任务,部分核心技术或将由谷歌的 Gemini 提供支持。
苹果在此时强化数据使用规范,意在...
苹果公司近期更新了其应用审核指南,明确规定开发者在向第三方人工智能(ai)共享用户个人数据前,必须进行明确披露并取得用户的知情同意。这项调整正值苹果筹备于2026年推出全新升级版siri之际。新版siri将具备跨应用执行指令的能力,并部分集成谷歌的gemini技术。
此次政策变更旨在加强用户数据保护,防止在与其他应用或AI服务商交互过程中泄露个人信息。此前的规定已禁止应用在未经许可的情况下“使用、传输或分享”用户数据;而此次修订则特别强调,涉及AI处理的情形同样需遵...
中国搜寻引擎龙头百度(Baidu Inc.)週一推出全新人工智慧模型ERNIE‑4.5‑VL‑28B‑A3B‑Thinking,宣称在多项视觉理解任务中击败Google与OpenAI的最新系统,且所需运算资源远低于竞争对手。此举被视为百度在全球AI竞赛中的关键布局,也显示多模态AI(具备文字、影像、影片综合理解能力)已迈入更高效率与更广泛应用的新时代。
根据官方技术文件,该模型总参数量达280亿,但实际运行时仅激活约30亿参数,仰赖先进的「动态路由」机制,自动挑选最...
香港科技公司Viwoods近日发布了其首款预装Android 16操作系统的E Ink电子阅读器——AiPaper Reader,宣称“让阅读迈入AI新时代”。该设备主打集成AI助手功能,支持在阅读过程中实时调用AI进行原文摘要、智能翻译,并可连同出处一并保存至个人知识库。
硬件配置上,AiPaper Reader配备了一块6.13英寸的E Ink Carta 1300墨水屏,显示精度达到约300 ppi,机身厚度仅为6.7mm,重量为138g,握持感接近主流小...
北京人形机器人创新中心正式开源了具身智能vlm模型——pelican-vl 1.0。该模型涵盖7b与72b两种参数规模,被誉为目前“全球规模最大、性能最强的开源具身多模态大模型”。实测数据显示,pelican-vl在多项关键指标上超越gpt-5同类模型达15.79%,相较google gemini系列提升19.25%,同时大幅领先通义千问、书生万象等国内主流模型,稳居当前最强开源具身多模态大模型之列。
尤为引人关注的是,Pelican-VL的核心研发团队由全女性...
Google持续拓展Gemini的应用场景,现在用户在Google Drive中打开PDF文件时,也能使用全新的「Audio Overview(语音摘要)」功能。这项新工具能将文件内容转化为类似podcast的音频摘要,帮助使用者快速掌握核心重点,无需逐字阅读。
此功能继先前导入NotebookLM、Gemini行动应用与Google搜寻后,如今正式整合进Google Drive生态系统。当用户于网页版Drive开启PDF时,上方工具列将出现「Audio Overv...