google近日宣布,已将其生成式ai助手「gemini」正式整合至android与ios版的google maps中,为用户带来更直觉、更智能的导航互动体验。
当使用者在地图导航介面右上角看到Gemini图示,或直接喊出「Hey Google」时,即可唤醒AI助手,以自然语言进行对话。无论是查询即时路况、寻找附近的餐厅、停车位,还是查找电动车充电站,都能透过一句话完成。此外,用户还能要求Gemini根据个人需求自动规划最佳行车路线,实现真正个性化的导航服务。
这...
谷歌近日宣布,其gemini api正式推出file search tool(文件搜索系统)。该工具是一项完全托管的检索增强生成(rag)服务,旨在为开发者提供一种简单、集成且可扩展的方法,利用自有数据对gemini模型进行“锚定”,从而提升生成内容的相关性与准确性。
借助这一功能,开发者可以上传私有文档,系统将自动完成文本分块、索引构建以及检索处理。这使得Gemini模型在响应查询时,能够基于用户提供的文件内容生成更具上下文感知能力的回答。
使用示例代码如下:...
根据 TestingCatalog 的最新消息,Google Gemini 网页端近日出现了一张新的功能预告卡片。
该信息显示,谷歌正计划推出其下一代图像生成模型,属于 Nano Banana 系列的升级版本。新模型或将命名为“GEMPIX2”,作为 Nano Banana 的第二代产品亮相。
报道指出,此类预告卡片通常在功能正式上线前一周左右出现,因此推测 GEMPIX2 很可能将在下周正式发布。
此前发布的 Nano Banana(即 Gemini 2.5...
stepfun ai 近日发布了其开源的音频编辑模型 step-audio-editx,这一创新的3b 参数模型将音频编辑的操作变得像文本编辑一样直接和可控。通过将音频信号的编辑任务转换为逐字的令牌操作,step-audio-editx 使得表达性的语音编辑变得更加简单。
目前,大多数零样本文本到语音(TTS)系统在情感、风格、口音和音色的控制上都显得有限。尽管它们可以生成自然的语音,但往往无法精确地符合用户的需求。过去的研究尝试通过额外的编码器和复杂的架构来拆分这些因...
谷歌的gemini 3还未见踪影,openai的gpt-5.1,似乎已在“路上”了。
近日,在知名的AI模型路由平台OpenRouter上,突然上线了一个全新的、匿名的神秘模型。在经过了部分网友的尝鲜体验和“越狱”测试后,大家普遍认为,这很可能就是披着“马甲”的GPT-5.1,其暂定名为:Polaris Alpha。
初步体验:GPT风味十足,案头工作依旧流畅
记者也第一时间,对这款神秘的Polaris模型,进行了一番简单的试用。
在基础的文案写作、邮件撰写等案头工...
StepFun AI 最近推出了其开源音频编辑模型 Step-Audio-EditX,这款拥有30亿参数的创新模型让音频编辑如同文本编辑般直观且高度可控。它通过将音频信号的修改任务转化为逐字令牌操作,显著简化了富有表现力的语音内容调整过程。
当前主流的零样本文本到语音(TTS)系统在情感表达、语调风格、口音特征以及音色控制方面仍存在局限性。虽然能够生成自然流畅的语音,却难以精准满足用户的个性化需求。以往的研究多依赖额外编码模块或复杂网络结构来分离这些因素,而 Ste...
Google 威胁情报小组的安全专家在近期的网络行为分析中,识别出一个名为 PROMPTFLUX 的新型实验性恶意软件家族。该恶意程序的独特之处在于,它能够通过远程调用 Google 的 Gemini 人工智能服务,实时重构自身代码结构,从而有效规避传统安全防护机制的侦测。
PROMPTFLUX 的运作方式极为复杂,具备利用 AI 技术动态生成恶意脚本的能力,并能对自身的代码实施混淆处理。大多数现有的防病毒系统依赖于对已知恶意行为和代码特征的快速匹配扫描,然而由于...
据彭博社《Power On》专栏的马克·古尔曼(Mark Gurman)最新消息,苹果正计划在明年推出一款完全自主研发、参数规模约为1万亿的基础AI模型,作为其Apple Intelligence战略的核心组成部分。
报道指出,苹果目前已基本敲定与谷歌的合作,将基于后者定制一个约1.2万亿参数的Gemini模型,并部署于私有云环境,用于驱动即将更新的Siri系统。该合作预计每年将为苹果带来约10亿美元的支出。
为了评估最佳技术路径,苹果今年对包括Anthropic...
商汤近日正式推出并开源了 sensenova-si 系列空间智能大模型,据官方披露,在多项权威评测的空间理解与推理任务中,该系列模型不仅显著超越同规模的开源多模态大模型,更在性能上优于 gpt-5 和 gemini 2.5 pro 等国际领先的闭源模型。
SenseNova-SI 定位于专注空间智能的大模型,此次开源涵盖 2B 和 8B 两个参数量版本。最新测评结果显示,该系列在多个空间智能基准测试(VSI、MMSI、MindCube、ViewSpatial)中表现优异...
google maps 推出基于 ai 的全新功能,让开发者乃至普通用户都能通过自然语言快速创建互动式地图,如导览路线、地点故事与即时数据可视化,无需具备编程基础即可轻松上手。这项升级由 gemini 模型驱动,能将用户的文字指令自动转化为可用的地图组件与代码,显著缩短制作时间并提升成品质量。
此次更新推出两大核心工具:「Builder Agent」与「MCP Server」。前者可协助用户规划并生成各类地图功能;后者则让 AI 能直接理解 Google Maps 的技...