近日,AI 领域再度掀起热潮,多家行业巨头纷纷发布重大消息,引发广泛关注。
2 月 18 日,OpenAI CEO 山姆・奥特曼(Sam Altman)在 X(推特)上发起投票,询问网友对于 OpenAI 下一个开源项目的看法,是做一个相当小但仍需要在 GPU 上运行的 o3-mini 级模型更有用,还是做一个能做得最好的手机大小的模型更有用。这意味着 OpenAI 或将开源某个大模型,若成真,这将是 OpenAI 继 2019 年开源 GPT-2 后首次开源大模型。目前已有超 3 万名网友参与投票,两个选项占比接近,手机大小的模型占比 52%。值得一提的是,山姆・奥特曼当天还发布了关于 GPT-4.5 的推文,表示 “试用 GPT-4.5 在测试者中引起的‘感受 AGI’热潮远超我的预期”,或许暗示 OpenAI 可能提前发布 GPT-4.5。此前,奥特曼公布了 GPT 系列模型更新路线图,将统一 o 系列模型和 GPT 系列模型,o3 模型不再作为独立模型发布,GPT-4.5 将在数周内发布,GPT-5 将在数月内发布。
同一天,马斯克旗下的 AI 公司 xAI 推出名为 Deepsearch 的 Grok 3 智能搜索引擎。目前,深度求索 DeepSeek、OpenAI ChatGPT 等均已布局 AI 搜索引擎,AI 联网搜索正成为各大人工智能企业的热门业务领域。OpenAI 最初于去年 10 月向付费用户提供搜索引擎功能,同年 12 月向所有用户开放,如今用户无需账户即可使用。马斯克表示 Grok 3 具备强大的推理能力,在测试中表现优于目前市场上所有已发布的聊天机器人。奥特曼此番预热 GPT-4.5,也引发网友对于 OpenAI 是否要 “狙击” xAI 的猜测。此前马斯克曾提出要以 974 亿美元的价格取得 OpenAI 的控制权,奥特曼拒绝并表示马斯克主动提出收购 “可能只是想拖慢我们的脚步” ,还喊话马斯克希望通过打造更好的产品来竞争。
而在 AI 技术研究方面,2 月 18 日,DeepSeek 官方在海外社交平台 X 上发布了一篇关于 NSA(Natively Sparse Attention,原生稀疏注意力)的纯技术论文报告。NSA 是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。它针对现代硬件进行优化设计,能加速推理过程,降低预训练成本,且不牺牲性能,在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。DeepSeek 团队在论文中提到,随着序列长度增加,标准注意力机制的高复杂度成为关键延迟瓶颈,理论估计表明,在使用 softmax 架构时,注意力计算占解码 64k 长度上下文总延迟的 70%-80%,凸显对更高效注意力机制的迫切需求。这一技术核心价值在于平衡效率与性能,既降低计算成本,又保持甚至提升模型能力,为处理长上下文任务提供高效解决方案,有助于推动更强大、更经济语言模型的发展,尤其在需要处理长文本的应用场景中。例如,Gemini 1.5 Pro 已展示长上下文潜力,NSA 可进一步降低此类模型的训练与推理成本。此外,NSA 还能降低算力门槛与部署成本,端到端稀疏训练可减少预训练所需计算资源,降低企业开发大模型的资金与技术门槛,同时加速推理,使长文本生成实时性更高,适用于边缘设备或低延迟场景。在这篇名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》的论文署名中,DeepSeek 创始人梁文锋也作为共创在列 。自 1 月 20 日发布 DeepSeek-R1 并搅动 AI 圈以来,这是 DeepSeek 多天来唯一发布的技术动态。
在国内,AI 领域同样热闹非凡。2 月 18 日,有道发布 SpaceOne 全面屏答疑词典笔,支持 DeepSeek - R1 深度推理答疑,内置 AI 家教 “小 P 老师”,配有隐藏式滑动笔头、800 万像素 AI 摄像头等,现已在京东开售,首发价 1699 元。此前,2 月 15 日微信搜一搜灰度测试接入 DeepSeek-R1,开启 AI 搜索新体验,部分用户可点击 “深度思考” 选项,免费使用 DeepSeek-R1 满血版模型,获得更多元化搜索体验。1 月 20 日 DeepSeek 推出该模型,2 月 8 日日活跃用户数超越豆包并突破 3000 万大关。另外,2 月 18 日消息,Step AI 与吉利汽车集团合作,发布两个开源 Step 系列多模态模型,分别是拥有 300 亿参数、全球最大且最强大的开源视频生成模型 Step-Video-T2V,能生成 204 帧、540P 分辨率的高质量视频;以及行业首个产品级开源语音交互模型 Step-Audio,拥有 1300 亿参数,可生成情感丰富、包含方言特色和个性化的语音风格,为娱乐、社交媒体、游戏等行业提供自然、高质量对话和高保真语音重现。当天,昆仑万维也发布两款开源视频生成模型 —— 用于 AI 短片的 SkyReels-V1 和用于面部动作控制的 SkyReels-A1,SkyReels-V1 是文本转视频和图像转视频生成方面最大的模型,效率更高、延迟更低 。
随着这些 AI 领域的新动态不断涌现,无论是巨头之间的竞争,还是技术的创新突破,都预示着 AI 行业正迈向一个全新的发展阶段,未来充满无限可能,其对各行业的影响也将持续发酵,值得持续关注。