牛管家群核科技发布空间大模型，旨在解决AI视频空间一致性难题

牛管家来源：赣州达慧配资网站：恒财网配资日期：2025-09-01 09:03:44 查看：162

8 月 25 日牛管家，在首届技术开放日（TechDay）上，群核科技正式发布了其空间大模型的最新成果：新一代空间语言模型 SpatialLM 1.5 与空间生成模型 SpatialGen，并宣布将延续开源战略，逐步向全球开发者开放模型。

作为专注于 3D 室内场景认知与生成的模型体系，群核空间大模型主要围绕真实感全息漫游、结构化可交互及复杂室内场景处理三个方向构建其技术优势。

本次发布的 SpatialLM 1.5 是一款基于大语言模型训练的空间语言模型。群核科技首席科学家周子寒在技术交流中解释，SpatialLM 并非在视觉语言模型（VLM）上增加新模态，而是让大语言模型学会了一种新的"空间语言"。这种语言能以数字文本的形式，精确描述场景中物体的空间结构、几何信息、相互关系及物理参数。

通过对话系统 SpatialLM-Chat，用户输入简单的文本指令，模型即可自动生成包含物理正确信息的结构化 3D 场景脚本牛管家，并智能匹配家具进行布局。该模型还能通过自然语言进行场景问答与编辑，例如，在现场演示中，当输入"去客厅餐桌拿药"指令后，模型不仅理解了物体对象，还调用工具自动规划出行动路径，展示了其在机器人场景中的应用潜力。

群核科技联合创始人兼董事长黄晓煌在演讲中提到，当前空间智能发展的一大瓶颈在于三维可交互数据的稀缺，尤其是在物理世界对应的室内空间数据获取难度极大。SpatialLM 1.5 能够快速、批量地生成大量符合要求且多样化的场景，可直接用于机器人路径规划、避障和任务执行等训练，为解决当前机器人训练数据不足的难题提供了有效途径。

与 SpatialLM 专注于"理解与交互"不同，SpatialGen 模型则聚焦于"生成与呈现"。它是一款基于扩散模型架构的多视角图像生成模型，可根据文字、参考图和 3D 空间布局，生成具有时空一致性的多视角图像。

群核科技 AI 产品总监龙天泽指出，当前主流 AI 视频生成工具基于 2D 图像序列学习，缺乏对 3D 空间和物理规则的真正理解，因此在视角切换或复杂运动时，常出现物体位置偏移、背景混乱、模型穿模等空间逻辑错误。

SpatialGen 通过生成空间属性和物理关系在不同镜头下保持一致的多视角图像，并能进一步生成 3D 高斯（3DGS）场景，最终渲染出可供用户自由漫游的视频。这一方案旨在从根本上解决当前 AIGC 视频生成中的时空一致性难题。龙天泽透露，公司正在研发一款深度融合 3D 能力的 AI 视频生成产品，计划于年内发布。

黄晓煌在活动现场分享了群核科技的空间智能战略布局，其核心是"空间编辑工具 - 空间合成数据 - 空间大模型"构成的空间智能飞轮。通过酷家乐等工具的广泛应用，沉淀海量数据；利用这些数据加速模型训练；再以强大的模型能力反哺和提升工具体验，从而形成正向循环。截至 2025 年 6 月 30 日，群核科技已拥有超过 4.41 亿个 3D 模型及超过 5 亿个结构化 3D 空间场景。

黄晓煌表示，开源是群核科技战略的重要组成部分，公司自 2018 年起便开始逐步开放数据和算法能力。他认为，当前空间大模型尚处初级阶段，希望通过开源与全球开发者共同将"蛋糕"做大，推动技术快速前进。

据悉，本次发布的两款模型将陆续在 Hugging Face、GitHub 和魔搭社区等平台开源。其中，SpatialGen 在技术开放日当天已开放下载牛管家，而 SpatialLM 1.5 未来也将以" SpatialLM-Chat "的形式完成开源。

恒财网配资提示：文章来自网络，不代表本站观点。