8 月 25 日牛管家,在首届技术开放日(TechDay)上,群核科技正式发布了其空间大模型的最新成果:新一代空间语言模型 SpatialLM 1.5 与空间生成模型 SpatialGen,并宣布将延续开源战略,逐步向全球开发者开放模型。
作为专注于 3D 室内场景认知与生成的模型体系,群核空间大模型主要围绕真实感全息漫游、结构化可交互及复杂室内场景处理三个方向构建其技术优势。
本次发布的 SpatialLM 1.5 是一款基于大语言模型训练的空间语言模型 。群核科技首席科学家周子寒在技术交流中解释,SpatialLM 并非在视觉语言模型(VLM)上增加新模态,而是让大语言模型学会了一种新的"空间语言"。这种语言能以数字文本的形式,精确描述场景中物体的空间结构、几何信息、相互关系及物理参数。
通过对话系统 SpatialLM-Chat,用户输入简单的文本指令,模型即可自动生成包含物理正确信息的结构化 3D 场景脚本牛管家,并智能匹配家具进行布局。该模型还能通过自然语言进行场景问答与编辑,例如,在现场演示中,当输入"去客厅餐桌拿药"指令后,模型不仅理解了物体对象,还调用工具自动规划出行动路径,展示了其在机器人场景中的应用潜力。
群核科技联合创始人兼董事长黄晓煌在演讲中提到,当前空间智能发展的一大瓶颈在于三维可交互数据的稀缺,尤其是在物理世界对应的室内空间数据获取难度极大。SpatialLM 1.5 能够快速、批量地生成大量符合要求且多样化的场景,可直接用于机器人路径规划、避障和任务执行等训练,为解决当前机器人训练数据不足的难题提供了有效途径。
与 SpatialLM 专注于"理解与交互"不同,SpatialGen 模型则聚焦于"生成与呈现"。它是一款基于扩散模型架构的多视角图像生成模型,可根据文字、参考图和 3D 空间布局,生成具有时空一致性的多视角图像。
群核科技 AI 产品总监龙天泽指出,当前主流 AI 视频生成工具基于 2D 图像序列学习,缺乏对 3D 空间和物理规则的真正理解,因此在视角切换或复杂运动时,常出现物体位置偏移、背景混乱、模型穿模等空间逻辑错误。
SpatialGen 通过生成空间属性和物理关系在不同镜头下保持一致的多视角图像,并能进一步生成 3D 高斯(3DGS)场景,最终渲染出可供用户自由漫游的视频 。这一方案旨在从根本上解决当前 AIGC 视频生成中的时空一致性难题 。龙天泽透露,公司正在研发一款深度融合 3D 能力的 AI 视频生成产品,计划于年内发布。
黄晓煌在活动现场分享了群核科技的空间智能战略布局,其核心是"空间编辑工具 - 空间合成数据 - 空间大模型"构成的空间智能飞轮 。通过酷家乐等工具的广泛应用,沉淀海量数据;利用这些数据加速模型训练;再以强大的模型能力反哺和提升工具体验,从而形成正向循环 。截至 2025 年 6 月 30 日,群核科技已拥有超过 4.41 亿个 3D 模型及超过 5 亿个结构化 3D 空间场景。
黄晓煌表示,开源是群核科技战略的重要组成部分,公司自 2018 年起便开始逐步开放数据和算法能力。他认为,当前空间大模型尚处初级阶段,希望通过开源与全球开发者共同将"蛋糕"做大,推动技术快速前进。
据悉,本次发布的两款模型将陆续在 Hugging Face、GitHub 和魔搭社区等平台开源 。其中,SpatialGen 在技术开放日当天已开放下载牛管家,而 SpatialLM 1.5 未来也将以" SpatialLM-Chat "的形式完成开源。
恒财网配资提示:文章来自网络,不代表本站观点。