VR端3D角色扮演AI SOLAMI发布：语音与肢体交互开启沉浸式社交新体验

近日，南洋理工大学研究团队公开了全球首个VR端3D角色扮演AI系统SOLAMI的技术细节。这一创新系统通过端到端的视觉-语言-行为模型，使用户能够通过语音和肢体动作与虚拟角色进行自然互动，标志着沉浸式人机交互进入新阶段。

什么是SOLAMI系统？

SOLAMI（Social Vision-Language-Action Model）是一个专为虚拟现实环境设计的多模态交互系统。与传统基于文本或语音的AI角色不同，SOLAMI能同时处理用户的语音指令和肢体动作，并生成包含语音、表情和身体动作的综合回应。

这一系统支持多种角色类型，包括动漫人物、名人形象和原创角色，用户可在VR环境中与这些角色进行唱歌、跳舞、游戏等多样化互动。

SOLAMI采用统一的端到端模型架构：

训练过程分为两个关键阶段：

由于真实的多模态交互数据极其稀缺，研究团队开发了创新的数据合成管线：

这种方法大幅降低了数据收集成本，同时保证了数据的多样性和质量。

研究团队基于Oculus Quest 3头显设备开发了完整的VR交互系统：

这一架构确保了交互的低延迟和高实时性，为用户提供流畅的沉浸式体验。若想深入了解VR系统中的实时交互技术，可以👉查看实时交互解决方案。

研究人员将SOLAMI与两种基线方法进行比较：

实验结果表明，SOLAMI在动作质量、语音质量和响应延迟方面均优于对比方法，多任务预训练策略被证明对最终效果有显著提升。

通过实际VR体验测试发现：

这证实了肢体语言在角色扮演体验中的关键作用。

研究者指出了几个值得探索的方向：

SOLAMI与其他AI角色系统有何不同？
SOLAMI是首个专为VR环境设计的端到端多模态系统，能同时处理语音和肢体动作，生成包含语音、动作和表情的综合回应，提供更深度的沉浸式体验。

普通用户能否使用这一系统？
目前SOLAMI仍处于研究阶段，需要专业的VR设备和计算资源支持。但随着技术成熟，未来有望推出更易用的消费级版本。

如何解决训练数据稀缺的问题？
研究团队采用了创新的数据合成方法，通过组合现有动作数据、生成对话剧本和声音克隆技术，大幅降低了对真实交互数据的依赖。

系统的响应延迟如何？
实验表明SOLAMI具有较低的事件延迟，能够满足实时交互的需求，这得益于端到端的架构设计和高效的模型优化。

这项技术有哪些潜在应用场景？
除了娱乐领域的角色扮演，还可应用于虚拟社交、教育培训、心理治疗等多个领域，为人机交互带来全新可能。

SOLAMI系统的推出为沉浸式人机交互设立了新标杆，通过融合视觉、语言和行为模态，创造了更加自然和生动的虚拟社交体验。随着技术的不断完善，这种端到端的多模态方法有望成为未来虚拟交互的主流方向。如需进一步了解多模态模型的技术细节，可👉探索进阶技术解析。