• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

MotionDiffuse:基于扩散模型的文本驱动人体运动生成

MotionDiffuse: Text-Driven Human Motion Generation With Diffusion Model.

作者信息

Zhang Mingyuan, Cai Zhongang, Pan Liang, Hong Fangzhou, Guo Xinying, Yang Lei, Liu Ziwei

出版信息

IEEE Trans Pattern Anal Mach Intell. 2024 Jun;46(6):4115-4128. doi: 10.1109/TPAMI.2024.3355414. Epub 2024 May 7.

DOI:10.1109/TPAMI.2024.3355414
PMID:38285589
Abstract

Human motion modeling is important for many modern graphics applications, which typically require professional skills. In order to remove the skill barriers for laymen, recent motion generation methods can directly generate human motions conditioned on natural languages. However, it remains challenging to achieve diverse and fine-grained motion generation with various text inputs. To address this problem, we propose MotionDiffuse, one of the first diffusion model-based text-driven motion generation frameworks, which demonstrates several desired properties over existing methods. 1) Probabilistic Mapping. Instead of a deterministic language-motion mapping, MotionDiffuse generates motions through a series of denoising steps in which variations are injected. 2) Realistic Synthesis. MotionDiffuse excels at modeling complicated data distribution and generating vivid motion sequences. 3) Multi-Level Manipulation. MotionDiffuse responds to fine-grained instructions on body parts, and arbitrary-length motion synthesis with time-varied text prompts. Our experiments show MotionDiffuse outperforms existing SoTA methods by convincing margins on text-driven motion generation and action-conditioned motion generation. A qualitative analysis further demonstrates MotionDiffuse's controllability for comprehensive motion generation.

摘要

人体运动建模对许多现代图形应用程序都很重要,这些应用程序通常需要专业技能。为了消除外行人的技能障碍,最近的运动生成方法可以直接根据自然语言生成人体运动。然而,使用各种文本输入实现多样化和细粒度的运动生成仍然具有挑战性。为了解决这个问题,我们提出了MotionDiffuse,这是最早基于扩散模型的文本驱动运动生成框架之一,它在现有方法上展示了几个理想的特性。1)概率映射。MotionDiffuse不是确定性的语言-运动映射,而是通过一系列注入变化的去噪步骤来生成运动。2)逼真合成。MotionDiffuse擅长对复杂的数据分布进行建模并生成生动的运动序列。3)多层次操纵。MotionDiffuse响应关于身体部位的细粒度指令,以及使用随时间变化的文本提示进行任意长度的运动合成。我们的实验表明,在文本驱动的运动生成和动作条件运动生成方面,MotionDiffuse以显著优势优于现有的SoTA方法。定性分析进一步证明了MotionDiffuse在全面运动生成方面的可控性。

相似文献

1
MotionDiffuse: Text-Driven Human Motion Generation With Diffusion Model.MotionDiffuse:基于扩散模型的文本驱动人体运动生成
IEEE Trans Pattern Anal Mach Intell. 2024 Jun;46(6):4115-4128. doi: 10.1109/TPAMI.2024.3355414. Epub 2024 May 7.
2
GUESS: GradUally Enriching SyntheSis for Text-Driven Human Motion Generation.GUESS:用于文本驱动的人体运动生成的逐步丰富合成。
IEEE Trans Vis Comput Graph. 2024 Dec;30(12):7518-7530. doi: 10.1109/TVCG.2024.3352002. Epub 2024 Oct 28.
3
Spatio-Temporal Manifold Learning for Human Motions via Long-Horizon Modeling.通过长时建模实现人体运动的时空流形学习
IEEE Trans Vis Comput Graph. 2021 Jan;27(1):216-227. doi: 10.1109/TVCG.2019.2936810. Epub 2020 Nov 24.
4
Mining Spatial-Temporal Patterns and Structural Sparsity for Human Motion Data Denoising.挖掘时空模式和结构稀疏性进行人体运动数据去噪。
IEEE Trans Cybern. 2015 Dec;45(12):2693-706. doi: 10.1109/TCYB.2014.2381659. Epub 2014 Dec 30.
5
Multi-Condition Latent Diffusion Network for Scene-Aware Neural Human Motion Prediction.面向场景感知的神经人体运动预测的多条件潜在扩散网络。
IEEE Trans Image Process. 2024;33:3907-3920. doi: 10.1109/TIP.2024.3414935. Epub 2024 Jun 26.
6
A video-based system for hand-driven stop-motion animation.
IEEE Comput Graph Appl. 2013 Nov-Dec;33(6):70-81. doi: 10.1109/MCG.2013.40.
7
Combining Recurrent Neural Networks and Adversarial Training for Human Motion Synthesis and Control.结合循环神经网络和对抗训练进行人体运动合成与控制
IEEE Trans Vis Comput Graph. 2021 Jan;27(1):14-28. doi: 10.1109/TVCG.2019.2938520. Epub 2020 Nov 24.
8
Rhythm is a Dancer: Music-Driven Motion Synthesis With Global Structure.节奏是舞者:具有全局结构的音乐驱动运动合成。
IEEE Trans Vis Comput Graph. 2023 Aug;29(8):3519-3534. doi: 10.1109/TVCG.2022.3163676. Epub 2023 Jun 29.
9
Robotics-based synthesis of human motion.基于机器人技术的人体运动合成
J Physiol Paris. 2009 Sep-Dec;103(3-5):211-9. doi: 10.1016/j.jphysparis.2009.08.004. Epub 2009 Aug 7.
10
Two-character motion analysis and synthesis.双字符运动分析与合成。
IEEE Trans Vis Comput Graph. 2008 May-Jun;14(3):707-20. doi: 10.1109/TVCG.2008.22.

引用本文的文献

1
AI-Generated Fall Data: Assessing LLMs and Diffusion Model for Wearable Fall Detection.人工智能生成的跌倒数据:评估用于可穿戴式跌倒检测的语言模型和扩散模型
Sensors (Basel). 2025 Aug 19;25(16):5144. doi: 10.3390/s25165144.
2
Text to Blind Motion.致盲运动的文本。
Adv Neural Inf Process Syst. 2024;37:16272-16285.
3
Genome-wide methylome modeling via generative AI incorporating long- and short-range interactions.通过整合长程和短程相互作用的生成式人工智能进行全基因组甲基化组建模。
Sci Adv. 2025 Apr 11;11(15):eadt4152. doi: 10.1126/sciadv.adt4152.
4
ASMNet: Action and Style-Conditioned Motion Generative Network for 3D Human Motion Generation.ASMNet:用于3D人体运动生成的动作与风格条件运动生成网络
Cyborg Bionic Syst. 2024 Feb 6;5:0090. doi: 10.34133/cbsystems.0090. eCollection 2024.