在音频驱动的视频生成中,制作普通话视频面临着巨大的挑战。收集全面的普通话数据集很困难,而且与英语相比,普通话中复杂的唇部动作使模型训练更加复杂。在本研究中,我们从京东健康公司员工那里收集了 29 小时的普通话语音视频,形成了 jdh-Hallo 数据 ...