迈入2024年伊始的社交网络,一阵异常热闹的舞蹈潮风靡朋友圈。诸如兵马俑、马斯克以及众多网友模仿互联网热门舞蹈的视频不断刷新屏幕,但出人意料的是,视频中的“舞者”并非真人,而是由一款新型大模型应用生成的。这个名为“通义千问”的APP,让无数网友惊叹AI技术的神奇,能够治愈“四肢不协调”,将科目三的风潮带入考古界,甚至在热门舞蹈科目三中告别崴脚之烦恼。
这些视频片段约10秒左右,由用户上传的一张照片经过十几分钟的处理,即可变身为拥有自身面部特征、身材比例和服装样式的舞者,还原度非常高。目前,“通义千问”提供了如科目三、蒙古舞等多达12种流行的舞蹈模板,确保了各种风格的舞蹈爱好者都能找到自己的位置。
此次背后的技术功臣是阿里通义实验室独立研发的视频生成模型Animate Anyone,早在去年11月,就已在Twitter、Youtube等国际社交平台赢得了超过1亿的播放量和1万以上的Github星标。不少国际开发者和网友纷纷力赞其精湛的技术,并且急切希望能够尝试这一功能。
Animate Anyone模型与以往的视频生成技术相比,引入了多项革新性技术。通过ReferenceNet技术捕捉和保留图像信息,用户的面容、微表情和穿着都能得到精细再现;由Pose Guider姿态引导器保障动作的准确性和可控性;此外,时序生成模块还保证了视频帧间的流畅连贯,大大提升视频观感。
在国外诸多科技公司如谷歌、Meta、Runway等争相布局视频生成领域之时,Animate Anyone模型在同类模型中的表现尤为出色。它不仅在技术路线上大胆革新,更在实用性和用户体验上赢得了高度评价。
“通义千问”作为国内首批大模型备案成功的案例,自APP上线以来一直不断优化更新,除了视频生成,还融入了文本对话、语音对话、翻译、PPT大纲辅助、小红书文案等多种功能。这款APP的出现,不仅让机器智能在娱乐领域取得了新突破,更预示着AI技术在内容生成上的未来无限可能。