机构入驻 - 联系我们
您的当前位置: 首页 > 天下奇闻 > 科学探索 正文

孪生宇宙申请基于扩散Transfomer架构的数字人视频生成系统专利,降低计算复杂度

作者:eric 时间:2025-08-21
导读:金融界2025年8月18日消息,国家知识产权局信息显示,合肥孪生宇宙科技有限公司申请一项名为“一种基于扩散Transfomer架构的数字人视频生成系统”的专利,公开号CN120499471A,申请日期...

金融界2025年8月18日消息,国家知识产权局信息显示,合肥孪生宇宙科技有限公司申请一项名为“一种基于扩散Transfomer架上海人才落户材料,undefined构的数字人视频生成系统”的专利,公开号CN120499471A,申请日期为2025年05月。

专利摘要显示,本发明提供一种基于扩散Transfomer架构的数字人视频生成系统,该系统的建立方案包括以下内容:搭建多模态条件编码器,其中语音信号经Whisper模型提取音素‑韵律特征;搭建时空DiT主干网络,包括空间注意力层;时间卷积层;自适应归一化层;针对每一层,采用的分层训练策略包括第一阶段:冻结CLIP编码器,在Laion‑5B数据集预训练基础扩散模型;第二阶段:在VoxundefinedCeleb2视频数据集微调时空注意力模块;第三阶段:基于RLHF框架对齐人类审美偏好;针对实时推理部分进行优化。

本文源自金融界

打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

网友评论:

推荐使用友言、多说、畅言(需备案后使用)等社会化评论插件

Copyright © 2024 上海落户 版权所有
沪ICP备2021003381号
Top