每日最新AIGC进展(59):谷歌提出关键帧插值算法、谷歌研究院提出用实时游戏画面生成算法、中国科学院大学提出复杂场景图像生成算法

news/2024/9/13 10:28:15/文章来源:https://blog.csdn.net/qq_41895747/article/details/141761189

Diffusion Models专栏文章汇总:入门与实战

Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation

本研究提出了一种新颖的关键帧插值方法,旨在生成符合自然运动轨迹的连续视频片段。我们适应了已经训练好的图像到视频扩散模型,使其新模型能够在两个输入关键帧之间插值,从而输出一段流畅的视频。该方法的关键在于,充分利用现有模型已学到的运动统计信息,而无需从零开始进行细致的训练。我们的工作展示了如何将一个从单个输入图像生成前向运动视频的模型,通过精简的微调技术,转化为能够生成反向运动视频的版本。与传统方法相比,这种方法在生成合乎逻辑的运动视频方面实现了显著的性能提升,为图像到视频生成领域的研究开辟了新的方向。

该方法主要包括三个步骤:首先,针对某一输入图像进行轻量级反向运动微调,以使模型能够预测从该图像开始的反向运动视频;其次,在生成具有前向运动和反向运动的视频的过程中,确保两者之间存在一致性。为了实现这一点,我们设计了一个双向扩散采样过程,利用原始的前向扩散模型与微调后的反向模型。具体来说,模型通过旋转时间自注意力图,反转时间轴的运动关联。这一改进使得模型能够更好地理解如何在时间上从关键帧之间平滑过渡,并产生高质量的运动视频。此外,通过在扩散过程中融合前向预测与反向预测的噪声预测,确保生成的视频在时间上流畅且一致。

实验部分使用了两个高分辨率数据集进行验证:Davis数据集与Pexels数据集。我们从每个数据集中收集了一批关键帧对,并以此训练我们的模型。通过与现有的插值技术和基于扩散的方法进行比较,我们展示了所提出的模型在生成具有动态运动的视频时的优越性能,尤其是在处理时间间隔较大的关键帧时。研究结果表明,我们的模型在两个标准度量(FID和FVD)下均显著优于传统方法和同类技术。此外,在不同的输入条件下,我们的方法也展示了出色的适应能力,但在复杂运动(如非刚体运动)场景下仍存在一定局限性。

Diffusion Models Are Real-Time Game Engines

本文介绍了一种新型游戏引擎GameNGen,它完全基于神经网络模型,能够在复杂环境中实现实时交互模拟。GameNGen特别针对经典游戏《DOOM》进行了优化,能以每秒超过20帧的速度进行高质量的游戏互动。该模型通过两个阶段进行训练:首先,使用强化学习(RL)代理学习玩游戏并记录训练过程;其次,训练一个扩散模型来生成下一个游戏帧,基于过去帧和动作的序列来进行条件生成。研究表明,该模型在生成下一个帧时的峰值信噪比(PSNR)为29.4,接近有损JPEG压缩的性能。此外,参与评估的人工评分者在区分实际游戏和模拟视频时仅略高于随机猜测。

GameNGen的训练分为两个主要阶段。第一阶段涉及到创建一个强化学习代理,使其能够玩游戏并记录所有的游戏动作和观察数据。这个过程的目的是收集有代表性的游戏数据,这些数据会在第二阶段用作生成模型的训练集。在第二阶段中,采用预训练的扩散模型,可以生成游戏帧,而不再依赖文本条件。该生成模型通过将过去的帧和代理动作编码为潜在空间,在学习过程中进行条件生成。此外,为了减轻因自动回归生成引发的偏差,采用噪声增强技术来提高生成的稳定性和质量。最终,加入连接性强的多层网络以精细调节生成过程,将生成的游戏帧与真实帧的质量提升至可接受的水平。

在实验部分,通过使用人类评估者对生成的视频片段与实际游戏片段的比较,评估了GameNGen的效果。总共进行了多项测试,包括对画质、视频质量和人类识别准确性等多个指标的评估。研究团队采用PSNR和LPIPS指标衡量生成视频的质量,并发现生成质量与真实游戏相当。实验结果还表明,在自动回归模式下,尽管每一帧的质量随着时间的推移而下降,但整个生成过程依然保持相对稳定。通过不同数据集的记录和模型对比,验证了强化学习代理生成的数据优于随机策略的数据。总体而言,实验结果展示了GameNGen在长时间追踪游戏状态及生成高质量视频方面的潜力和有效性。

Draw Like an Artist: Complex Scene Generation with Diffusion Model via Composition, Painting, and Retouching

在此项研究中,作者提出了一种名为复杂扩散(Complex Diffusion, CxD)的训练自由的扩散框架,旨在解决复杂场景生成中的挑战。尽管文本转图像的扩散模型在图像质量上已经取得了显著的进展,但在处理涉及多个实体和复杂空间关系的复杂场景时,新开发的模型常常面临结构紊乱和对象关系不一致等问题。为了解决这一问题,研究团队给出了一个清晰的“复杂场景”定义,并基于这一定义提出一系列复杂性分解标准。CxD框架灵感源自艺术家的创作过程,划分为三个主要阶段:构图、绘画和修整。通过应用大型语言模型(LLM),该方法有效地将复杂提示拆解,从而改进了图像生成的一致性和多样性。

CxD的方法依据艺术创作的自然流程,将复杂场景的生成过程分为三个阶段。第一阶段是构图,此时使用LLM提取复杂提示中的实体和属性,并依据复杂性分解标准(CDC)来重新构建提示,确保项目间的空间布局合理。第二阶段是绘画,其中通过交叉注意力机制来处理生成的提示,确保每个对象在最终图像中的适当位置和关系。最后,在修整阶段,利用ControlNet模型对生成的图像进行细节增强和修正,以提升图像的清晰度和一致性。这一框架的创新之处在于采用了无训练的策略,与传统方法相比减少了额外的开销,同时保持了对复杂场景的高效处理能力。

为了验证所提出的CxD方法的有效性,研究团队进行了多项实验证明其在复杂场景生成中的卓越性能。通过与现有状态最先进的文本到图像模型进行对比,CxD展现了在生成高质量、语义一致和视觉多样性图像方面的显著优势。实验中,研究者对比了CxD与其他方法在复杂提示下图像生成的能力,指出CxD能有效处理包含多个实体、复杂空间关系及相互冲突的提示。在T2I-CompBench基准测试中,CxD达到新的领先表现,显示出其在物体关系处理和复杂场景生成任务中的独特优势,并且在大型模特应用中保持了良好的扩展性和一致性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ldbm.cn/p/438563.html

如若内容造成侵权/违法违规/事实不符,请联系编程新知网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习回归任务训练代码模版

深度学习回归任务训练代码模版 文章目录 深度学习回归任务训练代码模版参数设置功能函数数据加载自定义数据集加载类特征选择(可选)数据读取 定义模型训练模型训练迭代+验证迭代使用 tensorboard 输出模型训练过程和指标可视化(可选) 结果预测…

Vue学习:v-model绑定文本框、单选按钮、下拉菜单、复选框等

v-model指令可以在组件上使用以实现双向绑定&#xff0c;之前学习过v-model绑定文本框和下拉菜单&#xff0c;今天把表单的几个控件单选按钮radio、复选框checkbox、多行文本框textarea都试着绑定了一下。 一、单行文本框和多行文本框 <p>1.单行文本框</p> 用户名…

真实案例分享:零售企业如何避免销售数据的无效分析?

在零售业务的数据分析中&#xff0c;无效分析不仅浪费时间和资源&#xff0c;还可能导致错误的决策。为了避免这种情况&#xff0c;企业必须采取策略来确保他们的数据分析工作能够产生实际的商业价值。本文将通过行业内真实的案例&#xff0c;探讨零售企业如何通过精心设计的数…

【C语言进阶】C语言进阶教程:利用结构体、联合体和枚举自定义数据类型

&#x1f4dd;个人主页&#x1f339;&#xff1a;Eternity._ ⏩收录专栏⏪&#xff1a;C语言 “ 登神长阶 ” &#x1f921;往期回顾&#x1f921;&#xff1a;C语言内存管理函数 &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; ❀C语言自定义类型 &#…

运维领域的先进思想和趋势

在运维领域&#xff0c;除了“基础设施即代码&#xff08;IaC&#xff09;”之外&#xff0c;还有许多先进的思想和方法正在推动运维的进步。以下是一些关键的理念和趋势&#xff1a; 智能运维&#xff08;AIOps&#xff09;&#xff1a;利用人工智能和机器学习技术来自动化和优…

如何实现网页多标签tab通讯?

通过websocket 无跨域限制需要服务端支持&#xff0c;成本高通过localStorage同域通讯&#xff08;推荐&#xff09; 同域的A和B两个页面A页面设置localStorageB页面可监听到localStorage值的修改通过SharedWorker通讯 SharedWorker是WebWorker的一种WebWorker可开启子进程执行…

JavaWeb - Maven

Maven apache旗下的一个来源项目&#xff0c;一款用于管理和构建java项目的工具&#xff0c;它基于项目对象模型&#xff08;POM&#xff09;的概念&#xff0c;通过一小段描述信息来管理项目的构建。 作用 安装 解压官网下载的压缩包 配置本地仓库&#xff0c;修改conf/se…

机器学习(西瓜书)第 3 章 线性模型

3.1 基本形式 线性模型要做的有两类任务&#xff1a;分类任务、回归任务 分类的核心就是求出一条直线w的参数&#xff0c;使得直线上方和直线下方分别属于两类不同的样本 回归就是用来拟合尽可能多的点的分布的方法&#xff0c;我们可以通过拟合的直线知道一个新样本的相关数…

day47——面向对象特征之继承

一、继承&#xff08;inhert&#xff09; 面向对象三大特征&#xff1a;封装、继承、多态 继承&#xff1a;所谓继承&#xff0c;是类与类之间的关系。就是基于一个已有的类&#xff0c;来创建出一个新类的过程叫做继承。主要提高代码的复用性。 1.1 继承的作用 1> 实现…

Windows conda常用方法

这里写目录标题 conda链接jupyter conda链接jupyter 列出当前所有环境&#xff1a; conda env list 创建新环境&#xff1a; conda create -n your_env_name pythonX.X&#xff08;2.7、3.6、3.8等&#xff09; 激活环境&#xff1a; conda activate your_env_name 链接jupyte…

VXLAN 为何采用UDP

VXLAN 简介 VXLAN是一种网络虚拟化技术&#xff0c;它通过在UDP数据包中封装MAC地址和IP信息&#xff0c;使得二层网络&#xff08;如以太网&#xff09;能够跨越三层网络&#xff08;如IP网络&#xff09;进行扩展。这种封装方式不仅支持TCP流量的传输&#xff0c;还能有效处…

SpringCloud开发实战(四):Feign远程调用

目录 SpringCloud开发实战&#xff08;一&#xff09;&#xff1a;搭建SpringCloud框架 SpringCloud开发实战&#xff08;二&#xff09;&#xff1a;通过RestTemplate实现远程调用 SpringCloud开发实战&#xff08;三&#xff09;&#xff1a;集成Eureka注册中心 Feign简介 我…

机器学习(五) -- 监督学习(8) --神经网络1

机器学习系列文章目录及序言深度学习系列文章目录及序言 上篇&#xff1a;机器学习&#xff08;五&#xff09; -- 无监督学习&#xff08;2&#xff09; --降维2 下篇&#xff1a;机器学习&#xff08;五&#xff09; -- 监督学习&#xff08;8&#xff09; --神经网络2 前言…

基于SSM+MySQL的医院在线挂号系统

系统背景 在当前数字化转型浪潮的推动下&#xff0c;医疗服务行业正经历着前所未有的变革。随着人口老龄化的加剧、患者就医需求的日益增长以及医疗资源分布不均等问题的凸显&#xff0c;传统的就医模式已难以满足患者对于便捷、高效医疗服务的需求。因此&#xff0c;构建一套基…

设计模式 —— 单例模式

文章目录 一、单例模式1.1 单例模式定义1.2 单例模式的优点1.3 单例模式的缺点1.4 单例模式的使用场景 二、普通案例2.1 饿汉式单例模式(Eager Initialization Singleton)2.2 懒汉式单例模式(Lazy Initialization Singleton) 参考资料 本文源代码地址为 java-demos/singeleton-…

探索未来科技发展:芯片设计的创新之路

在当今这个日新月异的数字时代&#xff0c;芯片设计作为信息技术的核心驱动力&#xff0c;正以前所未有的速度推动着社会进步与产业升级。作为科技领域的璀璨明珠&#xff0c;芯片设计不仅关乎数据处理的速度与效率&#xff0c;更是人工智能、物联网、云计算等技术得以实现的基…

Docker 详解及详细配置讲解

Docker 简介 2008 年LXC(LinuX Contiainer)发布&#xff0c;但是没有行业标准&#xff0c;兼容性非常差 docker2013年首次发布&#xff0c;由Docker, Inc开发 什么是 Docker Docker是管理容器的引擎&#xff0c;为应用打包、部署平台&#xff0c;而非单纯的虚拟化技术&#xf…

不小心删除丢失了所有短信?如何在 iPhone 上查找和恢复误删除的短信

不小心删除了一条短信&#xff0c;或者丢失了所有短信&#xff1f;希望还未破灭&#xff0c;下面介绍如何在 iPhone 上查找和恢复已删除的短信。 短信通常都是非正式和无关紧要的&#xff0c;但短信中可能包含非常重要的信息。因此&#xff0c;如果您删除了一些短信以清理 iPh…

Python画笔案例-032 绘制螺旋扇子

1、绘制螺旋扇子 通过 python 的turtle 库绘螺旋扇子图&#xff0c;如下图&#xff1a; 2、实现代码 绘制螺旋扇子&#xff0c;以下为实现代码&#xff1a; """螺旋扇子.py """ import turtle from coloradd import * # 从coloradd命令导…

win12R2安装.NET Framework 3.5

一丶安装原因 因此插件的缺失, 有些软件或系统不支持安装. 二丶安装步骤 1丶下载.NET Framework 3.5 点击插件下载, 提取码: 1995, 下载完成之后解压到想要安装的位置上. 2丶打开 服务器管理器 3丶点击: 管理 -> 添加角色和功能 4丶点击下一步到服务器角色, 选择web服…