AI新工具

blog-thum
Video-to-Audio

本研究提出了一种视频转音频生成方法,实现语义与时间对齐的音频内容生成。

read more
blog-thum
SOLO

SOLO 是一种单一 Transformer 架构的统一视觉语言模型,接受图像和文本输入。

read more
blog-thum
Image Conductor

Image Conductor通过精确控制相机和物体的运动实现从单张图像生成交互视频。

read more
blog-thum
STORM

STORM是一种通过检索和多视角提问生成主题大纲的LLM系统。

read more
blog-thum
Motion Modeling

Disentangled Motion Modeling是一种用于视频帧插值的技术,通过分离运动建模提高插值效果。

read more