影响力指数

77.5/100

前 1.6%

全站排名 #1,041

发表论文29 篇

平均评分5.3

年均产出9.7 篇/年

Rongjie Huang

MS student@Zhejiang University·中国·OpenReview

研究方向

Deep generative model · speech · audio · singing

6.0

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

ICLR 2026Poster

4.8

AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching

ICLR 2026Poster

4.0

ReasonAudio: Semantic Reasoning and Temporal Synchrony in Video–Text-to-Audio Generation

ICLR 2026Withdrawn

一作

3.5

OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios

ICLR 2026Rejected

7.2

Lumina-T2X: Scalable Flow-based Large Diffusion Transformer for Flexible Resolution Generation

ICLR 2025Spotlight

6.6

OmniAudio: Generating Spatial Audio from 360-Degree Video

ICML 2025Poster

6.6

VoxDialogue: Can Spoken Dialogue Systems Understand Information Beyond Words?

ICLR 2025Poster

6.5

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

ICLR 2025Poster

6.3

OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

ICLR 2025Poster

6.0

OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup

ICLR 2025Poster

5.0

T2A-Feedback: Improving Basic Capabilities of Text-to-Audio Generation via Fine-grained AI Feedback

ICLR 2025Withdrawn

5.0

OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios

合作者 (20)

Rongjie Huang

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching

ReasonAudio: Semantic Reasoning and Temporal Synchrony in Video–Text-to-Audio Generation

OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios

Lumina-T2X: Scalable Flow-based Large Diffusion Transformer for Flexible Resolution Generation

OmniAudio: Generating Spatial Audio from 360-Degree Video

VoxDialogue: Can Spoken Dialogue Systems Understand Information Beyond Words?

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup

T2A-Feedback: Improving Basic Capabilities of Text-to-Audio Generation via Fine-grained AI Feedback

OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios

AVSET-10M: An Open Large-Scale Audio-Visual Dataset with High Correspondence

Noise-Robust Audio-Visual Speech-Driven Body Language Synthesis

MultiBand: Multi-Task Song Generation with Personalized Prompt-Based Control

MEDIC: Zero-shot Music Editing with Disentangled Inversion Control