Paper Archive

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

0

9.0/10

Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai 3/19/2026 arxiv

computer vision

While Multimodal Large Language Models demonstrate impressive semantic capabilities, they often suffer from spatial blindness, struggling with fine-grained geometric reasoning and physical dynamics. Existing solutions typically rely on explicit 3D modalities or complex geometric scaffolding, which a...

Keywords: VEGA-3D, video diffusion, implicit 3D priors, Latent World Simulator, token-level adaptive gated fusion, spatiotemporal features, multimodal LLMs, scene understanding

View Paper

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

0

9.0/10

Yuqing Wang, Chuofan Ma, Zhijie Lin, Yao Teng, Lijun Yu, Shuai Wang, Jiaming Han, Jiashi Feng, Yi Jiang, Xihui Liu 3/19/2026 arxiv

computer vision

Visual generation with discrete tokens has gained significant attention as it enables a unified token prediction paradigm shared with language models, promising seamless multimodal architectures. However, current discrete generation methods remain limited to low-dimensional latent tokens (typically ...

Keywords: Cubic Discrete Diffusion, discrete diffusion, high-dimensional tokens, representation learning, multimodal, ImageNet-256

View Paper

Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models

0

9.0/10

Bryce Grant, Xijia Zhao, Peng Wang 3/19/2026 arxiv

robotics

Vision-Language-Action (VLA) models combine perception, language, and motor control in a single architecture, yet how they translate multimodal inputs into actions remains poorly understood. We apply activation injection, sparse autoencoders (SAEs), and linear probes to six models spanning 80M--7B p...

Keywords: vision-language-action, activation injection, sparse autoencoders, linear probes, mechanistic interpretability, robot control, contrastive identification, Action Atlas

View Paper

MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

0

9.0/10

Haitian Li, Haozhe Xie, Junxiang Xu, Beichen Wen, Fangzhou Hong, Ziwei Liu 3/19/2026 arxiv

computer vision

Reconstructing articulated 3D objects from a single image requires jointly inferring object geometry, part structure, and motion parameters from limited visual evidence. A key difficulty lies in the entanglement between motion cues and object structure, which makes direct articulation regression uns...

Keywords: MonoArt, monocular 3D reconstruction, articulated objects, progressive structural reasoning, canonical geometry, part representations, motion-aware embeddings, PartNet-Mobility

View Paper

NavTrust: Benchmarking Trustworthiness for Embodied Navigation

0

9.0/10

Huaide Jiang, Yash Chaudhary, Yuping Wang, Zehao Wang, Raghav Sharma, Manan Mehta, Yang Zhou, Lichao Sun, Zhiwen Fan, Zhengzhong Tu, Jiachen Li 3/19/2026 arxiv

machine learning

There are two major categories of embodied navigation: Vision-Language Navigation (VLN), where agents navigate by following natural language instructions; and Object-Goal Navigation (OGN), where agents navigate to a specified target object. However, existing work primarily evaluates model performanc...

Keywords: NavTrust, embodied navigation, VLN, OGN, robustness, benchmark, RGB corruptions, depth corruptions

View Paper

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

0

9.0/10

Chenyang Gu, Mingyuan Zhang, Haozhe Xie, Zhongang Cai, Lei Yang, Ziwei Liu 3/19/2026 arxiv

machine learning

Prior motion generation largely follows two paradigms: continuous diffusion models that excel at kinematic control, and discrete token-based generators that are effective for semantic conditioning. To combine their strengths, we propose a three-stage framework comprising condition feature extraction...

Keywords: diffusion models, discrete tokens, motion generation, MoTok, Perception-Planning-Control, HumanML3D, MaskControl, kinematic constraints

View Paper

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

0

9.0/10

Xinyao Zhang, Wenkai Dong, Yuxin Song, Bo Fang, Qi Zhang, Jing Wang, Fan Chen, Hui Zhang, Haocheng Feng, Yu Lu, Hang Zhou, Chun Yuan, Jingdong Wang 3/19/2026 arxiv

computer vision

Current instruction-guided video editing models struggle to simultaneously balance precise semantic modifications with faithful motion preservation. While existing approaches rely on injecting explicit external priors (e.g., VLM features or structural conditions) to mitigate these issues, this relia...

Keywords: video editing, semantic anchoring, motion alignment, pre-training, instruction-guided, video restoration, zero-shot, SAMA

View Paper

Under One Sun: Multi-Object Generative Perception of Materials and Illumination

0

9.0/10

Nobuo Yoshii, Xinran Nicole Han, Ryo Kawahara, Todd Zickler, Ko Nishino 3/19/2026 arxiv

computer vision

We introduce Multi-Object Generative Perception (MultiGP), a generative inverse rendering method for stochastic sampling of all radiometric constituents -- reflectance, texture, and illumination -- underlying object appearance from a single image. Our key idea to solve this inherently ambiguous radi...

Keywords: inverse rendering, reflectance, illumination, texture, radiometric disentanglement, diffusion, Coordinated Guidance, Axial Attention

View Paper

FinTradeBench: A Financial Reasoning Benchmark for LLMs

0

9.0/10

Yogesh Agrawal, Aniruddha Dutta, Md Mahadi Hasan, Santu Karmaker, Aritra Dutta 3/19/2026 arxiv

machine learning

Real-world financial decision-making is a challenging problem that requires reasoning over heterogeneous signals, including company fundamentals derived from regulatory filings and trading signals computed from price dynamics. Recently, with the advancement of Large Language Models (LLMs), financial...

Keywords: FinTradeBench, financial reasoning, benchmark, LLM, trading signals, fundamentals, time-series, numerical reasoning

View Paper

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

0

9.0/10

Yang Fu, Yike Zheng, Ziyun Dai, Henghui Ding 3/19/2026 arxiv

computer vision

Video object removal aims to eliminate dynamic target objects and their visual effects, such as deformation, shadows, and reflections, while restoring seamless backgrounds. Recent diffusion-based video inpainting and object removal methods can remove the objects but often struggle to erase these eff...

Keywords: video object removal, video inpainting, VOR dataset, EffectErase, reciprocal learning, insertion-removal consistency, task-aware region guidance, effects erasing

View Paper

Export Archive Data

Browse by Date

Papers for March 20, 2026

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models

MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

NavTrust: Benchmarking Trustworthiness for Embodied Navigation

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Under One Sun: Multi-Object Generative Perception of Materials and Illumination

FinTradeBench: A Financial Reasoning Benchmark for LLMs

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing