4 38 58

Kyle Tuft

Chilangosta

AI & ML interests

None yet

Recent Activity

liked a model 1 day ago

ibm-granite/granite-vision-3.2-2b

liked a model 3 days ago

Sukino/SillyTavern-Settings-and-Presets

liked a Space 3 days ago

Canyu/Diception-Demo

View all activity

Organizations

None yet

Chilangosta's activity

upvoted a paper 3 days ago

VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

Paper • 2502.17258 • Published 4 days ago • 58

upvoted a paper 10 days ago

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

Paper • 2502.12146 • Published 11 days ago • 15

upvoted a paper 11 days ago

Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation

Paper • 2502.08690 • Published 16 days ago • 39

upvoted a paper 12 days ago

MM-RLHF: The Next Step Forward in Multimodal LLM Alignment

Paper • 2502.10391 • Published 14 days ago • 30

upvoted a paper 14 days ago

CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

Paper • 2502.08639 • Published 16 days ago • 36

upvoted 2 papers 17 days ago

Scaling Pre-training to One Hundred Billion Data for Vision Language Models

Paper • 2502.07617 • Published 17 days ago • 28

Dual Caption Preference Optimization for Diffusion Models

Paper • 2502.06023 • Published 19 days ago • 9

upvoted 5 papers 18 days ago

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

Paper • 2502.05179 • Published 21 days ago • 22

AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

Paper • 2502.05176 • Published 21 days ago • 30

upvoted 3 papers 26 days ago

HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution

Paper • 2501.10045 • Published Jan 17 • 9

MMVU: Measuring Expert-Level Multi-Discipline Video Understanding

Paper • 2501.12380 • Published Jan 21 • 83

GSTAR: Gaussian Surface Tracking and Reconstruction

Paper • 2501.10283 • Published Jan 17 • 5

upvoted a paper about 1 month ago

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

Paper • 2501.13928 • Published Jan 23 • 17

upvoted 2 articles about 1 month ago

Article

The SOTA Text-to-speech and Zero Shot Voice cloning model that no one knows about...

•

Jan 20

• 62

Article

Timm ❤️ Transformers: Use any timm model with transformers

Jan 16

• 40

upvoted a paper about 1 month ago

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

Paper • 2501.09012 • Published Jan 15 • 10

upvoted a paper about 2 months ago

MinMo: A Multimodal Large Language Model for Seamless Voice Interaction

Paper • 2501.06282 • Published Jan 10 • 47