6 29 18

Zesen Cheng

ClownRat

AI & ML interests

multi-modal foundation model; Segmentation, Detection, and Tracking;

Recent Activity

updated a model 43 minutes ago

ClownRat/resnet-50-torchvision

updated a model 2 days ago

ClownRat/resnet-101-torchvision

updated a model 3 days ago

ClownRat/mask2former-resnet-50-coco-instance

View all activity

Organizations

ClownRat's activity

updated a model 43 minutes ago

ClownRat/resnet-50-torchvision

Updated 43 minutes ago • 1.23k

updated a model 2 days ago

ClownRat/resnet-101-torchvision

Updated 2 days ago • 7

updated a model 3 days ago

ClownRat/mask2former-resnet-50-coco-instance

Updated 3 days ago • 433

updated a collection 5 days ago

Mask2Former

Collection

2 items • Updated 5 days ago

liked a dataset 6 days ago

ClownRat/COCO2017-Instance

Viewer • Updated 14 days ago • 123k • 9 • 1

updated a model 9 days ago

ClownRat/mask2former-resnet-101-coco-instance

Updated 9 days ago • 8

updated a dataset 14 days ago

ClownRat/COCO2017-Instance

Viewer • Updated 14 days ago • 123k • 9 • 1

upvoted 3 papers 18 days ago

Towards Universal Soccer Video Understanding

Paper • 2412.01820 • Published 23 days ago • 9

Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation

Paper • 2412.03304 • Published 21 days ago • 17

VisionZip: Longer is Better but Not Necessary in Vision Language Models

Paper • 2412.04467 • Published 20 days ago • 104

liked 3 datasets 18 days ago

upvoted 4 papers 19 days ago

Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

Paper • 2412.03565 • Published 21 days ago • 11

TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation

Paper • 2412.03069 • Published 21 days ago • 30

AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning

Paper • 2412.03248 • Published 21 days ago • 25

AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?

Paper • 2412.02611 • Published 22 days ago • 22

upvoted a paper 20 days ago

Critical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM's Reasoning Capability

Paper • 2411.19943 • Published 26 days ago • 55

liked a dataset 23 days ago

Share14/ShareGemini

Preview • Updated Jul 29 • 121 • 6