Model Evaluation - a Stalin16 Collection

Stalin16 's Collections

Model Evaluation

Reasoning Models

Data and other things

Gen AI Diffusion

Model Evaluation

updated 2 days ago

Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon

Paper • 2502.07445 • Published 10 days ago • 9
ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

Paper • 2502.04689 • Published 14 days ago • 7
Analyze Feature Flow to Enhance Interpretation and Steering in Language Models

Paper • 2502.03032 • Published 16 days ago • 55
Preference Leakage: A Contamination Problem in LLM-as-a-judge

Paper • 2502.01534 • Published 17 days ago • 37
SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

Paper • 2502.01639 • Published 17 days ago • 24
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

Paper • 2502.09621 • Published 7 days ago • 26
Logical Reasoning in Large Language Models: A Survey

Paper • 2502.09100 • Published 8 days ago • 20
IHEval: Evaluating Language Models on Following the Instruction Hierarchy

Paper • 2502.08745 • Published 8 days ago • 18