2 147

Lei Wang

demolei

https://demoleiwang.github.io/HomePage/

AI & ML interests

LLMs

Recent Activity

upvoted a paper 2 days ago

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

upvoted a paper 2 days ago

Kimi k1.5: Scaling Reinforcement Learning with LLMs

upvoted a paper 2 days ago

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

View all activity

Organizations

demolei's activity

upvoted 10 papers 2 days ago

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Paper • 2501.12570 • Published 14 days ago • 23

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Paper • 2501.12599 • Published 14 days ago • 85

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published 14 days ago • 292

Chain-of-Retrieval Augmented Generation

Paper • 2501.14342 • Published 12 days ago • 46

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Paper • 2501.17161 • Published 7 days ago • 98

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

Paper • 2501.17703 • Published 7 days ago • 49

upvoted 4 papers 13 days ago

PaSa: An LLM Agent for Comprehensive Academic Paper Search

Paper • 2501.10120 • Published 19 days ago • 42

Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks

Paper • 2501.11733 • Published 15 days ago • 27

Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments

Paper • 2501.10893 • Published 17 days ago • 23

Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

Paper • 2501.11425 • Published 16 days ago • 90

upvoted 3 papers 23 days ago

URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

Paper • 2501.04686 • Published 27 days ago • 50

Search-o1: Agentic Search-Enhanced Large Reasoning Models

Paper • 2501.05366 • Published 27 days ago • 89

Agent Laboratory: Using LLM Agents as Research Assistants

Paper • 2501.04227 • Published 28 days ago • 84

upvoted 3 papers 27 days ago

HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

Paper • 2412.18925 • Published Dec 25, 2024 • 98

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

Paper • 2501.03124 • Published 30 days ago • 14

Test-time Computing: from System-1 Thinking to System-2 Thinking

Paper • 2501.02497 • Published about 1 month ago • 41