Skynet - a The-Great-Genius Collection

Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

The-Great-Genius 's Collections

Scientific Intelligence Academy (SIA)

Skynet

Skynet

updated about 6 hours ago

FLAME: Factuality-Aware Alignment for Large Language Models

Paper • 2405.01525 • Published May 2, 2024 • 27
DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data

Paper • 2405.14333 • Published May 23, 2024 • 40
Transformers Can Do Arithmetic with the Right Embeddings

Paper • 2405.17399 • Published May 27, 2024 • 53
EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture

Paper • 2405.18991 • Published May 29, 2024 • 12
The Prompt Report: A Systematic Survey of Prompting Techniques

Paper • 2406.06608 • Published Jun 6, 2024 • 58
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

Paper • 2406.06525 • Published Jun 10, 2024 • 67
Transformers meet Neural Algorithmic Reasoners

Paper • 2406.09308 • Published Jun 13, 2024 • 44
Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts

Paper • 2406.12034 • Published Jun 17, 2024 • 15
A Closer Look into Mixture-of-Experts in Large Language Models

Paper • 2406.18219 • Published Jun 26, 2024 • 16
DiffusionPDE: Generative PDE-Solving Under Partial Observation

Paper • 2406.17763 • Published Jun 25, 2024 • 24
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

Paper • 2406.18790 • Published Jun 26, 2024 • 34
Controlling Space and Time with Diffusion Models

Paper • 2407.07860 • Published Jul 10, 2024 • 17
Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

Paper • 2407.07071 • Published Jul 9, 2024 • 12
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Paper • 2408.11878 • Published Aug 20, 2024 • 57
Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models

Paper • 2408.15915 • Published Aug 28, 2024 • 19
Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

Paper • 2409.04109 • Published Sep 6, 2024 • 46
Training Language Models to Self-Correct via Reinforcement Learning

Paper • 2409.12917 • Published Sep 19, 2024 • 137
Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization

Paper • 2409.12903 • Published Sep 19, 2024 • 22
Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts

Paper • 2409.16040 • Published Sep 24, 2024 • 14
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

Paper • 2409.20566 • Published Sep 30, 2024 • 56
Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free

Paper • 2410.10814 • Published Oct 14, 2024 • 50
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization

Paper • 2411.02355 • Published Nov 4, 2024 • 48
POINTS1.5: Building a Vision-Language Model towards Real World Applications

Paper • 2412.08443 • Published Dec 11, 2024 • 38
Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions

Paper • 2412.08737 • Published Dec 11, 2024 • 53
Multimodal Latent Language Modeling with Next-Token Diffusion

Paper • 2412.08635 • Published Dec 11, 2024 • 44
Apollo: An Exploration of Video Understanding in Large Multimodal Models

Paper • 2412.10360 • Published Dec 13, 2024 • 140
RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

Paper • 2412.11919 • Published Dec 16, 2024 • 34
Smaller Language Models Are Better Instruction Evolvers

Paper • 2412.11231 • Published Dec 15, 2024 • 27
Learned Compression for Compressed Learning

Paper • 2412.09405 • Published Dec 12, 2024 • 13
GUI Agents: A Survey

Paper • 2412.13501 • Published Dec 18, 2024 • 25
RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

Paper • 2412.14922 • Published Dec 19, 2024 • 86
YuLan-Mini: An Open Data-efficient Language Model

Paper • 2412.17743 • Published Dec 23, 2024 • 65
Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

Paper • 2412.18619 • Published Dec 16, 2024 • 55
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

Paper • 2412.19326 • Published Dec 26, 2024 • 18
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

Paper • 2501.00874 • Published Jan 1 • 13
Personalized Graph-Based Retrieval for Large Language Models

Paper • 2501.02157 • Published Jan 4 • 29
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Paper • 2501.03262 • Published Jan 4 • 90
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

Paper • 2501.03847 • Published Jan 7 • 23
LLM4SR: A Survey on Large Language Models for Scientific Research

Paper • 2501.04306 • Published Jan 8 • 35
Search-o1: Agentic Search-Enhanced Large Reasoning Models

Paper • 2501.05366 • Published Jan 9 • 95
MinMo: A Multimodal Large Language Model for Seamless Voice Interaction

Paper • 2501.06282 • Published Jan 10 • 47
Transformer^2: Self-adaptive LLMs

Paper • 2501.06252 • Published Jan 9 • 53
ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

Paper • 2501.06590 • Published Jan 11 • 9
deepseek-ai/DeepSeek-V3

Text Generation • Updated 5 days ago • 3.29M • • 3.57k
Learnings from Scaling Visual Tokenizers for Reconstruction and Generation

Paper • 2501.09755 • Published Jan 16 • 34
RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation

Paper • 2501.08617 • Published Jan 15 • 10
Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

Paper • 2501.09686 • Published Jan 16 • 37
CityDreamer4D: Compositional Generative Model of Unbounded 4D Cities

Paper • 2501.08983 • Published Jan 15 • 20
Evolving Deeper LLM Thinking

Paper • 2501.09891 • Published Jan 17 • 106
HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution

Paper • 2501.10045 • Published Jan 17 • 9
Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation

Paper • 2501.12202 • Published Jan 21 • 34
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Paper • 2501.13106 • Published Jan 22 • 83
Autonomy-of-Experts Models

Paper • 2501.13074 • Published Jan 22 • 41
Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

Paper • 2501.17703 • Published about 1 month ago • 55
Optimizing Large Language Model Training Using FP4 Quantization

Paper • 2501.17116 • Published Jan 28 • 36
WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

Paper • 2501.18511 • Published 29 days ago • 19
SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer

Paper • 2501.18427 • Published 29 days ago • 17
Towards General-Purpose Model-Free Reinforcement Learning

Paper • 2501.16142 • Published Jan 27 • 26
Reward-Guided Speculative Decoding for Efficient LLM Reasoning

Paper • 2501.19324 • Published 28 days ago • 37
The Curse of Depth in Large Language Models

Paper • 2502.05795 • Published 20 days ago • 34
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

Paper • 2502.06703 • Published 18 days ago • 140
ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

Paper • 2502.04689 • Published 22 days ago • 7
Generating Symbolic World Models via Test-time Scaling of Large Language Models

Paper • 2502.04728 • Published 22 days ago • 18
MetaChain: A Fully-Automated and Zero-Code Framework for LLM Agents

Paper • 2502.05957 • Published 19 days ago • 16
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

Paper • 2502.05171 • Published 21 days ago • 120
Scaling Pre-training to One Hundred Billion Data for Vision Language Models

Paper • 2502.07617 • Published 17 days ago • 28
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!

Paper • 2502.07374 • Published 17 days ago • 35
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon

Paper • 2502.07445 • Published 17 days ago • 11
Next Block Prediction: Video Generation via Semi-Autoregressive Modeling

Paper • 2502.07737 • Published 17 days ago • 9
CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging

Paper • 2502.05664 • Published 20 days ago • 22
LLM Pretraining with Continuous Concepts

Paper • 2502.08524 • Published 16 days ago • 27
Retrieval-augmented Large Language Models for Financial Time Series Forecasting

Paper • 2502.05878 • Published 19 days ago • 38
Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training

Paper • 2502.06589 • Published 18 days ago • 17
Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning

Paper • 2502.06060 • Published 19 days ago • 32
SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models

Paper • 2502.09604 • Published 15 days ago • 32
Talk Structurally, Act Hierarchically: A Collaborative Framework for LLM Multi-Agent Systems

Paper • 2502.11098 • Published 12 days ago • 11
Large Language Diffusion Models

Paper • 2502.09992 • Published 15 days ago • 94
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

Paper • 2502.12146 • Published 11 days ago • 15
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

Paper • 2502.10458 • Published 17 days ago • 27
video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model

Paper • 2502.11775 • Published 11 days ago • 8
Intuitive physics understanding emerges from self-supervised pretraining on natural videos

Paper • 2502.11831 • Published 11 days ago • 16
FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading

Paper • 2502.11433 • Published 12 days ago • 31
Building A Proof-Oriented Programmer That Is 64% Better Than GPT-4o Under Data Scarsity

Paper • 2502.11901 • Published 11 days ago • 6
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

Paper • 2502.13922 • Published 9 days ago • 25
NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation

Paper • 2502.12638 • Published 10 days ago • 7
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

Paper • 2502.13128 • Published 10 days ago • 35
Craw4LLM: Efficient Web Crawling for LLM Pretraining

Paper • 2502.13347 • Published 10 days ago • 27
Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models

Paper • 2502.13533 • Published 9 days ago • 9
Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering

Paper • 2502.13962 • Published 9 days ago • 27
SearchRAG: Can Search Engines Be Helpful for LLM-based Medical Question Answering?

Paper • 2502.13233 • Published 10 days ago • 13
S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning

Paper • 2502.12853 • Published 10 days ago • 27
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?

Paper • 2502.14502 • Published 8 days ago • 80
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

Paper • 2502.14768 • Published 8 days ago • 42
RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

Paper • 2502.14377 • Published 8 days ago • 11
InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback

Paper • 2502.15027 • Published 8 days ago • 6
SurveyX: Academic Survey Automation via Large Language Models

Paper • 2502.14776 • Published 8 days ago • 88
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

Paper • 2502.16894 • Published 5 days ago • 22
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

Paper • 2502.17157 • Published 4 days ago • 48
Rank1: Test-Time Compute for Reranking in Information Retrieval

Paper • 2502.18418 • Published 3 days ago • 14

Collection guide
Browse collections

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs