Models
Datasets
Spaces
Posts
Docs
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2404.03592

🔍 Daily Picks in Interpretability & Analysis of LMs

Outstanding research in interpretability and evaluation of language models, summarized

ContextCite: Attributing Model Generation to Context

Paper • 2409.00729 • Published 19 days ago • 13
Residual Stream Analysis with Multi-Layer SAEs

Paper • 2409.04185 • Published 14 days ago
Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models

Paper • 2408.06663 • Published Aug 13 • 15
Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2

Paper • 2408.05147 • Published Aug 9 • 36

Rho-1: Not All Tokens Are What You Need

Paper • 2404.07965 • Published Apr 11 • 83
VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

Paper • 2404.10667 • Published Apr 16 • 15
Instruction-tuned Language Models are Better Knowledge Learners

Paper • 2402.12847 • Published Feb 20 • 24
DoRA: Weight-Decomposed Low-Rank Adaptation

Paper • 2402.09353 • Published Feb 14 • 24

ReFT: Representation Finetuning for Language Models

Paper • 2404.03592 • Published Apr 4 • 86

ReFT: Representation Finetuning for Language Models

Paper • 2404.03592 • Published Apr 4 • 86

ReFT: Representation Finetuning for Language Models

Paper • 2404.03592 • Published Apr 4 • 86

papers-efficiency

Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

Paper • 2404.02258 • Published Apr 2 • 103
ReFT: Representation Finetuning for Language Models

Paper • 2404.03592 • Published Apr 4 • 86

Papers - Fine-tuning - Report - Llama 7B and 13B

ReFT: Representation Finetuning for Language Models

Paper • 2404.03592 • Published Apr 4 • 86

Papers - Fine-tuning - ReFT

In this paper, we propose a strong alternative to PEFTs, LoReFT. LoReFT achieves strong per- formance across benchmarks from four domains while being

ReFT: Representation Finetuning for Language Models

Paper • 2404.03592 • Published Apr 4 • 86

The Unreasonable Ineffectiveness of the Deeper Layers

Paper • 2403.17887 • Published Mar 26 • 77
Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

Paper • 2404.02258 • Published Apr 2 • 103
ReFT: Representation Finetuning for Language Models

Paper • 2404.03592 • Published Apr 4 • 86
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Paper • 2404.03715 • Published Apr 4 • 59

Jamba: A Hybrid Transformer-Mamba Language Model

Paper • 2403.19887 • Published Mar 28 • 103
sDPO: Don't Use Your Data All at Once

Paper • 2403.19270 • Published Mar 28 • 38
ViTAR: Vision Transformer with Any Resolution

Paper • 2403.18361 • Published Mar 27 • 51
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Paper • 2403.18814 • Published Mar 27 • 44

Previous
1
2
3
Next

Company

© Hugging Face

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs