이념과 목표
🤗 Transformers는 다음과 같은 목적으로 만들어진 독자적인 라이브러리입니다:
- 대규모 Transformers 모델을 사용하거나 연구하거나 확장하려는 기계 학습 연구원 및 교육자를 위한 것입니다.
- 모델을 미세 조정하거나 제작용으로 사용하고자 하는 실전 개발자를 위한 것입니다.
- 특정 기계 학습 작업을 해결하기 위해 사전훈련된 모델을 다운로드하고 사용하기만 하려는 엔지니어를 위한 것입니다.
이 라이브러리는 두 가지 주요 목표를 가지고 설계되었습니다:
- 사용하기 쉽고 빠르게 만드는 것:
- 학습해야 할 사용자 대상 추상화의 수를 제한했습니다. 실제로 거의 추상화가 없으며, 각 모델을 사용하기 위해 필요한 세 가지 표준 클래스인 configuration, models 및 전처리 클래스인 (tokenizer는 NLP용, image processor는 비전용, feature extractor는 오디오용, processor는 멀티모달 입력용)만 사용합니다.
- 이러한 클래스는 공통적인
from_pretrained()
메서드를 사용하여 미리 훈련된 인스턴스에서 간단하고 통일된 방식으로 초기화할 수 있습니다. 이 메소드는 미리 훈련된 체크포인트에서 관련 클래스 인스턴스와 관련 데이터(구성의 하이퍼파라미터, 토크나이저의 어휘, 모델의 가중치)를 (필요한 경우) 다운로드하고 캐시하며 가져옵니다. 체크포인트는 Hugging Face Hub에서 제공되거나 사용자 자체의 저장된 체크포인트에서 제공됩니다. - 이 세 가지 기본 클래스 위에 라이브러리는
pipeline()
API를 제공하여 주어진 작업에 대해 모델을 빠르게 추론하는 데 사용하고, Trainer를 제공하여 PyTorch 모델을 빠르게 훈련하거나 미세 조정할 수 있도록 합니다(모든 TensorFlow 모델은Keras.fit
과 호환됩니다). - 결과적으로, 이 라이브러리는 신경망을 구축하기 위한 모듈식 도구 상자가 아닙니다. 라이브러리를 확장하거나 구축하려면 일반적인 Python, PyTorch, TensorFlow, Keras 모듈을 사용하고 라이브러리의 기본 클래스를 상속하여 모델 로딩 및 저장과 같은 기능을 재사용하면 됩니다. 모델에 대한 코딩 철학에 대해 더 자세히 알고 싶다면 Repeat Yourself 블로그 글을 확인해보세요.
- 원래 모델과 가능한 한 근접한 성능을 제공하는 최신 모델을 제공하는 것:
- 각 아키텍처에 대해 공식 저자가 제공한 결과를 재현하는 적어도 한 가지 예제를 제공합니다.
- 코드는 원래 코드와 가능한 한 유사하게 유지되므로 PyTorch 코드는 TensorFlow 코드로 변환되어 pytorchic하지 않을 수 있고, 그 반대의 경우도 마찬가지입니다.
기타 목표 몇 가지:
모델의 내부를 가능한 일관되게 노출시키기:
- 전체 은닉 상태와 어텐션 가중치에 대한 액세스를 단일 API를 사용하여 제공합니다.
- 전처리 클래스 및 기본 모델 API는 모델 간에 쉽게 전환할 수 있도록 표준화되어 있습니다.
미세 조정 및 모델 탐색을 위한 유망한 도구들을 주관적으로 선택하기:
- 미세 조정을 위해 어휘 및 임베딩에 새로운 토큰을 간단하고 일관된 방식으로 추가하는 방법을 제공합니다.
- Transformer 헤드를 마스킹하고 가지치기하는 간단한 방법을 제공합니다.
PyTorch, TensorFlow 2.0 및 Flax 간에 쉽게 전환할 수 있도록 하여 하나의 프레임워크로 훈련하고 다른 프레임워크로 추론할 수 있게 합니다.
주요 개념
이 라이브러리는 각 모델에 대해 세 가지 유형의 클래스를 기반으로 구축되었습니다:
- 모델 클래스는 라이브러리에서 제공하는 사전 훈련된 가중치와 함께 작동하는 PyTorch 모델(torch.nn.Module), Keras 모델(tf.keras.Model), JAX/Flax 모델(flax.linen.Module)일 수 있습니다.
- 구성 클래스는 모델을 구축하는 데 필요한 하이퍼파라미터(예: 레이어 수 및 은닉 크기)를 저장합니다. 구성 클래스를 직접 인스턴스화할 필요는 없습니다. 특히, 수정 없이 고 사전 학습된 모델을 사용하는 경우 모델을 생성하면 모델의 일부인 구성을 자동으로 인스턴스화됩니다.
- 전처리 클래스는 원시 데이터를 모델이 수용하는 형식으로 변환합니다. Tokenizer는 각 모델의 어휘를 저장하고, 문자열을 토큰 임베딩 인덱스 리스트로 인코딩하고 디코딩하기 위한 메소드를 제공합니다. Image processors는 비전 입력을 전처리하고, feature extractors는 오디오 입력을 전처리하며, processor는 멀티모달 입력을 처리합니다.
모든 이러한 클래스는 사전 훈련된 인스턴스에서 인스턴스화하고 로컬로 저장하며, 세 가지 메소드를 사용하여 Hub에서 공유할 수 있습니다:
from_pretrained()
메소드를 사용하면 라이브러리 자체에서 제공하는 사전 훈련된 버전(지원되는 모델은 Model Hub에서 찾을 수 있음)이나 사용자가 로컬로 저장한 경우(또는 서버에 저장한 경우)의 모델, 구성 및 전처리 클래스를 인스턴스화할 수 있습니다.save_pretrained()
메소드를 사용하면 모델, 구성 및 전처리 클래스를 로컬로 저장하여from_pretrained()
를 사용하여 다시 가져올 수 있습니다.push_to_hub()
메소드를 사용하면 모델, 구성 및 전처리 클래스를 Hub에 공유하여 모두에게 쉽게 접근할 수 있습니다.