Transformers documentation

BERT

Transformers

You are viewing main version, which requires installation from source. If you'd like regular pip install, checkout the latest stable version (v4.46.2).

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

BERT

개요

BERT 모델은 Jacob Devlin. Ming-Wei Chang, Kenton Lee, Kristina Touranova가 제안한 논문 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding에서 소개되었습니다. BERT는 사전 학습된 양방향 트랜스포머로, Toronto Book Corpus와 Wikipedia로 구성된 대규모 코퍼스에서 마스킹된 언어 모델링과 다음 문장 예측(Next Sentence Prediction) 목표를 결합해 학습되었습니다.

해당 논문의 초록입니다:

우리는 BERT(Bidirectional Encoder Representations from Transformers)라는 새로운 언어 표현 모델을 소개합니다. 최근의 다른 언어 표현 모델들과 달리, BERT는 모든 계층에서 양방향으로 양쪽 문맥을 조건으로 사용하여 비지도 학습된 텍스트에서 깊이 있는 양방향 표현을 사전 학습하도록 설계되었습니다. 그 결과, 사전 학습된 BERT 모델은 추가적인 출력 계층 하나만으로 질문 응답, 언어 추론과 같은 다양한 작업에서 미세 조정될 수 있으므로, 특정 작업을 위해 아키텍처를 수정할 필요가 없습니다.

BERT는 개념적으로 단순하면서도 실증적으로 강력한 모델입니다. BERT는 11개의 자연어 처리 과제에서 새로운 최고 성능을 달성했으며, GLUE 점수를 80.5% (7.7% 포인트 절대 개선)로, MultiNLI 정확도를 86.7% (4.6% 포인트 절대 개선), SQuAD v1.1 질문 응답 테스트에서 F1 점수를 93.2 (1.5% 포인트 절대 개선)로, SQuAD v2.0에서 F1 점수를 83.1 (5.1% 포인트 절대 개선)로 향상시켰습니다.

이 모델은 thomwolf가 기여하였습니다. 원본 코드는 여기에서 확인할 수 있습니다.

사용 팁

BERT는 절대 위치 임베딩을 사용하는 모델이므로 입력을 왼쪽이 아니라 오른쪽에서 패딩하는 것이 일반적으로 권장됩니다.
BERT는 마스킹된 언어 모델(MLM)과 Next Sentence Prediction(NSP) 목표로 학습되었습니다. 이는 마스킹된 토큰 예측과 전반적인 자연어 이해(NLU)에 뛰어나지만, 텍스트 생성에는 최적화되어있지 않습니다.
BERT의 사전 학습 과정에서는 입력 데이터를 무작위로 마스킹하여 일부 토큰을 마스킹합니다. 전체 토큰 중 약 15%가 다음과 같은 방식으로 마스킹됩니다:
- 80% 확률로 마스크 토큰으로 대체
- 10% 확률로 임의의 다른 토큰으로 대체
- 10% 확률로 원래 토큰 그대로 유지
모델의 주요 목표는 원본 문장을 예측하는 것이지만, 두 번째 목표가 있습니다: 입력으로 문장 A와 B (사이에는 구분 토큰이 있음)가 주어집니다. 이 문장 쌍이 연속될 확률은 50%이며, 나머지 50%는 서로 무관한 문장들입니다. 모델은 이 두 문장이 아닌지를 예측해야 합니다.

Scaled Dot Product Attention(SDPA) 사용하기

Pytorch는 torch.nn.functional의 일부로 Scaled Dot Product Attention(SDPA) 연산자를 기본적으로 제공합니다. 이 함수는 입력과 하드웨어에 따라 여러 구현 방식을 사용할 수 있습니다. 자세한 내용은 공식 문서나 GPU Inference에서 확인할 수 있습니다.

torch>=2.1.1에서는 구현이 가능한 경우 SDPA가 기본적으로 사용되지만, from_pretrained()함수에서 attn_implementation="sdpa"를 설정하여 SDPA를 명시적으로 사용하도록 지정할 수도 있습니다.

from transformers import BertModel

model = BertModel.from_pretrained("bert-base-uncased", torch_dtype=torch.float16, attn_implementation="sdpa")
...

최적 성능 향상을 위해 모델을 반정밀도(예: torch.float16 또는 torch.bfloat16)로 불러오는 것을 권장합니다.

로컬 벤치마크 (A100-80GB, CPUx12, RAM 96.6GB, PyTorch 2.2.0, OS Ubuntu 22.04)에서 float16을 사용해 학습 및 추론을 수행한 결과, 다음과 같은 속도 향상이 관찰되었습니다.

학습

batch_size	seq_len	Time per batch (eager - s)	Time per batch (sdpa - s)	Speedup (%)	Eager peak mem (MB)	sdpa peak mem (MB)	Mem saving (%)
4	256	0.023	0.017	35.472	939.213	764.834	22.800
4	512	0.023	0.018	23.687	1970.447	1227.162	60.569
8	256	0.023	0.018	23.491	1594.295	1226.114	30.028
8	512	0.035	0.025	43.058	3629.401	2134.262	70.054
16	256	0.030	0.024	25.583	2874.426	2134.262	34.680
16	512	0.064	0.044	46.223	6964.659	3961.013	75.830

추론

batch_size	seq_len	Per token latency eager (ms)	Per token latency SDPA (ms)	Speedup (%)	Mem eager (MB)	Mem BT (MB)	Mem saved (%)
1	128	5.736	4.987	15.022	282.661	282.924	-0.093
1	256	5.689	4.945	15.055	298.686	298.948	-0.088
2	128	6.154	4.982	23.521	314.523	314.785	-0.083
2	256	6.201	4.949	25.303	347.546	347.033	0.148
4	128	6.049	4.987	21.305	378.895	379.301	-0.107
4	256	6.285	5.364	17.166	443.209	444.382	-0.264

자료

BERT를 시작하는 데 도움이 되는 Hugging Face와 community 자료 목록(🌎로 표시됨) 입니다. 여기에 포함될 자료를 제출하고 싶다면 PR(Pull Request)를 열어주세요. 리뷰 해드리겠습니다! 자료는 기존 자료를 복제하는 대신 새로운 내용을 담고 있어야 합니다.

Text Classification

BERT 텍스트 분류 (다른 언어로)에 대한 블로그 포스트.
다중 레이블 텍스트 분류를 위한 BERT (및 관련 모델) 미세 조정에 대한 노트북.
PyTorch를 이용해 BERT를 다중 레이블 분류를 위해 미세 조정하는 방법에 대한 노트북. 🌎
BERT로 EncoderDecoder 모델을 warm-start하여 요약하기에 대한 노트북.
BertForSequenceClassification이 예제 스크립트와 노트북에서 지원됩니다.
TFBertForSequenceClassification이 예제 스크립트와 노트북에서 지원됩니다.
FlaxBertForSequenceClassification이 예제 스크립트와 노트북에서 지원됩니다.
텍스트 분류 작업 가이드

Token Classification

Keras와 함께 Hugging Face Transformers를 사용하여 비영리 BERT를 개체명 인식(NER)용으로 미세 조정하는 방법에 대한 블로그 포스트.
BERT를 개체명 인식을 위해 미세 조정하기에 대한 노트북. 각 단어의 첫 번째 wordpiece에만 레이블을 지정하여 학습하는 방법을 설명합니다. 모든 wordpiece에 레이블을 전파하는 방법은 이 버전에서 확인할 수 있습니다.
BertForTokenClassification이 예제 스크립트와 노트북에서 지원됩니다.
TFBertForTokenClassification이 예제 스크립트와 노트북에서 지원됩니다.
FlaxBertForTokenClassification이 예제 스크립트에서 지원됩니다.
🤗 Hugging Face 코스의 토큰 분류 챕터.
토큰 분류 작업 가이드

Fill-Mask

BertForMaskedLM이 예제 스크립트와 노트북에서 지원됩니다.
TFBertForMaskedLM이 예제 스크립트 와 노트북에서 지원됩니다.
FlaxBertForMaskedLM이 예제 스크립트와 노트북에서 지원됩니다.
🤗 Hugging Face 코스의 마스킹된 언어 모델링 챕터.
마스킹된 언어 모델링 작업 가이드

Question Answering

BertForQuestionAnswering이 예제 스크립트와 노트북에서 지원됩니다.
TFBertForQuestionAnswering이 예제 스크립트 와 노트북에서 지원됩니다.
FlaxBertForQuestionAnswering이 예제 스크립트에서 지원됩니다.
🤗 Hugging Face 코스의 질문 답변 챕터.
질문 답변 작업 가이드

다중 선택

BertForMultipleChoice이 예제 스크립트와 노트북에서 지원됩니다.
TFBertForMultipleChoice이 에제 스크립트와 노트북에서 지원됩니다.
다중 선택 작업 가이드

⚡️ 추론

Hugging Face Transformers와 AWS Inferentia를 사용하여 BERT 추론을 가속화하는 방법에 대한 블로그 포스트.
GPU에서 DeepSpeed-Inference로 BERT 추론을 가속화하는 방법에 대한 블로그 포스트.

⚙️ 사전 학습

Hugging Face Optimum으로 Transformers를 ONMX로 변환하는 방법에 대한 블로그 포스트.

🚀 배포

Hugging Face Optimum으로 Transformers를 ONMX로 변환하는 방법에 대한 블로그 포스트.
AWS에서 Hugging Face Transformers를 위한 Habana Gaudi 딥러닝 환경 설정 방법에 대한 블로그 포스트.
Hugging Face Transformers, Amazon SageMaker 및 Terraform 모듈을 이용한 BERT 자동 확장에 대한 블로그 포스트.
Hugging Face, AWS Lambda, Docker를 활용하여 서버리스 BERT 설정하는 방법에 대한 블로그 포스트.
Amazon SageMaker와 Training Compiler를 사용하여 Hugging Face Transformers에서 BERT 미세 조정하는 방법에 대한 블로그.
Amazon SageMaker를 사용한 Transformers와 BERT의 작업별 지식 증류에 대한 블로그 포스트.

Transformers

BERT

개요

사용 팁

Scaled Dot Product Attention(SDPA) 사용하기

학습

추론

자료

BertConfig

class transformers.BertConfig

BertTokenizer

class transformers.BertTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

BertTokenizerFast

class transformers.BertTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

TFBertTokenizer

class transformers.TFBertTokenizer

from_pretrained

from_tokenizer

Bert specific outputs

class transformers.models.bert.modeling_bert.BertForPreTrainingOutput

class transformers.models.bert.modeling_tf_bert.TFBertForPreTrainingOutput

class transformers.models.bert.modeling_flax_bert.FlaxBertForPreTrainingOutput

replace

BertModel

class transformers.BertModel

forward

BertForPreTraining

class transformers.BertForPreTraining

forward

BertLMHeadModel

class transformers.BertLMHeadModel

forward

BertForMaskedLM

class transformers.BertForMaskedLM

forward

BertForNextSentencePrediction

class transformers.BertForNextSentencePrediction

forward

BertForSequenceClassification

class transformers.BertForSequenceClassification

forward

BertForMultipleChoice

class transformers.BertForMultipleChoice

forward

BertForTokenClassification

class transformers.BertForTokenClassification

forward

BertForQuestionAnswering

class transformers.BertForQuestionAnswering

forward

TFBertModel

class transformers.TFBertModel

call

TFBertForPreTraining

class transformers.TFBertForPreTraining

call

TFBertModelLMHeadModel

class transformers.TFBertLMHeadModel

call

TFBertForMaskedLM

class transformers.TFBertForMaskedLM

call

TFBertForNextSentencePrediction

class transformers.TFBertForNextSentencePrediction

call

TFBertForSequenceClassification

class transformers.TFBertForSequenceClassification

call

TFBertForMultipleChoice

class transformers.TFBertForMultipleChoice

call

TFBertForTokenClassification

class transformers.TFBertForTokenClassification

call

call

call

call

call

call

call

call

call

call