OpenELM-270M_chat

Runtime error

App Files Files Community

JUNGU commited on May 2, 2024

Commit

33cc946

verified ·

1 Parent(s): c662eeb

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -10

app.py CHANGED Viewed

@@ -11,25 +11,30 @@ import spaces
 import time
 import subprocess
 subprocess.run(
     "pip install flash-attn --no-build-isolation",
     env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
     shell=True,
 )
 token = os.environ["HF_TOKEN"]
 model = AutoModelForCausalLM.from_pretrained(
     "microsoft/Phi-3-mini-128k-instruct",
     token=token,
     trust_remote_code=True,
 )
 tok = AutoTokenizer.from_pretrained("microsoft/Phi-3-mini-128k-instruct", token=token)
 terminators = [
     tok.eos_token_id,
 ]
 if torch.cuda.is_available():
     device = torch.device("cuda")
     print(f"Using GPU: {torch.cuda.get_device_name(device)}")
@@ -38,37 +43,46 @@ else:
     print("Using CPU")
 model = model.to(device)
-# Dispatch Errors
 @spaces.GPU(duration=60)
 def chat(message, history, temperature, do_sample, max_tokens):
     chat = []
     for item in history:
         chat.append({"role": "user", "content": item[0]})
         if item[1] is not None:
             chat.append({"role": "assistant", "content": item[1]})
     chat.append({"role": "user", "content": message})
     messages = tok.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
     model_inputs = tok([messages], return_tensors="pt").to(device)
     streamer = TextIteratorStreamer(
         tok, timeout=20.0, skip_prompt=True, skip_special_tokens=True
     )
     generate_kwargs = dict(
         model_inputs,
         streamer=streamer,
-        max_new_tokens=max_tokens,
-        do_sample=True,
-        temperature=temperature,
-        eos_token_id=terminators,
     )
     if temperature == 0:
         generate_kwargs["do_sample"] = False
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()
     partial_text = ""
     for new_text in streamer:
         partial_text += new_text
@@ -76,11 +90,10 @@ def chat(message, history, temperature, do_sample, max_tokens):
     yield partial_text
 demo = gr.ChatInterface(
     fn=chat,
     examples=[["Write me a poem about Machine Learning."]],
-    # multimodal=False,
     additional_inputs_accordion=gr.Accordion(
         label="⚙️ Parameters", open=False, render=False
     ),
@@ -102,4 +115,6 @@ demo = gr.ChatInterface(
     title="Chat With LLMs",
     description="Now Running [microsoft/Phi-3-mini-128k-instruct](https://huggingface.co/microsoft/Phi-3-mini-128k-instruct)",
 )
-demo.launch()

 import time
 import subprocess
+# flash-attn 라이브러리 설치. CUDA 빌드는 건너뜀.
 subprocess.run(
     "pip install flash-attn --no-build-isolation",
     env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
     shell=True,
 )
+# Hugging Face 토큰 가져오기
 token = os.environ["HF_TOKEN"]
+# microsoft/Phi-3-mini-128k-instruct 모델과 토크나이저 로드
 model = AutoModelForCausalLM.from_pretrained(
     "microsoft/Phi-3-mini-128k-instruct",
     token=token,
     trust_remote_code=True,
 )
 tok = AutoTokenizer.from_pretrained("microsoft/Phi-3-mini-128k-instruct", token=token)
+# 종료 토큰 ID 설정
 terminators = [
     tok.eos_token_id,
 ]
+# GPU가 사용 가능한 경우 GPU로, 아니면 CPU로 모델 로드
 if torch.cuda.is_available():
     device = torch.device("cuda")
     print(f"Using GPU: {torch.cuda.get_device_name(device)}")
     print("Using CPU")
 model = model.to(device)
+# Spaces의 GPU 자원을 사용하여 chat 함수 실행. 최대 60초 동안 GPU 자원 사용 가능.
 @spaces.GPU(duration=60)
 def chat(message, history, temperature, do_sample, max_tokens):
+    # 채팅 기록을 적절한 형식으로 변환
     chat = []
     for item in history:
         chat.append({"role": "user", "content": item[0]})
         if item[1] is not None:
             chat.append({"role": "assistant", "content": item[1]})
     chat.append({"role": "user", "content": message})
+    # 토크나이저를 사용하여 입력 처리
     messages = tok.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
     model_inputs = tok([messages], return_tensors="pt").to(device)
+    # TextIteratorStreamer를 사용하여 모델 출력 스트리밍
     streamer = TextIteratorStreamer(
         tok, timeout=20.0, skip_prompt=True, skip_special_tokens=True
     )
+    # 생성 관련 매개변수 설정
     generate_kwargs = dict(
         model_inputs,
         streamer=streamer,
+        max_new_tokens=max_tokens,  # 생성할 최대 새 토큰 수
+        do_sample=True,  # 샘플링 여부
+        temperature=temperature,  # 온도 매개변수. 높을수록 다양성 증가
+        eos_token_id=terminators,  # 종료 토큰 ID
     )
+    # 온도가 0이면 샘플링하지 않음
     if temperature == 0:
         generate_kwargs["do_sample"] = False
+    # 별도 스레드에서 모델 생성 시작
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()
+    # 생성된 텍스트를 반복적으로 yield
     partial_text = ""
     for new_text in streamer:
         partial_text += new_text
     yield partial_text
+# Gradio의 ChatInterface를 사용하여 대화형 인터페이스 생성
 demo = gr.ChatInterface(
     fn=chat,
     examples=[["Write me a poem about Machine Learning."]],
     additional_inputs_accordion=gr.Accordion(
         label="⚙️ Parameters", open=False, render=False
     ),
     title="Chat With LLMs",
     description="Now Running [microsoft/Phi-3-mini-128k-instruct](https://huggingface.co/microsoft/Phi-3-mini-128k-instruct)",
 )
+# Gradio 인터페이스 실행
+demo.launch()