TilQazyna
/

llama-kaz-instruct-8B-1

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

BeibitDS commited on Nov 25, 2024

Commit

ca1ccdc

·

verified ·

1 Parent(s): dd31236

Update README.md

Files changed (1) hide show

README.md +2 -62

README.md CHANGED Viewed

@@ -17,6 +17,8 @@ tags:
 - **License:** apache-2.0
 - **Finetuned from model :** Meta-Llama-3-8B
 ## Requirements
 To install the necessary dependencies, use the following commands:
@@ -44,65 +46,3 @@ To install the necessary dependencies, use the following commands:
   text_streamer = TextStreamer(tokenizer)
   _ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 128)
 ```
-- running inference with threading and parameters
-```python
-  from threading import Thread
-  import textwrap
-  def generate_streaming_text(generation_kwargs):
-      max_print_width = 2048
-      thread = Thread(target=model.generate, kwargs=generation_kwargs)
-      thread.start()
-      length = 0
-      for j, new_text in enumerate(text_streamer):
-          if new_text == '<|end_of_text|>':
-              break
-          if j == 0:
-              wrapped_text = textwrap.wrap(new_text, width=max_print_width)
-              length = len(wrapped_text[-1])
-              wrapped_text = " ".join(wrapped_text)
-              print(wrapped_text, end="")
-          else:
-              length += len(new_text)
-              if length >= max_print_width:
-                  length = 0
-                  print()
-              print(new_text, end="")
-      return
-  input_texts = [
-    "Сұрақ: Желтоқсан айында неше күн бар? \nЖауабы: ",
-    'Грамматикалық қателерді дұрыста."\n\n### Мәтін:\nОған бұйермады\n\n### Жауабы:'
-  ]
-  from transformers import TextIteratorStreamer
-  import torch
-  text_streamer = TextIteratorStreamer(tokenizer)
-  if tokenizer.pad_token_id is None:
-      tokenizer.pad_token_id = tokenizer.eos_token_id
-  inputs = tokenizer(
-      input_texts[0],
-      return_tensors="pt",
-      padding=True,
-      truncation=True,
-      max_length=512,
-  ).to("cuda")
-  attention_mask = inputs['attention_mask']
-  generation_kwargs = {
-      'input_ids': inputs['input_ids'],
-      "streamer": text_streamer,
-      "max_new_tokens": 280,
-      # "use_cache": True,
-      'pad_token_id': tokenizer.pad_token_id,
-      'attention_mask': attention_mask,
-      # 'no_repeat_ngram_size': 6,
-      # 'temperature': 0.4,
-      # 'top_k': 20,
-      # 'top_p': 0.95,
-  }
-  generate_streaming_text(generation_kwargs)
-```

 - **License:** apache-2.0
 - **Finetuned from model :** Meta-Llama-3-8B
+This model underwent Continuous Pretraining (CPT) on an extensive Kazakh text corpus to optimize LLAMA3 for the Kazakh language. It was subsequently fine-tuned with Kazakh-language instructional data. The model demonstrates strong performance in processing Kazakh text, answering text-based questions, correcting punctuation and grammar, and summarizing text. However, there is still room for improvement in handling open-ended questions.
 ## Requirements
 To install the necessary dependencies, use the following commands:
   text_streamer = TextStreamer(tokenizer)
   _ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 128)
 ```