Update README.md
Browse files
README.md
CHANGED
@@ -38,54 +38,6 @@ Uwaga!
|
|
38 |
### Dataset
|
39 |
Omnibus-1 to zbiór polskich instrukcji (100% kontekstu Polskiego - fakty, osoby, miejsca osadzone w Polsce), który został w 100% syntetycznie wygenerowany. Zawiera on instrukcje z kategorii - matematyka, umiejętność pisania, dialogi, tematy medyczne, zagadki logiczne, tłumaczenia itd. Powstał on w ramach moich prac związanych z badaniem jakości modeli w kontekście języka polskiego. Pozwala on na finetuning modelu i sprawdzenie podatności modelu do mówienia w naszym rodzimym języku. Dataset zawiera obecnie 75.000 instrukcji. Będzie cały czas udoskonalony i być może w przyszłości udostępniony (jak uznam, że już jest wtstarczająco pełen i obejmuje szerokie spektrum tematyki i umiejętności). Dataset jest w 100% generowany za pomocą innych LLM (GPT3.5, GPT4, Mixtral itd.)
|
40 |
|
41 |
-
### Użycie Llama-3-8B-Omnibus-1-PL-v01 z biblioteką Transformers
|
42 |
-
|
43 |
-
Poniższy kod używa bibliotekę Transformers:
|
44 |
-
|
45 |
-
```python
|
46 |
-
import transformers
|
47 |
-
import torch
|
48 |
-
|
49 |
-
model_id = "Remek/Llama-3-8B-Omnibus-1-PL-v01"
|
50 |
-
|
51 |
-
pipeline = transformers.pipeline(
|
52 |
-
"text-generation",
|
53 |
-
model=model_id,
|
54 |
-
model_kwargs={"torch_dtype": torch.bfloat16},
|
55 |
-
device="auto",
|
56 |
-
)
|
57 |
-
|
58 |
-
messages = [
|
59 |
-
{"role": "system", "content": "You are a helpful, smart, kind, and efficient AI assistant. You always fulfill the user's requests to the best of your ability."},
|
60 |
-
{"role": "user", "content": "Napisz czym jest Warszawa?"},
|
61 |
-
]
|
62 |
-
|
63 |
-
prompt = pipeline.tokenizer.apply_chat_template(
|
64 |
-
messages,
|
65 |
-
tokenize=False,
|
66 |
-
add_generation_prompt=True
|
67 |
-
)
|
68 |
-
|
69 |
-
terminators = [
|
70 |
-
pipeline.tokenizer.eos_token_id,
|
71 |
-
pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
|
72 |
-
]
|
73 |
-
|
74 |
-
outputs = pipeline(
|
75 |
-
prompt,
|
76 |
-
max_new_tokens=256,
|
77 |
-
eos_token_id=terminators,
|
78 |
-
do_sample=True,
|
79 |
-
temperature=0.6,
|
80 |
-
top_p=0.9,
|
81 |
-
)
|
82 |
-
print(outputs[0]["generated_text"][len(prompt):])
|
83 |
-
```
|
84 |
-
|
85 |
-
Przykładowa odpowiedź:
|
86 |
-
|
87 |
-
> Warszawa to stolica Polski, położona na terenie Mazowsza. Jest to największe miasto w Polsce pod względem liczby mieszkańców oraz powierzchni. Warszawa jest również siedzibą rządu, parlamentu, prezydenta, sądu najwyższego oraz wielu innych instytucji państwowych i międzynarodowych. Miasto jest znane z wielu zabytków, takich jak Stare Miasto, Zamek Królewski, Pałac Kultury i Nauki, a także z nowoczesnych atrakcji, takich jak Centrum Nauki Kopernik czy Centrum Nauki i Sztuki. Warszawa jest również ważnym centrum kulturalnym, gospodarczym i naukowym. Miasto jest również siedzibą wielu firm międzynarodowych i polskich przedsiębiorstw. Warszawa jest miastem, które łączy w sobie przeszłość z nowoczesnością, oferując mieszkańcom i turystom szeroki zakres możliwości. Miasto jest również znane z wielu festiwali i wydarzeń kulturalnych, które przyciągają miliony turystów z całego świata. Warszawa to miasto pełne życia, kultury, historii i nowoczesności, które zdecydowanie zasługuje na uwagę. <|im_end|>
|
88 |
-
|
89 |
|
90 |
### Szablon konwersacji
|
91 |
Szablon konwersacji to oryginalna wersja Llama3
|
@@ -100,14 +52,14 @@ Szablon konwersacji to oryginalna wersja Llama3
|
|
100 |
{Assistant}
|
101 |
```
|
102 |
|
103 |
-
###
|
104 |
Wersje poddane quantyzacji są dostępne w repozytorium:
|
105 |
* Llama-3-8B-Omnibus-1-PL-v01-GGUF - przetestowane w LM Studio (wybierz szablon - Llama3)
|
106 |
|
107 |
*
|
108 |
-
| Version | Model card
|
109 |
-
| ------- |
|
110 |
-
|
|
111 |
|
112 |
|
113 |
### Trening
|
|
|
38 |
### Dataset
|
39 |
Omnibus-1 to zbiór polskich instrukcji (100% kontekstu Polskiego - fakty, osoby, miejsca osadzone w Polsce), który został w 100% syntetycznie wygenerowany. Zawiera on instrukcje z kategorii - matematyka, umiejętność pisania, dialogi, tematy medyczne, zagadki logiczne, tłumaczenia itd. Powstał on w ramach moich prac związanych z badaniem jakości modeli w kontekście języka polskiego. Pozwala on na finetuning modelu i sprawdzenie podatności modelu do mówienia w naszym rodzimym języku. Dataset zawiera obecnie 75.000 instrukcji. Będzie cały czas udoskonalony i być może w przyszłości udostępniony (jak uznam, że już jest wtstarczająco pełen i obejmuje szerokie spektrum tematyki i umiejętności). Dataset jest w 100% generowany za pomocą innych LLM (GPT3.5, GPT4, Mixtral itd.)
|
40 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
41 |
|
42 |
### Szablon konwersacji
|
43 |
Szablon konwersacji to oryginalna wersja Llama3
|
|
|
52 |
{Assistant}
|
53 |
```
|
54 |
|
55 |
+
### Wersja instrukcyjna
|
56 |
Wersje poddane quantyzacji są dostępne w repozytorium:
|
57 |
* Llama-3-8B-Omnibus-1-PL-v01-GGUF - przetestowane w LM Studio (wybierz szablon - Llama3)
|
58 |
|
59 |
*
|
60 |
+
| Version | Model card |
|
61 |
+
| ------- | -------------------------------------------------------------------------- |
|
62 |
+
| Instruct| [🤗 HuggingFace](https://huggingface.co/Remek/Llama-3-8B-Omnibus-1-PL-v01) |
|
63 |
|
64 |
|
65 |
### Trening
|