Update README.md
Browse files
README.md
CHANGED
@@ -40,7 +40,6 @@ CUDA_VISIBLE_DEVICES=0 ./llama.cpp/llama.cpp/build/bin/llama-server \
|
|
40 |
私のテストプロンプトの実行時間: 3285.17秒
|
41 |
My test prompt execution time: 3285.17 seconds
|
42 |
|
43 |
-
|
44 |
### Qwen2.5-0.5B-Instruct-Q4_K_Lを使いGPUメモリも更に最適化した版 A version using Qwen2.5-0.5B-Instruct-Q4_K_L with further optimization of GPU memory
|
45 |
```
|
46 |
CUDA_VISIBLE_DEVICES=0 ./llama.cpp/llama.cpp/build/bin/llama-server \
|
@@ -53,6 +52,19 @@ CUDA_VISIBLE_DEVICES=0 ./llama.cpp/llama.cpp/build/bin/llama-server \
|
|
53 |
私のテストプロンプトの実行時間: 2173.36秒
|
54 |
My test prompt execution time: 2173.36 seconds
|
55 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
56 |
なお、温度0でも単独でモデルを実行した際と微妙な差異が出るケースを確認してますので再現性が最重要な場合は注意してください
|
57 |
I have confirmed cases where there are slight differences when running the model alone even at 0 temperature, so please be careful if reproducibility is paramount.
|
58 |
|
|
|
40 |
私のテストプロンプトの実行時間: 3285.17秒
|
41 |
My test prompt execution time: 3285.17 seconds
|
42 |
|
|
|
43 |
### Qwen2.5-0.5B-Instruct-Q4_K_Lを使いGPUメモリも更に最適化した版 A version using Qwen2.5-0.5B-Instruct-Q4_K_L with further optimization of GPU memory
|
44 |
```
|
45 |
CUDA_VISIBLE_DEVICES=0 ./llama.cpp/llama.cpp/build/bin/llama-server \
|
|
|
52 |
私のテストプロンプトの実行時間: 2173.36秒
|
53 |
My test prompt execution time: 2173.36 seconds
|
54 |
|
55 |
+
### CUDA指定なし CUDA device not specified
|
56 |
+
```
|
57 |
+
./llama.cpp/llama.cpp/build/bin/llama-server \
|
58 |
+
-m ./llama.cpp/qwen/32B/Qwen2.5-32B-Instruct-Q8_0-f16.gguf \
|
59 |
+
-e --temp 0 -fa -c 4096
|
60 |
+
```
|
61 |
+
私のテストプロンプトの実行時間: 3787.47秒
|
62 |
+
My test prompt execution time: 3787.47 seconds
|
63 |
+
|
64 |
+
|
65 |
+
|
66 |
+
|
67 |
+
|
68 |
なお、温度0でも単独でモデルを実行した際と微妙な差異が出るケースを確認してますので再現性が最重要な場合は注意してください
|
69 |
I have confirmed cases where there are slight differences when running the model alone even at 0 temperature, so please be careful if reproducibility is paramount.
|
70 |
|