weblab-GENIAC
/

Tanuki-8x8B-vision-exp

Model card Files Files and versions Community

Update README.md

#2

by hibikaze - opened Aug 31

base: refs/heads/main

←

from: refs/pr/2

Discussion Files changed

Files changed (1) hide show

README.md +25 -2

README.md CHANGED Viewed

@@ -1,6 +1,29 @@
 ---
 license: apache-2.0
 ---
-8x8bの最終
-tanuki-8x8b-baseの古いcheckpoint( https://huggingface.co/team-hatakeyama-phase2/Tanuki-8x8B-checkpoint-for-vision )をllava化した

 ---
 license: apache-2.0
 ---
+# Tanuki-8x8B-vision-exp
+## モデルについて
+Tanuki-8x8B-vision-expは、LLaVA1.5に基づく視覚言語モデルです。言語モデルとして、[Tanuki-8x8B-dpo-v1.0](https://huggingface.co/weblab-GENIAC/Tanuki-8x8B-dpo-v1.0)の学習途中のモデル（事後学習前）、画像エンコーダとして[google/siglip-so400m-patch14-384](https://huggingface.co/google/siglip-so400m-patch14-384)を使用しています。
+(計算リソースの観点で、学習を1epoch未満で打ち切ったことから、学習途中の実験的なモデルという意味で-expという名称を付けています)
+## 背景
+- 近年、視覚言語モデル（VLM）が注目されている一方で、商用利用可能な日本語データセットは限られています。本プロジェクトでは、データの合成を活用してこの課題に取り組むとともに、80億パラメータ([Tanuki-8B-vision](https://huggingface.co/weblab-GENIAC/Tanuki-8B-vision))および500億パラメータ([Tanuki-8x8B-vision-exp](https://huggingface.co/weblab-GENIAC/Tanuki-8x8B-vision-exp))のVLMを開発しました
+- VLM開発は、[GENIAC 松尾研 LLM開発プロジェクト](https://weblab.t.u-tokyo.ac.jp/geniac_llm/)の主要な開発目標としてではなく、有志の参加者によって実験的に行われました
+## 使用したコード
+### 学習
+https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP
+### データ合成
+https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/create-data-for-vlm
+### 評価
+https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/heron
+## 使い方
+### ローカル
+https://github.com/matsuolab/nedo_project_code/blob/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP/demo_llava_gradio.py
+## 評価
+### Heron VLM リーダーボード
+GPT-4による評価 (gpt-4-turbo-2024-04-09)
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/627a044ccd5b87302d3cd79c/p-ds8XnScNk0nbtVuD38L.png)