Model,Text Recognition,Scene Text-Centric VQA,Doc-Oriented VQA,KIE,HMER,Final Score,Link
Gemini,215,174,128,134,8,659,https://deepmind.google/technologies/gemini/
GPT4V,167,163,146,160,9,645,https://openai.com/
Monkey,174,161,91,88,0,514,https://arxiv.org/abs/2311.06607
mPLUG-Owl2,153,153,41,19,0,366,https://arxiv.org/abs/2311.04257
LLaVAR,186,122,25,13,0,346,https://arxiv.org/abs/2306.17107
LLaVA1.5-13B,176,129,19,7,0,331,https://arxiv.org/abs/2310.03744
LLaVA1.5-7B,160,117,15,5,0,297,https://arxiv.org/abs/2310.03744
mPLUG-Owl,172,104,18,3,0,297,https://arxiv.org/abs/2304.14178
BLIVA,165,103,22,1,0,291,https://arxiv.org/abs/2308.09936
InstructBLIP,168,93,14,1,0,276,https://arxiv.org/abs/2305.06500
BLIP2-6.7B,154,71,10,0,0,235,https://arxiv.org/abs/2301.12597
MiniGPT4V2,124,29,4,0,0,157,https://arxiv.org/abs/2310.09478