FreedomIntelligence
/

LongLLaVA-53B-A13B

Image-Text-to-Text

text-generation

Inference Endpoints

Model card Files Files and versions Community

LongLLaVA-53B-A13B / README.md

nielsr's picture

nielsr HF staff

Add metadata tags

9fbe531 verified 2 months ago

|

1.57 kB

	---
	license: mit
	library_name: transformers
	pipeline_tag: image-text-to-text
	---
	![header](./assets/header.png)

	<p align="center">
	📃 <a href="https://arxiv.org/abs/2409.02889" target="_blank">Paper</a> • 🌐 <a href="" target="_blank">Demo</a> • 📃 <a href="https://github.com/FreedomIntelligence/LongLLaVA" target="_blank">LongLLaVA</a>
	</p>

	![efficiency](./assets/singleGPU.png)

	## 🌈 Update

	* [2024.09.05] LongLLaVA repo is published！🎉

	## Architecture

	<details>
	<summary>Click to view the architecture image</summary>

	![Architecture Image](./assets/arch.png)

	</details>


	## Results

	<details>
	<summary>Click to view the Results</summary>

	- Main Results
	![Main Results](./assets/result1.png)
	- Diagnostic Results
	![Diagnostic Results](./assets/diaresult.png)
	- Video-NIAH
	![Video-NIAH](./assets/NIAH.png)

	</details>



	## Results reproduction

	### Data DownLoad and Construction

	<details>
	<summary>Dataset Taxonomy</summary>

	![Dataset](./assets/dataset.png)

	</details>

	<details>
	<summary>Dataset DownLoading and Construction</summary>

	> Coming Soon~

	</details>





	## Citation

	```
	@misc{wang2024longllavascalingmultimodalllms,
	title={LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture},
	author={Xidong Wang and Dingjie Song and Shunian Chen and Chen Zhang and Benyou Wang},
	year={2024},
	eprint={2409.02889},
	archivePrefix={arXiv},
	primaryClass={cs.CL},
	url={https://arxiv.org/abs/2409.02889},
	}
	```