aoxo
/

RealFormer

Image-to-Image

English

art

Model card Files Files and versions Community

aoxo commited on Oct 6

Commit

b1630fd

•

1 Parent(s): 2aef983

Update README.md

Browse files

Files changed (1) hide show

README.md +45 -45

README.md CHANGED Viewed

@@ -125,54 +125,54 @@ Images and their corresponding style semantic maps were resized to **512 x 512**
 #### Training Hyperparameters
-**v1**
-- **Precision**:fp32
-- **Embedded dimensions**: 768
-- **Hidden dimensions**: 3072
-- **Attention Type**: Linear Attention
-- **Number of attention heads**: 16
-- **Number of attention layers**: 8
-- **Number of transformer encoder layers (feed-forward)**: 8
-- **Number of transformer decoder layers (feed-forward)**: 8
-- **Activation function(s)**: ReLU, GeLU
-- **Patch Size**: 8
-- **Swin Window Size**: 7
-- **Swin Shift Size**: 2
-- **Style Transfer Module**: AdaIN (Adaptive Instance Normalization)
-**v2**
-- **Precision**: fp32
-- **Embedded dimensions**: 768
-- **Hidden dimensions**: 3072
-- **Attention Type**: Location-Based Multi-Head Attention (Linear Attention)
-- **Number of attention heads**: 16
-- **Number of attention layers**: 8
-- **Number of transformer encoder layers (feed-forward)**: 8
-- **Number of transformer decoder layers (feed-forward)**: 8
-- **Activation function(s)**: ReLU, GELU
-- **Patch Size**: 16
-- **Swin Window Size**: 7
-- **Swin Shift Size**: 2
-- **Style Transfer Module**: AdaIN
-**v3**
-- **Precision:** FP32, FP16, BF16, INT8
-- **Embedding Dimensions:** 768
-- **Hidden Dimensions:** 3072
-- **Attention Type:** Location-Based Multi-Head Attention (Linear Attention)
-- **Number of Attention Heads:** 42
-- **Number of Attention Layers:** 16
-- **Number of Transformer Encoder Layers (Feed-Forward):** 16
-- **Number of Transformer Decoder Layers (Feed-Forward):** 16
-- **Activation Functions:** ReLU, GeLU
-- **Patch Size:** 8
-- **Swin Window Size:** 7
-- **Swin Shift Size:** 2
-- **Style Transfer Module:** Style Adaptive Layer Normalization (SALN)
 #### Speeds, Sizes, Times
-**Model size:** There are currently four versions of the model:
 - v1_1: 224M params
 - v1_2: 200M params
 - v1_3: 93M params

 #### Training Hyperparameters
+**v1**
+- Precision: fp32
+- Embedded dimensions: 768
+- Hidden dimensions: 3072
+- Attention Type: Linear Attention
+- Number of attention heads: 16
+- Number of attention layers: 8
+- Number of transformer encoder layers (feed-forward): 8
+- Number of transformer decoder layers (feed-forward): 8
+- Activation function(s): ReLU, GeLU
+- Patch Size: 8
+- Swin Window Size: 7
+- Swin Shift Size: 2
+- Style Transfer Module: AdaIN (Adaptive Instance Normalization)
+**v2**
+- Precision: fp32
+- Embedded dimensions: 768
+- Hidden dimensions: 3072
+- Attention Type: Location-Based Multi-Head Attention (Linear Attention)
+- Number of attention heads: 16
+- Number of attention layers: 8
+- Number of transformer encoder layers (feed-forward): 8
+- Number of transformer decoder layers (feed-forward): 8
+- Activation function(s): ReLU, GELU
+- Patch Size: 16
+- Swin Window Size: 7
+- Swin Shift Size: 2
+- Style Transfer Module: AdaIN
+**v3**
+- Precision: FP32, FP16, BF16, INT8
+- Embedding Dimensions: 768
+- Hidden Dimensions: 3072
+- Attention Type: Location-Based Multi-Head Attention (Linear Attention)
+- Number of Attention Heads: 42
+- Number of Attention Layers: 16
+- Number of Transformer Encoder Layers (Feed-Forward): 16
+- Number of Transformer Decoder Layers (Feed-Forward): 16
+- Activation Functions: ReLU, GeLU
+- Patch Size: 8
+- Swin Window Size: 7
+- Swin Shift Size: 2
+- Style Transfer Module: Style Adaptive Layer Normalization (SALN)
 #### Speeds, Sizes, Times
+**Model size:** There are currently five versions of the model:
 - v1_1: 224M params
 - v1_2: 200M params
 - v1_3: 93M params