Shushant
/

thesis_nepaliGPT

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Shushant commited on Jul 13, 2023

Commit

9249dd6

•

1 Parent(s): 92bd2e6

maintain README.md

Files changed (1) hide show

README.md +10 -13

README.md CHANGED Viewed

@@ -6,26 +6,24 @@ metrics:
 - perplexity
 library_name: transformers
 pipeline_tag: text-generation
-datasets:
-- Sakonii/nepalitext-language-model-dataset
 ---
-# NepaliGPT:Nepali Language Generative Pretrained Transformer Model
 This is an experiment for developing a language generation model for the Nepali language.
 Causal Language Model which can predict the next possible tokens given a context in Nepali language.
 # Dataset Used
-A large corpus of 9.3 GB size has been collected from different sources from internet. The sources include
-- Nepali Books found online .
 - Nepali News Article from Nepali news portals.
-- Nepali text collected from different open souce Nepali NLP datasets.
 # Hyperparameters Used
-Learning rate -> 2e-5
-Weight Decay -> 0.01
-Number of training epochs -> 5
-bf16 -> True
-Base Model Architecture -> gpt-2
 ## Training Results
@@ -33,5 +31,4 @@ It achieves the following results on the evaluation set:
 | Training Loss | Validation Loss | Perplexity
 |:-------------:|:---------------:|:----------:|
-| 3.3968        | 3.2705          | 26.3245

 - perplexity
 library_name: transformers
 pipeline_tag: text-generation
 ---
+# NepaliGPT: Nepali Language Generative Pretrained Transformer Model
 This is an experiment for developing a language generation model for the Nepali language.
 Causal Language Model which can predict the next possible tokens given a context in Nepali language.
 # Dataset Used
+A large corpus of 9.3 GB size has been collected from different sources on the internet. The sources include
+- Nepali Books found online.
 - Nepali News Article from Nepali news portals.
+- Nepali text collected from different open source Nepali NLP datasets.
 # Hyperparameters Used
+Learning rate -> 2e-5 \
+Weight Decay -> 0.01 \
+Number of training epochs -> 5 \
+bf16 -> True \
+Base Model Architecture -> GPT-2 \
 ## Training Results
 | Training Loss | Validation Loss | Perplexity
 |:-------------:|:---------------:|:----------:|
+| 3.3968        | 3.2705          | 26.3245