回答と回答が出てくるパラグラフを与えると質問文を生成するモデル

SEE: https://github.com/sonoisa/deep-question-generation

本モデルの作成ステップ概要

  1. SQuAD 1.1を日本語に機械翻訳し、不正なデータをクレンジング(有効なデータは約半分)。
    回答が含まれるコンテキスト、質問文、解答の3つ組ができる。
  2. 日本語T5モデルを次の設定でファインチューニング
  • 入力: "answer: {解答} content: {回答が含まれるコンテキスト}"
  • 出力: "{質問文}"
  • 各種ハイパーパラメータ
    • 最大入力トークン数: 512
    • 最大出力トークン数: 64
    • 最適化アルゴリズム: AdaFactor
    • 学習率: 0.001(固定)
    • バッチサイズ: 128
    • ステップ数: 2500(500ステップごとにチェックポイントを出力、定量・定性評価を行い2500ステップ目を採用)
Downloads last month
137
Safetensors
Model size
223M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Spaces using sonoisa/t5-base-japanese-question-generation 4