FineWeb2 Edu Japanese
Collection
FineWeb2 Edu Japanese: A high-quality, filtered Japanese dataset (120M texts, 89.3B tokens) for educational AI training.
•
6 items
•
Updated
Webから取得した日本語文章には、特有のボイラープレートやノイズが含まれます。例えば、以下のような文章です。
この文章は90日以上更新の無いサイトに表示されています。
ログイン ログアウト
本当に必要な文章以外にも、さまざまなノイズが含まれていることがあります。例えば、この文章もその一例です。本来不要なテキストが入ってしまうことがこのようにあるでしょう。
今なら50%オフ!クリックしてリンク先の商品を表示
とりわけ文章長が短い場合、文章のほとんどがノイズを含む可能性があります。それらを取り除くことで、より高品質の文章を抽出できないかと考えています。
前のページ 次のページ
文章をこのモデルで推論することで、以下のようにノイズ箇所を判定できます。
[NOISE]この文章は90日以上更新の無いサイトに表示されています。[/NOISE]
[NOISE]ログイン[/NOISE] [NOISE]ログアウト[/NOISE]
本当に必要な文章以外にも、さまざまなノイズが含まれていることがあります。例えば、この文章もその一例です。本来不要なテキストが入ってしまうことがこのようにあるでしょう。
[NOISE]
今なら50%オフ!クリックしてリンク先の商品を表示[/NOISE]
とりわけ文章長が短い場合、文章のほとんどがノイズを含む可能性があります。それらを取り除くことで、より高品質の文章を抽出できないかと考えています。
[NOISE]前のページ[/NOISE] [NOISE]次のページ[/NOISE]
以下を参照ください
ノイズ判定の教師データはfineweb-2-japanese-noise-spansを使っています。このデータセットの作成には、cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japaneseを利用しました。
また、ノイズがない正解データとして、日本語wikipediaのパラグラフhpprc/jawiki-paragraphsから20万件ランダムサンプリングしたデータを利用しています。
これらを、このスクリプトで学習しています。
このモデルは、入力トークン最大長は512です。学習データも、512トークン以下のデータを利用しています。
全てのノイズは正常に取り除けるわけではなく、場合によってはノイズでないデータもノイズと判定することが発生します。
そのため、ノイズ判定の閾値を例えば0.7にあげたり、短すぎる文字はノイズと判定しない等の処理が必要かも知れません。
このモデルのライセンスは MIT ライセンスとします。
Base model
hotchpotch/mMiniLMv2-L6-H384