Web文章特有のノイズを取り除く機械学習モデル

Webから取得した日本語文章には、特有のボイラープレートやノイズが含まれます。例えば、以下のような文章です。

この文章は90日以上更新の無いサイトに表示されています。
ログイン ログアウト

本当に必要な文章以外にも、さまざまなノイズが含まれていることがあります。例えば、この文章もその一例です。本来不要なテキストが入ってしまうことがこのようにあるでしょう。

今なら50%オフ！クリックしてリンク先の商品を表示

とりわけ文章長が短い場合、文章のほとんどがノイズを含む可能性があります。それらを取り除くことで、より高品質の文章を抽出できないかと考えています。

前のページ  次のページ

文章をこのモデルで推論することで、以下のようにノイズ箇所を判定できます。

[NOISE]この文章は90日以上更新の無いサイトに表示されています。[/NOISE]
[NOISE]ログイン[/NOISE] [NOISE]ログアウト[/NOISE]

本当に必要な文章以外にも、さまざまなノイズが含まれていることがあります。例えば、この文章もその一例です。本来不要なテキストが入ってしまうことがこのようにあるでしょう。
[NOISE]
今なら50%オフ！クリックしてリンク先の商品を表示[/NOISE]

とりわけ文章長が短い場合、文章のほとんどがノイズを含む可能性があります。それらを取り除くことで、より高品質の文章を抽出できないかと考えています。

[NOISE]前のページ[/NOISE]  [NOISE]次のページ[/NOISE]

ノイズ判定のスクリプト例

以下を参照ください

https://huggingface.co./hotchpotch/fineweb-2-japanese-text-cleaner/blob/main/scripts/noise_detecter.py

学習方法

ノイズ判定の教師データはfineweb-2-japanese-noise-spansを使っています。このデータセットの作成には、cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japaneseを利用しました。

また、ノイズがない正解データとして、日本語wikipediaのパラグラフhpprc/jawiki-paragraphsから20万件ランダムサンプリングしたデータを利用しています。

これらを、このスクリプトで学習しています。

⚠️注意

このモデルは、入力トークン最大長は512です。学習データも、512トークン以下のデータを利用しています。

全てのノイズは正常に取り除けるわけではなく、場合によってはノイズでないデータもノイズと判定することが発生します。

そのため、ノイズ判定の閾値を例えば0.7にあげたり、短すぎる文字はノイズと判定しない等の処理が必要かも知れません。

ライセンス

このモデルのライセンスは MIT ライセンスとします。

hotchpotch
/

fineweb-2-japanese-text-cleaner

Web文章特有のノイズを取り除く機械学習モデル

ノイズ判定のスクリプト例

学習方法

⚠️注意

ライセンス

Model tree for hotchpotch/fineweb-2-japanese-text-cleaner

Datasets used to train hotchpotch/fineweb-2-japanese-text-cleaner

Collection including hotchpotch/fineweb-2-japanese-text-cleaner

FineWeb2 Edu Japanese