« Take the K-Train!! | メイン | 「Coming Up」だけじゃなかった!? »

困ったちゃん。

またまた最近コメントスパムが頻繁に来るようになって困る。
英文spamに特有な言葉は、MT付属のフィルタの設定でかなり排除できるが、無意味な文字列がやたらに並んだタイプのspamに手を焼いている。抑止を兼ねて、なるべくすぐに迷惑コメントに変更するように心がけているが、それもいちいちめんどくさくなってきた。

この手のspamは、英語やフランス語等にはありえない不自然な子音文字の並びが特徴だ。世界には子音を表す文字しか書かない言語も少なからずあるというが、そういう言語でアルファベットを日常的に使っている例を少なくともわたしは知らない。
そこで、アルファベットを使う言語としてありえない組み合わせをチェックするというのもアイディアだろうが、あいにくそこまで高度な言語認識の技術は持っていない。
そこで、もっと簡単に、子音文字が並んでいる数をチェックする、というのはどうだろう。母音として使用され得ない a,e,i,o,u,y 以外の文字が○つ以上(ユーザ設定可能。わたしなら5つくらいにするかな?)並んだら、コメントを保留して手動承認にする、というもの。

難点は、設定した字数以上の略語には対応できないことだろうか。
英語その他が由来の頭文字を使った略語が昔からたくさんあるほか、英語圏のネットユーザが使うカジュアル表記も同じように頭文字を綴ることが多いため、子音ばかりが続くものがいくつかみられる。
また、最近の日本語ではネトゲ語や2ちゃんねる語として、母音を省略した書き方をする言葉がある(wktk、kwskなど)。
しかし、こういったネット俗語も含めて、世にある略語の多くは3-4文字くらいなので、ドイツ語由来のことばなどを考慮して敷居値を5文字くらいにしておけば、略語でひっかかることは少なくなりそうだ。
とはいえ、できることなら、NGワードとは逆の「許容ワードリスト」あたりはつけたほうがいいかもしれない。

*******

こんなプラグイン、既にあれば即ダウンロードするところだけど、似たようなことを考えている人はいるのだろうか? いないとしたら、もしかして、はじめてのプラグイン自作に挑戦、ってか?
ひゃー! それはかんべんしてくださーい!

* comments *

* trackbacks *

* Drecom RSS *