SpamAssassin
apache.orgの傘下になって、ますます勢いづくスパムメールの暗殺者 SpamAssassin これでSPAM業者を失業に追い込もう....... とまでには、まだまだ遠い道のりだよ(w 学習しろ!!学習しろ!!学習しろ!! sa-learn --spam --mbox /home/hiroyuki/mail/spam ハムをスパムと間違えないで、一生のお願いだから。 スパム業者の荒らしはスルーってことで。 おまいら、まったりとお願いします。 本家 ttp://spamassassin.apache.org/ 2005-06-06: SpamAssassin 3.0.4 released! キーワード local.cf user_prefs spamassassin ベイズ推定 ベイジアンフィルタ ホワイトリスト AWL bayes_journal auto-whitelist
なんでunix板なんだろうという素朴な疑問は却下ですか Internet Mail System スレって落ちたんだっけ SpamAssassinは「メールテキスト(ヘッダと本文)分析、 ベイジアンフィルタ、DNS blocklists、 および共同型フィルタリングネットワーク」 を使用する事でスパムを特定するメールフィルタです。 DNS blocklistsは、spamを発信もしくは 中継するサーバのIPアドレスのブラックリスト、 及び、spamの本文中にある、spammerが誘い込もうとする web サービスのURI 文字列から、 ドメイン名を抽出したブラックリストを利用します。 共同型フィルタリングネットワーク (collaborative spam filtering network) は、 メールの本文から「署名」を検出し、これをサーバに登録されている spamの「署名」と照合し、合致していればspamと判定する、というものです。 (参考) ttp://tlec.linux.or.jp/docs/spamassassin.html Mail-SpamAssassin は razor-agents と組み合わせて 使うとかなり強力だよね。 SpamAssassinの設定ファイルは、3種類あります。 以下のディレクトリのパスの記述は、正確には OSもしくはディストリビューションのmanを参考にして下さい。 - /usr/share/spamassassin/*.cf: デフォルト設定が記述されています。 バージョンアップにより、書き換えられるので、 変更しない方が良いでしょう。 - /etc/mail/spamassassin/*.cf: サイト全体の設定を記述します。 $USER_HOME/.spamassassin/user_prefs: 各ユーザー自身の細かい設定が出来ます。 例えばサイト設定でスパム指定されているドメインからのメールでも、 ユーザが希望すれば、受信する事が出来ます。 ただし、サイト設定でuser_prefsの使用が 有効になっている必要があります。 D_BOUNCEとD_REJECTの違いがわかりません おしえてくださいませ 要は >>1 == >>14 の単発質問スレだったのか。 導入してすぐに、部署が違う顔なじみのお姉様達に、 迷惑メール減らしてくれてありがと〜と誉められました。 なんかうれしかった。 >>14 # Notes: # D_REJECT and D_BOUNCE are similar, the difference is in who is responsible # for informing the sender about non-delivery, and how informative # the notification can be (amavisd-new knows more than MTA); # With D_REJECT, MTA may reject original SMTP, or send DSN (delivery status # notification, colloquially called 'bounce') - depending on MTA; # Best suited for sendmail milter, especially for spam. # With D_BOUNCE, amavisd-new (not MTA) sends DSN (can better explain the # reason for mail non-delivery, but unable to reject the original # SMTP session). Best suited to reporting viruses, and for Postfix # and other dual-MTA setups, which can't reject original client SMTP # session, as the mail has already been enqueued. >>19 すみません。違いが良く解りません。エロイ人、解説して。 >>8 ここの設定ファイル、まめにアップしてくれるので 非常に参考になります。 日本語のスパム排除に効果アリアリです。 >>14 >>19 D_REJECT 発信元のsmtpにrejectする。もしくはDSNを送る。 (MTAによってことなる。) D_BOUNCE DSNを送る。 >>24 ハム3000通読ませたら、落ちたyo。ちょっとずつ読み込ませろ。 デーモンとしての動作なら大丈夫らしい。 ハムスパムの読み込ませは、パワーいると思う。 >>26 頼まれて作ったサイトの最初の学習用に、取れ立てspamを一気に 一万ファイル読ませたけど、大じょぶだーたよ。 途中で裏にまわしちゃったので、正確にはわからないけれど 一時間以上はかかったと思う。Debian Sarge/i386でRAM512MB、 SAは3.0.3。Maildir形式。 若干オフトピになるかもしれないけれど、参加者が いるかもしれないので聞いてみる。 RBL.JPのメーリングリストって活発ですか?。流量は?。 一時停止のお知らなどの運用状況『も』流れたりします?。 仕事でも個人でもspammerには頭来てるんで、暇な時は (RBL.JPとは他所のところに)spam報告してるんだけれど、 RBL.JPにも入ってみようかと思っているんだが、どんな様子なのだか、 聞いてみるテスツ。 qmail/qregexにspamassassin使ってます。 7月終わりからのこの一月半くらいで(51日)、 ブロックしたspamメールは 2238通。 うち、rblでブロックしたもの 664通 (30%) helo 時点でブロック 162通 ( 7%) badmailfrom でブロック 1123通 (50%) SpamAssassinブロック 289通 (13%) ですた。 一部あんまり煩い .tw/.kr/.cnは丸ごとパケット 捨ててる場合もあり。 >>29 > ブロックしたspamメールは 2238通。 ブロックしたのにどうやって spam だと判定するのですか? >>31 自分がわかってないのを認めるのが嫌だからって、人がわかっていないという レッテルを張るのはいかがなものか。 キチガイに馬鹿というレッテルを貼ったのは俺の間違いだったヨ。謝るよキチガイ。 >>33 わたしをキチガイ認定するとは浅はかな人ですね. >>38 アップデート対象 ClamAV 0.86.2 to 0.87 ・・・OK Razor2 2.67 to 2.72 ・・・OK SpamAssassin 3.0.1 to 3.1 ・・・NG プラグインエラーが出た use_razor2 1 ok_languages ja en プラグイン有効設定(v310.pre ファイル) Razor2 TextCat spamd 再起動 ・・・OK spamメールテスト ・・・OK SpamAssassin 3.1.0で、spamdではなくspamassassinをprocmailから呼んでます。 RelayCountryを生かしたいのですが、 init.preの loadplugin Mail::SpamAssassin::Plugin::RelayCountry を有効にしてもメールに X-Relay-Countries ヘッダがついてくれません。 何かほかに必要なことがあるのでしょうか? IP::Countryは入っています。 >>41 ttp://www.gossamer-threads.com/lists/spamassassin/users/16555?search_string=relaycountry;#16555 ありがとうございます。 > I don't believe the RelayCountry plugin adds anything visible to the > message. Ok, I didn't get that from the docs (such as they are). I expected the "X-Relay-Countries" header to be added to the message. そのURLの通りspamassassin -tD で実験したらちゃんとチェックしてくれていました。 trusted_networks にプロバイダの(secondaryを含む)メールサーバをちゃんと 書かないとあらゆるメールでJPが入ってしまうので書くべきだけど、 名前じゃなくアドレスで書かないとだめだしプロバイダのネットワーク全体を 許可するのも範囲が広すぎるし、というところがちょっと悩みどころですね。 私の使ってるプロバイダはspammerへの対応をちゃんとしてくれる方らしいので メールサーバなどのアドレスを含むネットワーク全体をtrustしてしまいましたが。 >>43 SAてのは、Emailのメッセージコンテンツで スパムかどうかを判断する、てのがやっぱ恐らく 本筋の使い方、ということなんじゃないすか。 オリジンやリレーで判断するならRBLsあたりで、 ベイジアンフィルタでは結局出現確率しか捉えられないんで、 人間が書いた規則を中心に色んな規則を含めて総合評価できるのがsaじゃないかと。 あとはルールのスコアも自動的に最適値を学習してくれるなら嬉しいんだけど。 マイニングしてルールを自動生成しろとまでは言わないから。 >>45 sa-learn --ham これで学習できるでしょ? cronで自動化はだめなの? 各ルールでのスコアを単純に加算するのではなく、それぞれがマッチした 場合の spam 確率を出し、それをまたベイズの定理で組み合わせるとか。 ベイジアンフィルタからの spam 度: 0.8 URIBL: 0.9 SPF SUCCESS: 0.3 となるメールからは sub mul { $r = 1.0; foreach (@_) { $r *= $_; } $r; } my @probs = (0.8, 0.9, 0.3); my $prod = mul(@probs); $prod / ($prod + mul(map { 1 - $_ } @probs)); => 0.939... と計算する。 んで、スコアが閾値以上・以下なら、それぞれのルールにフィードバック。 環境 redhat9 sendmail8.12.8-4 milter0.3.0-1.0 spamassassin3.10 質問させてください。 spamassassinでベイジアンフィルタを利用しています。 このベイジアンフィルタなのですが、サーバ単位でspam、hamメールを学習させていますが、 各ユーザ毎にham、spamの基準が違い(mailinglist等)、サーバ単位でなく、 各ユーザ単位でベイジアンフィルタの学習を行わせたいと考えています。 ユーザ毎にベイジアンフィルタのデータベースをbayes_seen、bayes_toksをもって、 自分の趣向に合わせてベイジアンフィルタに学習させるイメージです。 user_prefsがユーザ毎に設定できますが、これはヘッダや本文の条件、 ルールを設定できるだけででした。 ご存知の方がいらっしゃいましたら教えて下さい。 よろしく御願いします。 各ユーザが.forwardからspamassassinを呼び出せば済む。 RedHatだとsendmailのMDAがprocmailだったりしそうだから、 .procmailrcに :0fw: spamassassin.lock * < 256000 |/usr/bin/spamc と書くとか。 しっかし、procmailrcはわけわかんね〜。はよmaildropに移行したい… >>50 49です。ありがとうございます。 設定してみます。 procmailでspamassassinの設定する方法はあちらこちらにかいてあるけど qmailでの設定ってほとんど見当たらない。 ユーザごとにいちいち.qmailを編集するのもスマートじゃないし qmail-scannerあたりを書き直せばいいんだろうけど・・・ と思ってたら、vpopmailでの運用をしてたので、案外簡単にできた。 >>52 書き直すまでもなく、使えると思うが。 ttp://qmail-scanner.sourceforge.net/ なるほど!情報ありがとう。 先にSpamAssassinいれといてQmail-Scannerをインストールすれば 良いってことですね。 ところで、Qmail−Scannerにバグがあるみたいです。 添付ファイルを処理する際にカッコがあると、途中でエラーをおこし、 メールが返送されてしまうのです。 一応、修正を行ってみたのですが、旨くいくかどうかは未確認なので 確認してから報告したいのですが、なんかML加入しないとダメみたいですね。 チョットメンドクサイ・・・ procmailで$HOME/.procmailrcを読みに行かなくすることってできるんでしょうか? /etc/procmailrcだけで制御したいのですが、ググって調べてると、 「$HOME/.procmailrcが無いときは/etc/procmailrcが読まれる」 ってなことが書かれてて…。 >添付ファイルを処理する際にカッコがあると はて、どゆこと?>>54 >>55 ユーザプロセスでは ~/.procmailrc を真っ先に読みに行くってのは ソースレベルでの仕様だから、それが嫌ならソースを書き換えてビルドするか、 さもなくば全ユーザのホームディレクトリ上で ln -s /etc/procmailrc ~/.procmailrc するしかないんじゃない? >>56 わかりにくい表現ですいません。 ログにこんなエラーがありました。 Unmatched ( in regex; marked by <-- HERE in m/^ESC$bfc dj8&5f7w2hESC( <-- HERE b.doc$/ at /var/qmail/bin/qmail-scanner-queue.pl line 22 12, <STDIN> line 3221. ESCの部分は端末上反転していたので、実際は\\と思います。 添付されていたのは日本語の入ったPDFとワード書類です。 で、qmail-scanner-queue.plの該当行のソースがこれ。 push(@uufile_list, $uufile) if(!grep(/^$uufile$/,@uufile_list)); 多分$uufileが正しくクオートされておらず、添付ファイル内の「(」が、 正規表現の一部とみなされているようです。 この推測が当たっていれば$uufile --> \Q$uufile\E とすればOKなはずです。(未確認) で、一応は自己解決をみたわけですが、SpamAssassinのコミュニティに報告するのが メンドクサイ仕組みなので、なんかどうでもいいやっていう気になってます。 >>58 添付ファイル名やその中身に括弧文字が 入っていて起こる鰓てのは初耳す。 qmail-scannerの versionと、そのメールを作った ソフトは何ですか(Winのoutlookとか thuderbirdとか、 **xのmewとか。。。?) お話の感じだと、これ、SAの問題ではないと思う。 >>59 qmail-scanner-queue.pl 1.25です。 メールを作ったソフトの方は折り返し戻っていってしまったので、 すぐには確認できませんが、送信者からの以前の話からすると Macのソフトらしいです。たぶんEudora? それはともかく、該当行の変数名からしてuuencodeされたファイルと思うのですが、 それが正しければSAの問題じゃないでしょうか・・・ >>60 エラーが起きてるのは、qmail-scanner-queue.pl の、sub check_and_grab_attachments の中ですよね。 uuencode/binhexしたファイル名をいろいろいじったやつ を添付して試してみてるんだけど、症状再現しないす。 うちも qmail-scanner 1.2.5、んで、SA 3.1。 >>61 あ・・・qmail-scannerの問題であってSAの問題じゃないのかな? 症状の再現性については、良くわからないけど 他の添付ファイルでいままで問題が起こったことがないので、 特殊な例かもしれません。 問題を起こす添付ファイルは手元に届いていないし、 届いたとしてもそのまま丸投げするわけに行かないので、 もうちょっと掘り下げてみます。 bsfilter と共用してる人いる? それって意味ある? (片方だけ使うよりも、spam と判断する 確率あがる?) bsfilter、spamassassin はどちらも、 ベイズ推定に基づいてるので、あまり意味がないように感じてるんだけど、効果があるか気になった。 >>63 ほとんど意味無いと思う。 SpamAssassinのベイジアンフィルタだけを使わないで、bsfilterを多段にかける とかだったらまだわかるが。 >>64 SA のベイジアンってそのまま使うと日本語考慮してくれなくね? >>65 あーなるほど。 bsfilterって最初から日本語化されてたっけ? bsfilterをnkfとkakasiで日本語化して使うなら、SpamAssassinも そうやって使うというのはどうだろ。 ちなみに、ベイジアンフィルタ使わなくても、設定でほとんど排除出来るよ。>>63 中国語やらのspamもとんでくるしcharsetの指定とかがめちゃくちゃなのも多いので、 日本語だけ対応していても仕方がない。 実際spamassassinだけで日本語も中国語もほぼ全て弾けてるよ(カスタムルール有)。 たまに英語のspamが抜けてくるけど、一日一通以下(受け取るSPAMは100超/日)。 false alarmは登録したサイトの広告的なメールマガジンみたいなものだけ経験がある。 これは受け取り望んでることがわからなければどこからどうみてもSPAMだよなあ、 と思ったので学習は諦めてwhitelistに入れた。 sa-learn --hamとか--spamって何を学習させているんですか? メールの内容を見ているの?ヘッダ部分だけ? >>69 ありがと。 でもその割には、同じ内容のスパムが、何度も来るんだよね。 >>70 そりゃBAYES_99になっても、他のスコアが低ければ通っちゃう罠 >>63 全く無駄ではないと思う。 ごく稀にSAが取りこぼすspamを捕捉するときがある。 多少の取りこぼしが気にならないなら、入れる必要はないけど。 精度はDNSBLやRazor2とか使えて自動学習してくれる分、SAの方に 分があるように思う。 あと、bsfilterはhamの学習がうまくいかないことがたまにある。 false alarmの可能性も同様に増えるから、そのリスクの見積もりと SAのみの場合にどれだけ不満かの兼ね合いだろうね。 >>71 そなのですか?あちゃあ。 BAYES_99は絶対にアウトにする方法ってありますか? これするとまずい事もあるのですかね。 >>74 BAYES_99 のスコアをやたら大きな値にしておけばいいんじゃない? まずい事っていうか、ベイズを 100% 信じる!という運用ポリシーだと 自分を納得さることが出来るの? (俺には出来ない) いろんなスコアの積み重ねで spam 判定を行うという仕組みは良く 出来てて、納得して利用しているけどなあ。 >>74 推測が必要ない確定的なものはprocmailで捨てれば? >>75-76 サンクス!! (もともと>>68 です) sa-learn --spamで学習させるという事は絶対にスパム!!wということですよね。 つまり人為的に学習させているわけだけど、BAYES_99のスコアをめちゃ高くしておくと、自動学習でのエラー、つまりハムをスパムと判定してしまったときに、困りますよね。 これはsa-learn --hamで修正するのでしょうけど。あれ?この場合、どっちが勝つんだろ? 仕組みが複雑すぎる.................. >>77 ベイジアンフィルターの原理わかってる? sa-learn --hamでそのメールをhamと学習させても、それ以前の 学習結果によって同じメールがBAYS_99と判別されることだってあるぞ。 あと、スコアリングについてまるで理解できてなさげだな。 >>80 具体的に述べよ。でも、たぶんできるよwww 各ユーザーがベイジアン学習させるタイミングっていつ? レン鯖で使っているんだけど、なかなか学習効果でないんですよ。 razor2 ほかと組み合わせないと、思ったほどの効果はすぐにでない。 sa-learn --spamの学習は、各自のspamボックスを sa-learn --spam --mbox /home/*/mail/spam でなめさせるから良いと思うけど、 間違ってspamに入ってしまったのを、 訂正学習させるのはおまいらどうやってます? sa-learn --ham --mbox /home/*/mail/notspam とか訂正ボックス作れば良いのかな。 autolearn=spam が付いてる奴は既に学習済み、再学習する必要なし。 autolearn=no のみ sa-learn すべし。 なんか学習させ過ぎるとある時点を境にspam検出率が物凄く落ちるような・・・ いつも参考にしていたサイトがディスク障害でデータ消失だって。 ttp://ssss.jp/~trombik/email/spamassassin.html サルベージしていった方がいいかなぁ。 qmail/vpopmail SpamAssassin3.1.0 qmail-scanner1.25 の環境です。 存在しないメールアドレス宛に着た場合、 ~vpopmail/domain/example.jp/user1/auto-whitelist ~vpopmail/domain/example.jp/user1/auto-whitelist.mutex が自動生成されてしまいます。 その為、ユーザーディレクトリが訳のわからない状況になってしまい、 このファイルの自動生成を停止させることはできますか? 検索してみたら、生成先のパスを変更する解説は多かったんですが、 自動生成停止は見つからなかったので、お願いします。 SPAM判定されたものの行き先フォルダをscoreごとに分けてみた。 5-10: 1 10-20: 3 20-: 10 くらいの割合。 サブジェクトを眺めて誤判定がないか確認するのが楽になった。 scoreに応じて色が変わる(段階的または連続的に)というのも面白いと思ったが wanderlustでそこまでするのは大変そうなので見送り。 sendmail+spamassassin+milter で構築しておりやす 外部MTAへ送信するときもX-Flagが付加されているようで 自分自身が送信したメールがX-Spam-Flag:YESって笑えないことも 対策はないでしょうか? 特定ドメインはチェックしないという設定が逢ったような気が。 milter-spamc を使っていたわけで spamass-milter の方がよさげかな 試してみます Spamassasin+Postfixで2年ぐらい前に利用してたのですが、 当時、1時間に2-3000通ぐらいしかメールできなくてしぶしぶ外した経験があります。 最近はハードのスペックも上がってきたし、また検討しているのだけど、 みなさんの負荷具合ってどうなんですかね。 実際運用してる方どうですか?どれぐらいのペースでメールの送受信できます? なんとなく平均これぐらいは飛ぶよ、ってのがわかればいいんですけど。 当時使ってたマシンのスペックは? それが無いと比較できないよ >>96 以前古い処理能力の低い機械をメールゲートウェイにしていた頃は 並列度を上げるより下げた方が実質の処理能力があがったことはある >>97-98 当時はCeleronの600MHzぐらいのやつで、他のアプリもごりごり動いてたw まぁ今回はP4-3GHzぐらいのやつで専用のメールゲートウェイにしようかと思うのだが、 メルマガが配信されることがあるサーバなので、できれば懐は広くしておきたいわけよ。 1時間で数万通とかは余裕?平均がどんなもんかしらないのでアレだけど > Celeronの600MHz って全然2年前じゃないじゃん、5年以上前じゃない? まあ少なくともパフォーマンスの良いシステムはいくらでも有るわけだから 心配ならそれにしとけば問題ないと思うね 取りあえず2chで使ってるくらいのにしといたら >>100 当時、そのスペック使ってた会社だったのでw あと、何通送れるとかは検証するしかないのか。ちと面倒だな。 最後にSpamassasinのパフォーマンスに関して参考になるサイトがあれば教えて下さいです。 パフォーマンスが落ちるとかなんとか書いているサイトはあるけど具体的な数字で検証しているところが見つからない。 ま、やってみたら、 結局マシンパワーの問題だから最近の高性能マシンならまず問題起きないよ 逆にそれで問題起こるならスンゴイ大量のユーザ抱えてるっと事だからもっと根本から見直した方が良い メールGWを複数設置して並列処理するとかね、 ちなみに1時間に2〜3000通って商売はSPAM屋かい? >>102 SPAM屋だったら単位時間あたり送付量にゼロの数が二つくらい足らないと思われ $USER_HOME/.spamassassin/user_prefs: 各ユーザーがWebベースで、このファイルをメンテできるツールありますでしょうか。 user_prefsをMySQLで管理しているのであれば、すぐにいくつか見つかると思う。 俺はSquirrelmailのプラグインを使っている。 http://www.squirrelmail.org/plugin_view.php?id=167 >>107 ありがとうございました。チャレンジしてみます。 他のツールご利用の方いましたら、よろしければ使用感など教えてください。 >>106 List from SA ttp://wiki.apache.org/spamassassin/WebUserInterfaces →phpsaadmin ttp://www.misak.dk/blog/ →WebUserPrefs ttp://sourceforge.net/projects/webuserprefs/ 06.3.18 SpamAssassinユーザー会発足 ttp://www.spamassassin.jp/ これってサーバーに入ってなくてもユーザーがホームディレクトリにインストールしてつかえるの? cronで、定期的に sa-learn --spam /home/*/Maildir/.Spam/cur とやっているんですが、最新の3.1.1にしてからメールが存在しない時に archive-iterator: readdir found no mail in '/home/hogehoge/Maildir/.Spam/cur' directory というエラーを吐くようになりました。このエラーを出さなくする方法ってないんでしょうか? 面倒だけど、メールが無かったら実行しないようにするスクリプトを組まないといけないのかなぁ。 >>113 そりゃエラーじゃない、「読み込むべき対象がない」と報告したに過ぎない。 >メールが無かったら実行しないようにするスクリプト それが本来の解決方法。 更に言うなら>>88 参照。 mysqlを設置したのですが、AWLはメールアドレスが順位付けられて 見ていて楽しいです。でも、ユーザー毎に設定されるのが無駄な気が。 デフォーで全ユーザー共通のが便利じゃないかなあ。 spamassasinは、スペースで単語を区切っているっぽいので、 日本語の場合はkakasiで分かち書きにして学習させるパッチを作ってみました。 せっかくなので興味のある人は使ってみてください。 http://sea-mew.jp/nox/data/linux/spamassassin.html 自分のやってることが車輪の再発明でないかまず確認してもよかったのではないかと。 いや、努力を否定するつもりはないんだけど……。 >>117 もちろん、こんなことだれかが考えていると思って探したら、 ITmediaに記事が出ていたんだけども、 そのサイトに行ってみたけど、 どこから落として良いのかわからなかったのですよ。。。 と思ったら、 http://mm.apache.jp/pipermail/spamassassin-jp/2006-February/000041.html が見つかりました。 >>116 SpamAssassinほどメジャーなツールで、意外にずっと分かち書き対応パッチ無かったよね。 自分もずっと探してたんだけど、ずっと見つけられなかったもの。 もう一歩遅かった。 そんなの必要? うちだとそんなことしなくても 日本語のSPAMはほぼ完全に蹴ってくれるけど。 パラメータやルールはカスタマイズしてるものの。 >>122 ベイジアンフィルタの性能は低いよ。原理的に考えてもそうだよね。分かち書きしてないんだから。 だからよく誤検出の元になる。蹴らないんじゃなくて蹴りすぎる。 うちで蹴りすぎる例はほとんどない。 電気店とかの商売メルマガがたまに蹴られるくらいで、 自分で見てもこれはまあ仕方がない、と思ってしまうようなもの。 2、3回くらいhamとして登録すれば問題なくなるけど、もっとも こういうのはspamassassinに通すより先に振り分けてしまうからな。 >>122 そんなパラメータの調整なんて必要? うちは、日本語化パッチを当てるだけで、完全に蹴ってくれるよ。 そもそも、学習が自動で、調整が要らないのがベイズフィルタの利点では。 >うちで蹴りすぎる例はほとんどない。 蹴っているメールをチェックしなければいけないのであれば、 蹴る意味がないのでは? (蹴っているんじゃなくて、振り分けているだけでは?) もちろん、そんなの人それぞれですけどね。 導入も我慢も諦めも、コストですから。 しかし、このパッチの導入コストは、メリットに十分見合うと思うけどね。 >>126 単語の出現確率だけを扱うようなベイスフィルタでは原理的に捉えられない特徴を ルールに書いてるので。 ベイズフィルタだけを信用するようなスコア設定にもしていないしね。 spamassassinの導入はportsに頼ってるのでパッチはコストが高いです。 >>127 > ベイスフィルタでは原理的に捉えられない特徴を であれば、そのフィルタとベイジアンフィルタの効果は独立事象になるわけだから ベイジアンフィルタの認識率を上げることは、false positiveを下げるために意味ある ことになると思うんだけど。 つまり、ベイジアンフィルタの性能を高めることは意味がある、ということね。 ただ、portsだとかaptだとか使ってる場合、パッチだと導入障壁が高いというのは理解できる。 portsに日本語化patchをオプションで適用できようにsend-prすりゃええやん。 p5-SpamAssassinってちょくちょくアップデートされるんで パッチがすばやく追随してくれる保証があってかつporterが日本人じゃないと 無理じゃない? japanese/ 以下にslave portを作るとかかな。 俺は使う気ないからやらないが。 >>127 おれ、Fedoraだからわからんけど、Portsって不便なんだな。 update調べてパッチ当ててrebuildする10行のスクリプト、cronで動かしてるよ。 >131 portsだとMakefile.localで1行でローカルなpatchは当てられる >>133 なんだ。それはそれですげぇな。 >>126 は、そもそも > 単語の出現確率だけを扱うようなベイスフィルタでは原理的に捉えられない特徴を > ルールに書いてる と言っているので、日本語対応のレベルの話じゃなかったな。すまん。 ともあれ、>>120 のパッチすげー。 >>131 知らないのなら口を出さないほうがいいぞ。あまりにも的外れ。 # SpamAssassin 3.1.4に対応した日本語対応パッチ (案、その5)が発表されました (2006-7-29) # SpamAssassin 3.1.4がリリースされました (2006-7-27) from ttp://www.spamassassin.jp/ 3.1.5 にしたら sa-learn が mbx 形式に対してエラーを吐くので調べてみた。 ArchiveIterator.pm の 1144行目。 --- ArchiveIterator.pm.orig Tue Sep 12 16:39:47 2006 +++ ArchiveIterator.pm Tue Sep 12 16:39:58 2006 @@ -1141,7 +1141,7 @@ } $self->bump_scan_progress(); - $info->{"$file.$offset"} = Mail::SpamAssassin::Util::receive_date($header); + $info->{$offset} = Mail::SpamAssassin::Util::receive_date($header); # go onto the next message seek(INPUT, $offset + $size, 0); 誰かエロい人が project に言ってくれねーかなぁと・・・ >>142 お前さんの手柄なんだから自分でコミットすればいいじゃん ホームページ制作王は、世界の権威として名高いCOMDEXが 21世紀のワールドスタンダードに認定したWebパブリッシングアプリケーションである。 ホームページ制作王に不可能はない。 不可能があるとすれば、そこが人類の英知の限界点である。 21世紀、世界のWebはホームページ制作王を中心に回っていくのである。 にもかかわらず、ここ日本では、心ない風評のため、まだまだ普及に 遅れがみられる。 ホームページ制作王を普及させないかぎり、我が国のWebは、 世界の趨勢の後塵を拝するばかりである。 世界が認めた高性能!ホームページ制作王 http://pc8.2ch.net/test/read.cgi/hp/1106508682/ ルールを書く際に日本語文字列を使う場合はJISコードに変換して, さらに,メタキャラクタをエスケープしなければなりませんが, 皆さんこの辺はどうやっているのでしょうか。 JISコードへの変換は次のようにやればいいと,ググって見つけたのですが, メタキャラクタのエスケープを実行してくれるような方法はないのでしょうか。 echo 'サンプル' | nkf -j | awk '{gsub(/\x1B[$(]B/,"");print}' つ tlec.linux.or.jp の「おりじなるこんてんつ」 >>146 あまりスマートとは言えませんが、 そのあとにsedでもかければいいのではないでしょうか echo 'サンプル' | nkf -j | awk '{gsub(/\x1B[$(]B/,"");print}' | sed 's/\(\.\|\`\|\*\|\+\|\/\|\?\|\^\|\$\|\#\|\{\|\}\|\(\|\)\|\[\|\]/\\\1/g' >>146 ごめん、今試したらミスってた。 ↓でどうでしょう? echo 'サンプル' | nkf -j | awk '{gsub(/\x1B[$(]B/,"");print}' | sed 's/\(\.\|`\|\*\|\+\|\/\|\?\|\^\|\$\|\#\|{\|}\|(\|)\|\[\|\]\)/\\\1/g' # どっちにしろスマートじゃないよなぁ。 >>149 サンクス。これはすばらしい。早速使わせてもらいます。 sa-updateについて質問です。 http://spamassassin.jp/modules/xhnewbb/viewtopic.php?topic_id=14 ↑を見てsa-updateを使える状況にはなっています。 crontabに登録して自動的に更新するようにしたいのですが、 どのくらいの頻度で更新するのがよいのでしょうか? 現在は 0 2 * * 5 /somewhere/spamassassin-update として金曜日に更新するようにしています。 週1回くらいでちょうどいいものなのでしょうか? spamassassin-updateはsa-updateとspamdのrestartをしています。 >>151 おお,これはすばらしい。これなら,簡単にルールを作れそうです。 どうもありがとうございます。 最近は Returned mail 型が大量に増えますた。一括で別フォルダに振り分けるしかないか。 >>155 Gmailとthunderbirdで同系列のメールを受信させているけど、 こちらはやや低下してはいるけど、assassinの捕捉率ががた落ちしちゃった。 例えば、 ------------------------------------ Company name: Texhoma Energy, Inc. Stock symbol: TXHE.PK Current price: 0.10$ (growth + 10%) Expected price 10/18/2006: 0.29$ Expected price 10/20/2006: 4.52$ ------------------------------------ Please read this mail attentively!!!!!!!!! This is strictly confidential information. Don't send it to anybody. Only now is a right moment to buy that stock. You can take it now for a low price. On Friday , 20 October the following news will be announced: 以下略 >>157 うちもすり抜けてウザーだったから portupgrade mail/p5-Mail-SpamAssassinしたら 3.1.6で補足出来てますよ〜 spamassassinがqmailscannerと連動してくれない clamavやperlscannerとは連動しているのに どうしてなんだろ 3.1.5です。>157みたいな英文のスパムの捕捉率がついに50%割っちゃったotz レンサバなので3.1.6にできない。くやしーw Company: The Motion Picture Group Symbol: MPRG Price: $0.25 3 Day Target: $1.00 Status: Strong Investment この書式をNG登録する良い方法って無いでしょうか。 Company: Symbol: Price: $ 3 Day Target: Status: >>162 それボットネット野郎のspamですなw SAのスレなのは承知でひとつ、 どうしてもSAでダメならProcmailのレシピで SAに飛ばす手前で処理させればよろし。 振り分けがmilterだったら調べてくだされ。 例) :0 B * < 3000 * .*Symbol* * .*Price* * .*3 Day Target* * .*Status* $MAILDIR/trash/. >>164 ここまでわかってるのになんでタイーホできないんだろうねぇ やっぱり国の事情なのかなぁ(´・ω・`) 腹立ってしょうがない >162 ここの日記が参考になります。 株式spamの排除 その3 2006年11月14日 ttp://nikki.hart.co.jp/ ttp://nikki.hart.co.jp/index.php?UID=1163472431 安倍内閣メールマガジン ttp://www.kantei.go.jp/jp/m-magazine/ このメールのアドレスを whitelist_from kantei@mmz.kantei.go.jp としたんだけどスパム扱いになってしまった。 どうも、Fromの "首相官邸 <kantei@mmz.kantei.go.jp>" ってやつの 首の字がまずいような気がする。 ( 首が、JISで 3c37 ってことは < と同じなんだよね。) 全国の首の字で始まる方、ご注意ください。 だったらそんなフィルタ入れてる上流に文句言うべきだよな。 俺のところにはちゃんとMIMEエンコードで来てたから。 もしかして、日本語対応パッチっていうのをやっているからなのかなぁ... MeCabいれて、MeCabの辞書いれて、いくつかのPerlモジュールいれたんだよなぁ... 日本語対応パッチがヘッダのエンコードをデコードしてしまっているためかもしれないなぁ... よくわからんけど... >>172 それだったらさらに関係ないんじゃない? 日本語パッチでは確か、内部UTF-8処理だったと思うんで。 でも、JIS のMIMEエンコードをデコードしてからUTF-8に変換するんじゃないの? MIMEエンコードをデコードしてそれを処理してからUTF-8に変換するのか? 変な奴。 >>163 このシリーズで、gifに埋め込まれて送られるバージョンが来た!! RBL関連のスコアはかなり低くしといたほうがよさげ。 SORBSとNJABLでInfoWebの動的IPがblacklist入りして、それだけでスコアが3.9に。 RCVD_NUMERIC_HELOが1.5なので、HELOに適当なホスト名ではなく自分のIPアドレスを 名乗るMTAだったりすると、もうspamと判定されちゃう。 >>176 株式タイプはgifだけじゃなくてpngもjpegもあるよ、 うちにはずいぶん前からきてる procmailの場合下のキーワードにwindows-1250なんかの文字コードや 他にいくつかのキーワードを混ぜてはじいてる。 おいらはSA使ってないからよくわからんけど (ってかSA使うスキルないからこのスレ指くわえて見てるだけのヘタレだけど) SAはデフォルトだと画像系防げないの? * ^Content-Type: image/gif; >>177 自分のIPを名乗るMTAって、それだけでだいぶダメなんだが。 >>179 ヘッダを見ると Received: from 会社のメールサーバのFQDN Received: from xxx.xxx.xxx.xxx (foo@sample.com@xxx.xxx.xxx.xxx) Received: from unknown (HELO ?192.168.1.33?) (foo@sample.com@xxx.xxx.xxx.xxx) 注: xxx.xxx.xxx.xxxはプロバイダのIPアドレス で、最後にヲレ専用のメールサーバに着いていた。 どうやら、送信側の自宅のMUA -> 会社のメールサーバ -> ヲレ専用のメールサーバ ってな感じで配送されてきたメールの模様。 んで、user_prefsのinternal networksに会社のメールサーバのネットワークを 書いていたんで、xxx.xxx.xxx.xxxにRBLやRCVD_NUMERIC_HELOが適用されたのかな。 >>180 それスパムじゃないメールなの? 相手はどんな環境からメール出してるんだ?? >>183 そ。普通の文章を普通のMUAからNATルータ越しに送ってきたもの。なので、最初のHELOは ローカルIPが生で入っている模様。 会社のサーバでqmail-scannerでウイルスチェックかけて、ヲレのサーバでもclamdで ウイルスチェックかけているんで、実際のreceived:はもうちょっと煩雑なものになるんだけど。 >>184 つまりMTA->MTAじゃなくMUA->MTAってことなんだろ? ということは自分とこのユーザってことだから、それは当然だわな。 その場合も、MTAからのものと同じようにSpamAssassinのチェックが掛かるということが 177が言ってる問題の本質とみた。 あ、clamdじゃなくてclamsmtpで、ですな。ウイルスチェック自体はclamdがやっているけど。 >>185 そそ。動的IPアドレスブロックつかって自前のMTAをあげている場合なら まだしも、MUAからのメールではまることがあったので驚いたのですだ。 あと、別のサーバから転送されてくるspamの判別を効かせるためにinternal networks を設定するとはまることがあるんだなぁというお話。 >>177 自分のIPアドレスを 名乗る「MTA」だったりすると、もうspamと判定されちゃう。 これで>>180 「MUA」を例示するからややこしい。 そもそも、RBL系を利用しているのだから、判定されやすいのは当然なのに。 それに、MUAが吐き出すHELOはほぼ不正なんだけど。 まあ、spamassassinのデフォルト設定のスコアリングの危険性が知られるのはいいことだと思う。 俺の環境では、LANのIPアドレスがRCVD_NUMERIC_HELOでスコアされる事はないぞ。 MTA上でspamdとして動いています。 user_prefsはtlec謹呈。 3.1.5 & 3.1.7 その辺、internal_networksやtrusted_networksの書き方次第じゃないの? >>190 tlecのuser_prefsがイイってこと? >>181 >他にいくつかのキーワードを混ぜてはじいてる。 >>190 tlecのuser_prefsには、internal_networksの記述は無い。 trusted_networksはコメントアウトされている。 >>193 trusted_networks は利用者が個別に書くことを推奨している。 それが private_prefs と作者が勝手に名付けている奴。 これは、private_prefsファィルを設置しないと、働かないんでしょ? spamass-milterでsubjectだけ加工するってのは無いのかょ spamassassinにスパム学習させる為だけに怪しい出会い系に 入会した私は変態でしょうか? 出会い系の登録してそこからのメールを自動的にスパム学習させると スパムのトレンドに自動的に追随してくれるかなと思って 出来心でやってしまいました。 でも、今一番難しいのは株を買え!系なんですが。 >>202 折角なんで有効活用したら?w 株系の画像添付はなかなか難しいよなぁ・・・ うちではほとんどカットしてくれてるけどなあ >画像添付 何かコピペか自動生成かって感じの文章が書いてあるだけのが時々抜けてくる。 SpamAssassinを使っているのですが OBSCURED_EMAIL BODY: Message seems to contain rot13ed address でSPAM扱いされるメールがあるのですよ。 ROT13(アルファベットを十三文字ずらすあれ)でエンコードされたアドレスがある というのは判るんだが 何を基準にrot13edかそうでないかを判断してるのかが判らんとです。 教えてエロイ人。 >>208 ^ と ( を見てるくさい。 @ と . がこれに変換されるのかな。 ってことは /usr/share/spamassassin/20_body_tests.cf の body EMAIL_ROT13 /\b[a-z(\]-]+\^[a-z-]+\([a-z]{2,3}\b/ ですか。 a-z,(,],- の繰り返しで始まり、 ^ a-z,- の繰り返し、 ( a-z (2 or 3) で終わるってことニカ? なんか違うような・・・正規表現ですよねこれ 最近、株式SPAMのキーワードがコロコロ変わって大変です。 こんなのや S.umbol: UTEV Current price: $0.012 Recommendation: very aggresive buy!!! こんなの Search for: UTEV Current price: $0.012 Market: bullish. 全部の文字間にHTMLタグとか テーブルのセル1個に1文字とか そんなん? いえ、textっす(´・ω・`) 今、また13発着弾してしまいました。 /etc/mail/spamassassin/local.cfを、 ttp://tlec.linux.or.jp/docs/の user_prefsと入れ換えてもOKですか? ユーザーは50人位です。 >>214 個人向け、つまりfalse_positiveも自己責任で処理することを 前提に作られているから、正直お勧めしない。 多少取りこぼしてもよいのなら、 required_score 30 以上に すれば、少しは安全になるかも。 report_safe 0の 設定を/etc/mail/SA/local.cfに書いているのですが、 なぜか、スパムの判定結果がattachedされてしまいます。 3.17のときは全く問題なかったのですが、3.18にあげてから、 このようになりました。 どなたか教えていただけないでしょうか。 >>216 SAを実行するユーザにて su して、 spamassassin -d spamfile|spamassassin -t -D 2>&1|lv する。 spamd を使っている場合は、spamd を止めてから spamd -D 2>&1 とする。 デバッグメッセージに以下のようなメッセージが出てくる筈。 > [3772] dbg: config: read file /etc/spamassassin/local.cf >>217 レスありがとうございます。 仰せの通りやってみました。 [4218] dbg: config: using "/etc/mail/spamassassin" for site rules dir [4218] dbg: config: read file /etc/mail/spamassassin/local.cf という感じで、ただしく設定したものを読んでいるようです。 >>218 なら、その後に何か error 或は warning が出てきてないか? 因みに俺の手元では spamc で問題なく実行できた。 local.cf の中身を report_safe 0 だけにしてみる。 それでダメなら、ファイルの改行コードを疑う。 >>220 通らないね。なのでRazor2とDCCだけ。 >>219 いろいろありがとうございます。 ふと思いついてHTML::Parserのモジュールを アップグレードしてみたら、今のところ、うまく 動いているようです。 お騒がせしました。 普段はCPANでアップグレードしていたのですが、 気づかないうちに整合性がとれていなかったのかもしれません。 前から気になってたんですが、 spamassassinが、SURBL等に参照するときに、 bodyを全部送っているのでしょうか? http:// と続く部分だけ送っているのでしょうか? httpプロトコルのように、 RBLサーバとのやりとりが説明されたサイトはありませんか? みんなが使うから、たぶん効率の良い方法を取っていると思うのですが、 どういう方法にて、やりとりしているのでしょうか? SURLBLの問い合わせもDNSBLと同じ、つまりDNS引いてるだけだから 送られるのはドメイン名のみのはず。 * bug 4636: Add support for charset normalization, so rules can be written in UTF-8 to match text in other charsets. UTF-8対応したんだね。 分かち書きは対応してないのかな? postfixでバーチャルドメインな環境ですが、 特定のドメインのユーザ(複数ドメイン指定)だけ、spamassassin先生を呼ぶことはできますか? hogehoge@aaa.com → spamassassin → メールボックス sagesage@aaa.com → spamassassin → メールボックス fugaduga@bbb.com → そのままメールボックスへ hagehage@ccc.com → spamassassin → メールボックス それとも、postfixは、すべてのメールをspamassassinに渡してしまうのでしょうか? spamc の -u オプションを使えないようにしたい (spamdの起動ユーザを spamcの起動ユーザのみにしたい) のですが、ソースをどう修正すればよいでしょうか。 spamc -u hoge としてspamdを起動すれば、 /home/hoge/.spamassassin/user_pref を意図的に作り出せることが出来てしまいます。 これを避けたいためです。 spamd は perl ですが、 spamc は C言語なんですね、、、 spamd だけの修正(パッチ当て)で何とか対応できないでしょうか。 >>232 spamcはspamdを呼び出すためのインターフェイスなだけだから 実際にuser_prefを作ってるのはspamdのはずだよ。 でspamdはrootとか特権ユーザで動いてるから、そうやってファイル作ることも出来てるわけ。 spamcとspamdは通信でユーザを渡してると思うので、根本的に対応するには、そのプロトコルから 変更しないと無理だと思われ。 小手先だけの対応なら、spamcのソースから-uオプションの指定をはずしてやればいいんでない? >>231 spamassassinはどうやって呼び出してる? 単に.forwardから呼んでるなら、フィルタしたくないユーザの.forwardからはずしてやればいいだけ。 FreeBSD6.2 + p5-Mail-SpamAssassin-3.2.1で構築中なのですが、 デフォルトでユーザ毎にできる学習ファイル $HOME/.spamassassin/bayes_seen などを全ユーザで1つにして共有したいのですが、 どこかにそれ用の設定ありますでしょうか? >>235 amavis とか使ってMTA側でやれば? >>236 その場合sa-leranもamavisユーザでやるってことでしょうか? なんかここ1-2週間、spamasassinをすりぬけてくる 日本語のspamが急激に増えたんだけど、なんでだろう? >>239 うちは SpamAssassin の前段階の maildropfilter で結構弾いてるっぽい。 よぉく見ると特徴的なヘッダしてるからそれで弾いてる。 以下のヘッダ(xxx は IP アドレス)が付いている spam が多くて、対策を検討中です。 Received: from unknown (HELO ?xxx.xxx.xxx.xxx?) (xxx.xxx.xxx.xxx) 「RCVD_NUMERIC_HELO」ってルールが標準であるようですが、 上記メールは RCVD_NUMERIC_HELO に引っ掛かっていませんでした。 「RCVD_NUMERIC_HELO」というルールを使うためには、何か特別な設定が必要なのでしょうか? /etc/mail/spamassassin/local.cf は松田さんのところの user_prefs を private_prefs 未使用にして置き換えています。 >>242 spamassassin.jpに相談したほうがいい 3.1.8だと問題なくmake test通るけど、3.1.9と3.2.2でmake testでエラー出るんだけど何か変わった? 最近来るスパムメールって、特定のパターンにひっかからない 奴が多い。サブジェクト普通だし差出人もいろんな国から 色んなアドレス使って来る。(パターン化しないようにしてる?) メール本文は○○.pdfが添付されてるだけだったり、 ○○.html とかが多い。 みんなどうやってはじいてるの? たとえば差出人や見出しはこんな感じ Subject: oh man your nutz From: <rkirchho@first-lan.de> Sender: User kwaneix <kwaneix@tkhfvj> こんなのは動的アドレスから来てるから Postfix の方で弾いちゃってるよ >>246 まだpdf spam来てる? オレんとこは8/21を最後に来てないんだが。 >>247 その情報だけじゃわかんない。 少なくとも送信元のReceived:が欲しい。 >>248 動的アドレスって、どうやって判断するんだ? 逆引きのないIPや、一見動的っぽく見えるFQDNとか、 バリエーションは世界中に無数に存在するのに? IPとFQDNだけでspamって判断できるのか? ISPのメアドじゃ出来ない方法か。 なるほど、確かにspammerはそんな極少数派の対策などする訳がないな。 PostfixにSpamAssassinとClamAVを導入しようと思っているのですが、 amavisd-newを使うやり方と、SpamPDとClamSMTPを使うやり方とがあるっぽいんですが、 どっちがオススメでしょうか? >>254 俺はSpamPDとClamSMTPでやってます。 qmail-scanner+SpamAssassin の組み合わせを使っているんですが 最近、英文Spamが大量にスルーされるのは、俺だけのところですかね? >>254 SpamPD+ClamSMTPで使ってるけど、安定して運用できてるよ。 >>255 ,257 レスありがとう、SpamPDとClamSMTPで挑戦中です。 ですが、よく考えたら自鯖にSMTPで来るメールよりも、ISPからfetchmailで持ってくる メールのほうが多数だったみたいで(あまり意識してなかった。。。) こんな場合はやっぱ普通にfetchmail->procmail->spamc/clamdscan ですかね。 この場合はSMTP->procmailのルートの時に二重にスパムチェックしそうなので、 procmailrc分けてみようか、、、とか考えてます。 >>258 postfix の filter 使ったら? ClamSMTP を使いたい無いサイトは filter前に登録してチェックさせないようにしているよ。 とりあえずspamPDとClamSMTPで出来たっぽいですヽ(゚∀゚)ノ >>259 spamPDを使った場合、fetchmailで持ってくる分については別口でやらないと いけないなぁ、という感じなんですが、postfixのfilterでやれます? そうか、fetchmailで smtphost localhost ってやればいいんですね。。(゚Д゚;) スレ汚し失礼しました spamPDで質問なんですが、sa-learnするときはやはりspampdを動かしてるユーザで やるのが正解でしょうか? debian etchのaptでspamPDを入れたら、spampdユーザが作られて実行されるんですが、 spampdユーザにはhomeが無い、、、 で、なんとなくrootでsa-learnしてたんですが、なんか違うかな〜と思いまして。。。 >>262 です >>238 ってことですかね、、、スイマセン spamdをroot権限以外で起動したいのですが、どうすればよいのでしょうか? >>264 -u オプションと -g オプションでユーザとグループを指定できる。 とりあえず、spamd -h、perldoc spamd 見るべし。 >>262 sudo -H -u spampd sa-learn ... とかでよくね? ($HOMEを変更しないと ~root/.spamassassin/ を見に行くので -H 必須) 日本語パッチあてたら日本語スパムでもBAYES_99出るようになったー! けどやっぱまだBAYES_50止まりが大半、、、 tlecのuser_prefsのおかげでBAYES_99いかなくてもけっこう弾けてるけど、 スパム判定されて本文が添付になってしまったメールをlearnさせても正常に (添付のオリジナルメッセージだけを対象に)学習してくれるモノでしょうか? 探したんだけどピッタリなスレが見あたらなかったんでここで質問させてちょ bsfilter と spamcopを組み合わせて使う方法ってどこかに書かれてないかな? MTA直でspamcop呼び出すと必要なメールまで根こそぎ蹴られてしまいそうなので なんとかフィルタとして微調整しながら使いたいんだけど ベイジアンフィルタだけではもう限界だわorz 苦労して組み合わせて使う仕組み構築するくらいなら、素直にSpamAssassin使えよ。 bsfilter関連でいろいろと組み上げた細工もあるしさ、それも含めてルーチン ワークができあがってるし、できるもんならそのまま引き継いで使いたいさね ちょいと程度の苦労で済むなら・・w どうにもアレなようならSpamAssasinに切り替えようかとは思ってるんだが SpamAssassin 3.2.4使ってるんですが、この手のフィルタ避けのせいか、 SPAMがすり抜けてしまいます。 >封.筒発.送して毎.月39.万.円.稼ぐ > >ビジ.ネスマニュ.アルに沿って初.心者でも活.動が可.能となりました。 > >活.動時.間は自分で選択! sa-learnしたんですが、キーワードが間の「.」で分割されているせいか、 学習出来ていないようです。 うまく排除する方法は無いもんでしょうか? >>271 へー、日本語スパムでもベイジアン対策してるの出てきたんだな。 そんなのきてるんだ。 中国・韓国・フィリピンなどの発信元を拒否してるためか、 手元にはまだ届いてない。 気長に学習させるか、他のヒューリスティックなスコアリングに 頼るかのどちらかしかないものなぁ >271 そんだけ個性があれば個別のルールでスコア付けとけば良くね? 溜まったspam判定されたメールのチェック、どうしてる? MH形式で保存してあるんでフィルタ書いてサマリの形にしてlessでざーーーーーっと眺めるような 形にしてる(1日200〜400通くらい来るから、ちんたらやっとられん)んだけど、困るのが日本語のメール。 base64とか出てくるし、もう、このクソがと。 今は読めないメールは個別にMUAで開いたりnkf通して中身確認してるんだけど、なんかスマートな 方法ないかな? 未チェックのまま捨てる事ができればいいんだけどorz >>277 俺はMUAでFromだけザーと流し見して捨ててるなぁ BAYES_99をけっこう高めに設定してるんでいちおう見てるけど、 日に200件を超えるんで、ほんとは見ずに捨てたいところ。 spam判定された物は別アドレスに転送、 条件付きフィルタでヘッダ部分を判別して自動削除してる。 >>278-279 やっぱ別アドレス用意しといて転送、後は/var/mail/hogehoge を直接いぢるくなり MTA使うなり・・ってのが一番融通も効いてよさそだねえ 出先で処理しなくちゃならんケースもあって、そういうのって常にMTAが使える訳でもなくてさ telnetしか使えないとかPDAしか使えないとか ああ、頭いてえ >>277 サーバ側にSquirrelMail立ってて受信フォルダとは別のフォルダに 移動させておいて、暇なときにFrom/Subjectをざーっと見て全チェック→削除。 spamとして弾かれるときにテンプレにされてオリジナルメールは添付ファイルになっちゃうけど これやめさせられない?オリジナルのままヘッダに情報追加する形、もしくは追加情報いらんから オリジナルのままにさせときたいんだけど でないと学習させんのがメガマンドクセー>< >>283 > これやめさせられない? できるけど。 ,..-─‐-..、 /.: : : : : : : .ヽ R: : : :. : pq: :i} この知りたがり屋! |:.i} : : : :_{: :.レ′ ノr┴-<」: :j| /:r仁ニ= ノ:.ノ|! _ /:/ = /: :/ }! |〕) ペシ ペシ {;ハ__,イ: :f | /´ ☆ / }rヘ ├--r─y/ / r'‐-| ├-┴〆 _, 、_ '⌒ ☆ 仁二ニ_‐-イ | | ∩`Д´) | l i 厂  ̄ニニ¬ ノ ⊂ノ ,ゝ、 \ \ __厂`ヽ (__ ̄) ) / /\_i⌒ト、_ ノrr- } し'し′ └-' ̄. | |_二二._」」__ノ local.cf を更新した時って、spamassassinのプロセス再起動が必要でしょうか? >>288 勿論。 >>267 perldoc sa-learn の OPTIONS の --ham 又は --spam を見ろ。 htmlメール中に張られている、画像リンクを対処する場合、 user_prefs にどういう風に記述すればいいのでしょう??? >>290 > 画像リンクを対処する ってどういうことか説明しないと。 tlec.linux.or.jpから落としてリネームしてそれだけって人 大丈夫なのかな・・・・ 一度、デバッグしたほうがいいと思うんですが 大量のエラーがでますから tlec.linux.or.jp いつも更新乙です Content-Type: を宣言していないheaderを持つメールにスコア与えるには どんなレシピ設定をしてやれば良いのでしょうか? >>294 warn: config: failed to parse, now a plugin, skipping, in "/usr/local/etc/tlec_linux_or_jp/user_prefs": ok_languages ja en 今日の昼ぐらいから急にSpamAssassinがSIGPIPEで死ぬようになって難儀している。 procmailで食わせているんだけど、毎回死ぬわけでもなく、時々。 インストールしてあるものを何か入れ替えたわけでもないし、ディスクが足りてない わけでもない。何故だろう……。 俺のセブンセンシズによればハードディスクが壊れかかっている。 そうか、ディスクか。 ……でもログとSMARTの情報を見たけど別段おかしくはなさそうだ。 メモリーが壊れかかっているのを感じるぞ。 うおー、燃え上がれ俺のコスモ!memtest86拳 >>305 するどい。調べてみたところ、razor-users MLでの報告を発見。 それによるとどうやら c303.cloudmark.com というサーバだけが、なぜかときどき 空のgreetingを返してくれて解析に失敗して死ぬらしい。 servers.catalogue.lst からc303を外して様子をみてみる。どうもありがとう。 お世話になってます。ところでちゃんとしたルールを自作して役に立ちたいのですが、 ルール作成のマニュアルはどこを参照したらよろしいでしょうか? 本家のDOCを斜め読みしたのですが、いまいち解りにくく。 ttp://wiki.apache.org/spamassassin/RuleDescriptionTemplate ttp://spamassassin.apache.org/tests_3_2_x.html ttp://svn.apache.org/repos/asf/spamassassin/tags/spamassassin_release_3_2_5/rules/ s-jis → jis → 正規表現 このツールなら見かけたけど。 豚切りスマソ uriとかrawbodyって何。 fullはメイル全体を正規表現によるマッチングの対象とします。 したがって、"^"はメイル全体の先頭、"$"はメイル全体の末尾を意味します。 添付ファイルのヘッダを引っ掛けたいなら、 mimeheader の使用をお勧めします。 >>307 >>309 精進頼む 対象説明 header ヘッダ (MIME復号化済み) body ボディのテキストパートのみ (MIME復号化済み、HTMLタグ等の除去あり) nbody ボディのテキストパートのみ(MIME復号化済み、 HTMLタグ等の除去あり、UTF-8に変換済み) uri ボディに記述されたURI rawbody ボディのテキストパートのみ(MIME復号化済み) full 生メッセージ全体(MIME復号化なし) ttp://www.emaillab.org/spamassassin/docs/plugin-OSC20061028.pdf ttp://stock.sharpdecimal com このスペースが無いuriに困りましたw 誰かSpamAssassinのマニュアルとかドキュメントのあるURLを教えてくれないか?! >>312 ttp://spamassassin.apache.org/ >>313 dクス でもできれば、もう少しこう・・・温かみのある場所を頼む! Docs ってあるだろ そこ見ろよ 温かみって具体的になんなんだよ >>315 まあそう責めるなよ docsが不親切なのは事実だし、普及の妨げ要因なわけだし。 >>312 何が解らないんだよ? >>315 そこにあるドキュメントだと、どーも理解が難しくてつらかったんだよ! >>316 単純にspamassassinで、どういう設定したらこーなるよ〜ってのを調べたかったんだ docsのMail::SpamAssassin::Conf を見ればある程度わかってきたから あとはぐぐってがんばってみるよ >>317 結局クグルしかw ググっても解らん事はここで質問すると、 後続ユーザーの為にもなるから良いんじゃね? ttp://tlec.linux.or.jp/docs/user_prefs こういう、実践的なコードを読みながらマニュアルとつけあわせした方が 近道じゃないか? >>319 そのマニュアルが解りにくいって何度言ったら(ry user_prefsは、>>310 のリンク先の文章程度のが無いと理解できないのでは? 鯖管はともかく、事務系の一般ユーザーが正規表現なんかは無理。 spamassassinでググると、日本SpamAssassinユーザ会がトップw 壁が高すぐwwwwwww そもそも一般ユーザも使えるというだけで 一般ユーザの積極的な利用に配慮しているとは言い難いから 多少やさしく書いたところで>>320 の言うような対象者は読まんだろ 素人フレンドリーにしたいなら 設定を作成する前処理系でも作ればいいと思うぞ そこまで大袈裟な話では無いのでは。 user_prefsを子ユーザーが書き込むGUIはいくつか有るし。 俺様ルールが書けるだけでとりあえずは十分でしょ。 今はこのマニュアルすら、まともなのは無い訳で。 向上心のないただの脳なしのくせにどうしてえらそうなんだ? 天才なおまいらがマニュアル分かりやすく訳してから晒してくれ 情報が少ないのは求められてない証拠 それではいかんと思うなら自分で行動を起こせ オレは困ってないから興味ないわ >>327 ハイハイさみしいのね。 情報が少ないのは、ユーザーが少ないからw 本家DOCが、ここまで糞なのも珍しい。 一般ユーザはすり抜け分をMUAの学習型フィルタで簡単に対処できるよな なのにややこしいルールを書きたい一般ユーザがどれだけいるんだ? >>329 イタイヤツ? >簡単に対処できるよな 簡単に対処できるよな 簡単に対処できるよな できない場合がある。 >なのにややこしいルールを書きたい一般ユーザがどれだけいるんだ? ややこしいルールは書きたくないだろ普通。 簡単なルールを書きたいユーザーは多い。 ただユーザーそのものが少ないがw ユーザーが増えない理由位は想像できるよな? Outlook/Thunderbird/Shurikenなどにはビルトインのフィルタがあるし Outlook Express、Beckey!、秀丸などでもフィルタを追加できる ユーザはルールを記述するよりもGUIの方が喜ぶと思うぞ で、そういった手元のフィルタを有効に出来ない場合がどれだけある? 簡単なルールを書きたいユーザが多いのはお前の周囲だけだったりしないのか ユーザ数に執着するところも理解できない うまく使えるやつは使うしお前みたいなのは使わなきゃいいだけなのにな >Outlook Express、Beckey!、秀丸などでもフィルタを追加できる これは大変だろ? そもそも、他人と情報を共有するのが難しい。 >お前の周囲だけだったりしないのか お前、人と直接話す機会少ないだろ?友達も少ないとか...... rf[:@ZwE|6b@Zw7\4t>wwww >ユーザ数に執着するところも理解できない 執着しているのは、むしろお前なのでは? ところでお前は何がしたいんだ?お前が作ったDOCでも有るまいて? ただのかまってちゃんなら消えろ。 その言葉をそっくりお返しするぜ 草を生やしたがるやつにはろくなのがいねえわ 俺は前衛だって上から目線だからひとりぼっちなんだよ。 まあシコシコと一人上手やってろ。 このままじゃ、いずれ消滅するソフトだし。 >>327-328 どちらも違う。 本家MLを見るとわかるが、ユーザ数は少なくはない。 結構活発に投稿されている。 そして、同じような内容の質問が度々見受けられる。 なのに、文書は更新されない。 これは開発メンバーにやる気がないと考えるのが妥当じゃないか。 >>337 よく知ってる/使い込んでる連中にもやる気がない、が抜けてる 訳すもなにも見たまんまじゃないの? trusted_networks: スパム送信したり3rd party relayするような悪い子じゃないと仮定する。 善意の第三者なので悪い子から送りつけられちゃったスパムをリレーしてくるかも知れないけど 自分でスパムの送出源になったりヘッダを改竄したりはしない。 internal_networks: そのアドレス内にあるサーバは自組織内のメールサーバ(つまり そこが送り出すメールは全て自組織発)か自組織のMX。 メールサーバ自身もそれを使ってメールを送る人も、誰も悪いことしないいい子ちゃん。 自分が使ってるISPのメールサーバは、その子自身に悪意がないことはまあ仮定できる。 でも自分と同様にそれを使ってメールを出すISPのユーザの中にスパマーもいるかも知れない。 だからtrusted_networksには指定してもいいけどinternal_networksに指定するのは甘過ぎる。 これでわかるように、internal_networksはtrusted_networksより厳しいので、 常にtrusted_networksの部分集合になるはず。 んで、trusted_networksが指定されてinternal_networksが指定されない場合、 internal_networksはtrusted_networksの値を使う。 ……と書いてあるがほんとかね。その仕様はマズいんじゃないの。 より甘いもののデフォルト値としてより厳しいものを使うというなら安全だけど より厳しいもののデフォルト値としてより甘いものを使うのって安全じゃないよねえ。 >>340 ありがとう、助かったよ いきなり PBL/DUL check とか FP とかいう意味不明な略語が出てきて全くわからなかった よければこれらの略語の意味を教えてくれないか 安全か否かの話なんだが trusted_networks と internal_networks は仮想ヘッダの作成に使われる trusted_networks は X-Spam-Relays-Untrusted / X-Spam-Relays-Trusted の判断に internal_networks は X-Spam-Relays-External / X-Spam-Relays-Internal の判断に 仮想ヘッダはデバッグ出力で見ることができる これらは全く別の判断で、相互に影響し合うものじゃないから 片方の設定値がない場合はもう片方の設定を引っ張ってくる、という仕様じゃないかな そのあたりは本題と関係ないと思ってすっとばしたんで知らん。というのもなんなので…… PBLはopen relayとかの悪い子メールサーバのリストじゃなかったっけ? うっすらとした記憶によればDULはたぶんDial Up List。FPは知らない。 > これらは全く別の判断で、相互に影響し合うものじゃないから あなたのいう「判断」は仮想ヘッダを生成するかどうかの判断だよね? それらの仮想ヘッダの役割はいってみればtrusted_networks/internal_networks (によるそのメールの仕分け)を後段に渡すだけなので、生成が独立なのは当たり前じゃないかな。 ありがとう > あなたのいう「判断」は仮想ヘッダを生成するかどうかの判断だよね? ビミョーに違う 仮想ヘッダってのは Received: 行を正規化したもので 生成の際、何処までが trusted で何処から untrusted なのかを決める指標が trusted_networks で 何処までが internal で何処から external なのかを決める指標が internal_networks これらは設定しないと、 SA は設定がないなりに何とか切り分けようと努力する つまり、設定されていなくてもそれなりに動作し、仮想ヘッダは必ず生成される 今手元で確認したんで断言できる > 生成が独立なのは当たり前じゃないか それが正直今までわからなかった もしかすると internal にあって trusted にない IP が何か関係するのかと思ってた > > 生成が独立なのは当たり前じゃないか > > それが正直今までわからなかった > もしかすると internal にあって trusted にない IP が何か関係するのかと思ってた そのあたりは後段のルールの役割でしょうね。 あなたの着目した部分の役割というのは 要するにメールが経由したパスの信頼性を分類して、後段が扱いやすくすることだと思います。 FP は False Positive で、PBL は Public BlackList じゃないかな。 >>344-345 ありがとう プロバ規制でずっと書き込めなくて 今はダイヤルアップで書いてる >>339 言われてみればそれもあるかも 少なくとも開発のペースはすっかり落ちてるし sa-update しても更新されない ところで、ふと思ったんだけど、 spam自体が下火になりつつある、ってことはないかな? なんか、あんまり増えたって気がしないのは自分だけかな? >spam自体が下火になりつつある、ってことはないかな? ない >なんか、あんまり増えたって気がしないのは自分だけかな? うん ヘッダに autolearn=no が付加されたものは、 『スパムじゃないと判断したし、何も学習してないよ』 ということなんでしょうか。 また、ヘッダに付加された autolearn=ham は一体何なのでしょうか。 >>348 SpamAssasin に学習させるときは spam か ham かで学習させる。 autolearn=yes は強化学習したって事じゃないかな。 そのヘッダの意味はわからないけど、ham はスパムフィルターの用語では スパムでないメッセージのこと。 これ精度めちゃくちゃ低いなぁ…調教次第なのかな? POPFILEだとほぼ完璧に振り分けてるのに迷惑メールを ザクザク受信トレイに放り込むし、閾値上げるとちょっとした 重要メールまで迷惑メールにするし、いやはや。 少なくとも ベイジアンフィルタ は学習なしには機能しないよ? 月に1万通くらいスパム認定しているが、スパムじゃないのをスパム認定したのは 3、4通くらい。それもメールアドレスが ***.@*** みたいなイレギュラーアドレス。 すり抜けたスパムが5、6通くらいかな。結構快適。 学習した結果って外に出したり共有したりできないの? 関係ないけどpostgrey入れてみたら超快適 3日間様子を見たけど、1日平均100通のspamが0だった postfixもほとんど弄らないでいいし、ホント入れるだけに近い まぁ原理的にトラフィックが増えてしまうんだけど、中小なら この程度の対策で良いのかもなーと トラフィックは増えないよ。 セッション数は増えるけど、本文は流れないから通信量は減る。 あそっか おー、そうだね、なるほど。うまうま ところで懸念事項ってあるのかな? postgreyってSpamAssassinいらなくなるよね >>362 最低限postgrey + spammass-milter。Greylistingだけでspamをblockできると 思っているのなら、甘すぎ。 targrey/postgreyはまともに遅延に対処するspammerには効果無し まともに再送するやつらには効かないね。 ここんとこ、そのまともに再送してくるbotがいて困る。 Check your email servers - blackholes.us DNSBL is dead http://isc.sans.org/diary.html?storyid=7360 SpamAssassin 2010 Bug ttp://it.slashdot.org/story/10/01/02/0027207/SpamAssassin-2010-Bug spamassasin使ってる人に質問 /usr/local/bin/spam-filter の 下記送信先に、spamメールが配送されますが、 それをどこにも送らないようにするにはどうすればいいでしょうか。 cat | $SPAMASSASSIN -x > in.$$ grep -e "^X-Spam-Status:.Yes" in.$$ \ && $SENDMAIL "送信先" < in.$$ \ || $SENDMAIL "$@" < in.$$ >>369 ttp://pc11.2ch.net/test/read.cgi/mysv/1083212079/207 ttp://pc11.2ch.net/test/read.cgi/mysv/1119304945/737-738 いろんなところにマルチ乙。 そもそも/usr/local/bin/spam-filterって自分で作るファイルだから、 ぐぐって解説サイトのスクリプトを丸々コピペしてる人しか同じような環境の人はおらんよ。 全部他人任せのやつには自宅鯖をする資格無し。 >>369 cat | $SPAMASSASSIN -x > in.$$ grep -e "^X-Spam-Status:.Yes" in.$$ && rm -Rf / でも単にコピペだけして奇術の中身を考えない輩にはいい薬だと思う >>371 && rm -Rf / ってをいをい… 3.3系って日本語対応パッチは不要(パッチがなくとも同等の機能が最初からある) になっているのでしょうか? RTFのみ添付のスパムに加算するためのルールはどう書けばよいのでしょうか? どなたかご教示お願い致します。 TLECのuser_prefsが全然更新されなくなってしまった… やめちゃったのかなぁ >>379 ありがとう! 現在は元の tlec.linux.or.jp に戻っているようです。 連投失礼。 tlecのuser_prefsが更新されないと、途端に日本語スパムが溢れてきて 松田さんの偉大さを知りました。 SpamAssassinには日本語対応パッチ当ててるんですが、やはり手動避け設定は 強力ですね。 >>381 日本語対応パッチの有無って関係あるの? >>382 日本語対応パッチしてても、ベイジアンフィルタを抜けてくるのは圧倒的に 日本語のスパムが多くて、いちおうパッチの効果はあるようには思うんですが やはり日本語スパムは手動避けがまだ必要なんだなと。 /home/$user/Maildir/cur には正常メールとスパムメールが混在した状態です。 間違えて sa-learn --ham /home/$user/Maildir/cur をやってしまったのですが、 学習を初期化(なかったことに)する方法はあるのでしょうか? >>385 sa-learn --forget /home/$use/Maildir/cur sa-learn(1) - Linux man page http://linux.die.net/man/1/sa-learn --clear Wipe out existing database とかあるな 今度は、tlec.linux.or.jp 自体に接続できなくなってしまったな 移動先: http://www.flcl.org/ ~yoh/user_prefs > cron.daily に設定されている方が結構多いようで、朝の4時〜5時にアクセスが集中しています。 > それ以外では、一時間毎に設定されている方が数人程度。 > 面白いのは、午前11時になると一時間の間、1分毎にダウンロードする人。 crontab の設定ミスですね。(笑) > さ*らのweb鯖を使ってる方、貴方ですよ。^^; 自分は、半年に一回くらい。 >>390 おおーありがと! 俺ははてなアンテナに登録してて、メール来たときにwget。 >>390 よく自動でアップデートできるな・・・ 俺は、アップデート用のスクリプト使っても怖くてcronで更新する 気にはなれん TLECのuser_prefs使ってたら国内のホストでもRCVD_IN_CHINAや RCVD_IN_CHINA_KR、RCVD_IN_TAIWANと誤判定される物が増えたので。 blackholes.us絡みの記述を削除。 blackholes.usの代わりにcc.wariate.jpでテスト中。 >>394 1ヶ月が経とうとしてますが、どんな具合ですか ここ半月ほどsa-updateで新しいデータが配信されていないように思うんだが そういうものかな SpamAssassin 3.3.1に上げたんだけど、この警告が非常に気になる。 warn: netset: cannot include 0:0:0:0:0:0:0:1/128 as it has already been included あとTLECのuser_prefsの箇所でもこんな感じで出てるんだけど、これって何だろ? warn: netset: cannot include 124.83.168.15/32 as it has already been included warn: netset: cannot include 124.83.168.16/29 as it has already been included warn: netset: cannot include 124.83.168.24/30 as it has already been included warn: netset: cannot include 124.83.168.28/31 as it has already been included もちろん、二重に読み込んだりはしてない。 0:0:0:0:0:0:0:1/128 ってのはv6じゃないかな カーネルのv6サポート外せば治まるんでは host 124.83.168.15 ってやってみ user_prefs の trusted_networks に記述がある筈 trusted_networks で重複しているならそいつは古いから >>390 から落とすべし >>398 どうもです。user_prefsを最新のものにしても変わらず…。 警告をよく見たら、自分で設定した trusted_networks も同じ表示があった。 warn: netset: cannot include 192.168.0.0/24 as it has already been included 動作的には問題ないようにも見えるけど、よく分からん。 そりゃ、そのメッセージ通り 「192.168.0.0/24 は包含できない、それは既に包含済みだから」 動作も問題ないのは当然 TLECが消滅ってなんで? これ消えると、spamassassin布教的には痛いっす。 ttp://www.spamassassin.jp/ ここにインスコマニュアル移して欲しかったorz JLAの体制変わったから追い出されたのかね。 TLECはもう解散したのかな。 旧JLAの"ユーザーの集い"っていう面が排除されてるよね。 最も有益なカテゴリーだったのに。 >>402-403 (1)旧JLA鯖が壊れた (2)JLAは解散した なので、追い出された訳じゃない。 JF,JMも同様に鯖を失い、彼等はSourceForgeに移行した。 TLEC自体は存続している。 TLECは地方ローカルのユーザーズグループなので、 webコンテンツを移行させるという切迫した事情がないので、 現状放置中。 SAインストールマニュアルは当面 web archiveで我慢して。 http://web.archive.org/web/20071009153650/tlec.linux.or.jp/docs/spamassassin.html そのうち時間ができたら何とかしたいな(希望的観測) >>409 一般社団法人 日本リヌックス協会 設立 4:41 PM 投稿先 JLAからのお知らせ 投稿者 JLA事務局 「任意団体 日本リヌックス協会」は 2010年6月30日をもって解散し、 その残余財産および会員を 一般社団法人 日本リヌックス協会 に引き継ぐ ことを総会決議しました。 http://www.flcl.org/ ~yoh/user_prefs のルールを使っているのですが、203.138.0.0/16内のアドレス a. [IPネットワークアドレス] 203.138.0.0/24 b. [ネットワーク名] INFOSPHERE f. [組織名] InfoSphere (株式会社NTTPCコミュニケーションズ) から送られてくるメールが header PRIMETELECOM_CN X-Spam-Relays-Untrusted =~ /^\[ ip=203\.(?:1[3-9]\d|20[0-8])(\?:\.\d{1,3}){2} / describe PRIMETELECOM_CN [CN]Beijing Primezone Technologies Inc. score PRIMETELECOM_CN 1.5 のルールに引っ掛かってしまっています。 あと、RCVD_IN_CHINA,RCVD_IN_CHINA_KR,RCVD_IN_TAIWANなるルールにも 引っ掛かっているのですが、これは ttp://bui.asablo.jp/blog/2010/10/31/5459612 の現象と同じかと思います。 多くの方が利用されているかと思いますので、修正のご検討をお願いいたします。 そのネットワーク空間を cc.wariate.jp 使って引いてみると JP で認識されるね 1.1.138.203.cc.wariate.jp text = "JP" 1.1.138.203.jp.cc.wariate.jp を正引きすると 127.0.0.2 1.1.138.203.cn.cc.wariate.jp を正引きすると Non-existent domain と、こちらも正しく動作してる >>411 御報告有難うございます 今しがた修正しました 御確認願います tlec氏、今年の3月頃に大幅に変更したscoreありますか? その頃からspamのスコアが下がって通り抜けちゃうメールが散見されるんですが そうかな? 実名出さない方向で考えたんじゃない? まあたしかに「半ズボン氏」みたいなイメージが無いわけではないけど、、、 >>414 今はCVSみたいなリビジョン管理を全くやっていないので、 以前と何処を変更したかについての詳細は正直わかりません。 但し、概ね以下のようなルールで変更してます。 ・X-Spam-Relays-Untrusted で始まるIPアドレス範囲は、気が付いたらその都度変更しています。 これには変更日を記録していません。 ・上記以外の、正規表現ベースのルールを変更する際には、変更日を記録しています。 例えば↓ # added 2011.03.09 by [yoh] もしかして、すり抜けてしまったspamはyahoo.comのwebメイルサービスを悪用した奴ではないでしょうか。 # added 2011.03.05 by [yoh] # for checking US and EU Yahoo! webmail spam. trusted_networks 115.178.12.0/23 124.108.96.0/20 124.108.112.0/20 183.177.64.0/19 67.195.0.0/16 68.142.192.0/18 76.13.0.0/16 77.238.188.0/22 98.136.0.0/14 これをコメントアウトして、すり抜けてしまったspamを再度SAに通してみて、引っかかるようならビンゴです。 不評であれば削除します。 そうでない場合は、もし宜しければ、すり抜けてしまったspamのサンプルをzipで幾つか頂ければ、解析します。 >>417 なかのひと様、いつもお世話になっております。 以前はCVSだったと思うのですが、今は違うのですね。 以下、個人用ルールとのマージのためにGitでバージョン管理したものがあります。 (はてなアンテナ等で気付いた時だけなので歯抜けになっていると思われますが) https://github.com/unpush/tlec_user_prefs/commits/master かなり以前、リビジョン化したものを公開してもよいかメール差し上げた のですが、もしかして届いてなかったでしょうか… もし上記公開に不都合があれば停止しますので宜しくお願いします。 >>418 >>406 辺りに説明しました通りで、 旧JLA鯖がCVSでうpしていた関係で、自ずとリビジョン管理されていた訳でして。 今は単にsshで上書きしているだけです。 >かなり以前、リビジョン化したものを公開してもよいかメール差し上げた >のですが、もしかして届いてなかったでしょうか… え゛、届いてないです。(汗 >もし上記公開に不都合があれば停止しますので宜しくお願いします。 いえ、止める理由なぞありません。 つかむしろどんどんやってください(笑) それと、今はほぼ毎日ペースで更新しています。 >>419 快諾ありがとうございます。 やはり届いてなかったですか…2008年頃だったようです。BAYES_99だったりして(汗 毎日ペースとは知りませんでした。はてなアンテナだと拾いきれてないかもですね。 もし気が向いたら、GitHubなんか使ってみませんか? >>417 呼びかけ方が悪かったのはスマンかったです。 spamはいったん削除してしまったので一部ヘッダだけメモで残してある状態。 まだすり抜けが多いようなら今度はまとめてzipでお送りしますのでよろしくお願いします。 ひとまず、自分でヘッダを見て気づいたのは X-Mailer : tpmbwnaln-50 みたいにX-Mailerが[a-z]+(-|\s)(\d){2} (で正規表現あってるかなあ?)みたいな ランダム文字列メーラを名乗ってますね。 あと X-Nat-Received : from [202.181.99.22]:... と言うのが必ずついてて同じところから爆撃食らってるのかなあ…程度が 素人で分かる限界でした。 >>421 X-Nat-Receivedというヘッダは初めて見ます。 手元でgrepしたら、1通だけヒットしました。 今年の1/6に、さくらから送信されている日本語spamです。 しかし、 >X-Mailer : tpmbwnaln-50 こんな、いかにも引っ掛けてくださいと言わんばかりのX-Mailerは付いていませんでした。 避けられてるのかな? また新たなハニーポットを仕掛けないとダメかな? 次に受信したら是非サンプルをください。お願いします。 >>422 ありがとうございます。 自分でもにらめっこしながら、ううん…と悩んでいたのですが X-Nat-Received : from [202.181.99.22]:51905 [ident-empty] by smtp-proxy.isp with TPROXY id 1302654519.9882 って入ってて、この202.181.99.22が悪人かと思ったんですがよく見ると 自分の鯖のIPでした。(自分がさくらインターネットです) さくら内に悪質スパマーがいると言うより、配信先のIPを見てダミーで 突っ込まれてる気配… お手数かと思いましたが、まだ鯖に残っていたメールをサンプルに添付して 送りましたので、ご確認いただけると助かります。よろしくお願いしますです。 >>423 昨日返信しましたが、メイルのやりとりだけじゃ情報が共有できないのでこちらにも書きます。 頂いたサンプルの一つを spamassassin -d <sample.txt>spamassassin -t -D 2>&1|lv しまして、 デバッグ出力を見ました。 > この202.181.99.22が悪人かと思ったんですがよく見ると自分の鯖のIPでした。 デバッグ出力に現れた直近のIPアドレスは、そのIPアドレスではない別のIPアドレスでした。 その、直近のIPアドレスを trusted_networks に指定したら、スコアが改善されました。 メイルサーバを運用されている方は、 trusted_networks を正しく設定してください。 自分のメイルサーバのIPアドレスは必ず trusted_networks に設定してください。 これだけでスコアがかなり改善される筈です。 因みに、件の X-Mailer は header RNDXMAILER X-Mailer =~ /^[a-z]{4,}[ \.-]\d{2}/ で引っ掛けられると思います。 >>424 メール返信してないですね、すんません。 晒しといた方がよさげなので、こっちで返信します。 X-Nat-Received :はこちらで借りてるレンタル鯖(さくらインターネット)が勝手に 付けてるヘッダみたいなので、何の意味か鯖会社に問い合わせて、ルールに 書き込むか再検討することにしました。 > デバッグ出力に現れた直近のIPアドレスは、そのIPアドレスではない別のIPアドレスでした。 このアドレスは、調べ直したら鯖側でウイルスチェックする際に投げてるウイルスチェック専用鯖のようで、 調べたら複数あるようなのでまとめてtrusted_networksに突っ込むことにしました。 今までこの設定、蔑ろでした…。 > header RNDXMAILER X-Mailer =~ /^[a-z]{4,}[ \.-]\d{2}/ これ、本来のX-Mailerで間違ってヒットしちゃう可能性があって少し不安なので、 控えめのスコアで導入してみました…。 >>394 や>>411 にて指摘されている、blackholes.usが使えなくなってる件って なかのひと様のuser_prefsでは修正されないんでしょうか? >>426 すいません、見落としていました。 今該当箇所を削除しました。御確認願います。 cc.wariate.jp はこれから試してみます。 cc.wariate.jpで書き換えてみました。 一応、kr/cn/twのspamで動作確認しました。御確認願います。 これらはスコアを低くして積極的に利用していないのですが、何か良いアイディアが ありましたら、御教示頂ければ幸いです。 中の人に要望を出せるんなら、 include private_prefs を記述する順番を一番最後にしてもらえないだろうか。 自分のprivate_prefsでrequired_scoretか他のscore上書きしたいんだけど、 多分順番で後に読んだ方が優先されるよね? >>420 > もし気が向いたら、GitHubなんか使ってみませんか? 初めて知りました(恥 tdiaryも使ってるんですね。 どう使うのかよくわからないので暫く時間がかかりますが、前向きに検討します。 もしかしたら複数人のコラボレートもできるかな? >>431 コラボも出来ますよー。あと分散型なので、オフラインでも良い感じに使えます。 Gitは最初使い方を覚えるのがちょっと分かりにくいですが、慣れればすごく快適です。 以下参考までに。 Pro Git - Table of Contents http://progit.org/book/ja/ Git入門 - ドキュメント http://www8.atwiki.jp/git_jp/ >>428 SpamAssassin単体では積極的に活用し辛いかもしれません。 自分はBAYES_99等と判定したメールの自動削除トリガーにする為、spam発信の 多い国(ロシア等)も自前で追加してProcmailの条件判定に利用しています。 まつださんのuser_prefs(2011/4/20頃のもの)を使わせて頂いています。 最近OCNのham(複数の相手)が、結構な確率でspam判定されおり、 どうにかならないかと調べています。 spam判定されているメールのヘッダを確認すると、該当しているルールは X-Spam-Status: Yes, score=18.3 required=13.0 tests=BAYES_99,CONTENT_TYPE_PRESENT,DIRECTOCNDYN,DYN_ONEGAI, DYN_RENRAKU,DYN_UPRSBLRLY,FAKEDWORD_ATMARK,HTML_MESSAGE, ISO2022JP_BODY,MIMEPDF,MIMEQENC,OCNNEJP,ONEGAI,QENCPTR1, QENCPTR2,RENRAKU,SPF_PASS,THREAD_INDEX,UNPARSEABLERELAY99, UNPARSEABLE_RELAY autolearn=spam version=3.3.1 となっています。(あくまで一つのメールの例です) BAYES_99を先にどうにかしろ、と言われそうですが、それはひとまず置いておいて UNPARSEABLE_RELAYがなぜ付くのかが分かりません。 spamassassin -t -x < スプール内の当該メール をすると出てきません。 これはどうしてなのでしょうか・どうにかならないのでしょうか? 何かアドバイスなどありましたら、よろしくご教示お願いいたします。 >>436 なんかDYN_ペケペケなルールに一杯ひっかかってるね OCNだと引っかかる理由でもあるのかしら あと中の人、include private_prefsを重複してるよ 追加の疑問です。 >>436 でも該当しているDIRECTOCNDYNですが、このメールは OCNエンドユーザ→OCNメールサーバ→受信サーバ という経路でメールが到達しているようです。 この経路でDIRECTとなるであれば、恐らく全てのOCNからのメールはDIRECTですよね。 国内プロバイダは、ほぼOP25Bを実施している言っても良いのではないかと思われる今 OCNの動的アドレスユーザにspammerが多いだろう、というルールは有効なのでしょうか? >>435 そういうお話だと、kr/cn/twだけじゃ足りないですね。 最近はin/ph辺りも増えているので。 APNICを網羅するのがベストでしょうけど、ルールどうやって書くんだろ(汗 一回のDNSBL問い合わせで済ませなきゃならないんですよね。 >>436 > spam判定されているメールのヘッダを確認すると、該当しているルールは > X-Spam-Status: Yes, score=18.3 required=13.0 > tests=BAYES_99,CONTENT_TYPE_PRESENT,DIRECTOCNDYN,DYN_ONEGAI, > BAYES_99を先にどうにかしろ、と言われそうですが、それはひとまず置いておいて > UNPARSEABLE_RELAYがなぜ付くのかが分かりません。 いやそれより先に DIRECTOCNDYN をどうにかしないといけないので、 該当メイルのヘッダだけでもください。お願いします。 できるだけ早急に修正したいと思います。 UNPARSEABLE_RELAYの話はその後で。 >>437 >あと中の人、include private_prefsを重複してるよ それはない(きぱっ >>429-430 参照。 DLした生user_prefs見てください。 >>439 遅くなりましたが >>436 の OCN の件、メールを送らせていただきました。 お手数ですが、ご確認ください。 DIRECTOCNDYN中にメイルサーバのIPが一つ混じっていましたので、除去しました。 他は未だ調査中です。 >>436 メイルしましたが、こちらにも書きます。 頂いた false positive なヘッダのうち、 RCVD_IN_PBL が現れている 二つのヘッダを再度検証し直しました。 いずれも、 ocn の動的 IP -> ocn の SMTP 鯖 -> 独自ドメインの受信 SMTP 鯖 というリレーです。 SAは、ある程度のスコアに達しそうな場合に DNSBL を探索する動作 であるようです。 手近の spam 本文と頂いたヘッダを組み合わせて、ocn の SMTP 鯖の IP アドレスを trusted_networks に入れた場合と外した場合とで、 デバッグ出力を比較したところ、 ocn 鯖 IP を入れたら RCVD_IN_PBL が出力され、ない場合には RCVD_IN_PBL が現れませんでした。 つまり、 SA は Untrusted なリレーホストのうち、直近の IP のみ DNSBL に問い合わせする仕様になっています。 頂いたヘッダに出力された SA のルールを見る限り、trusted_networks に ocn 鯖 IP を登録していなければ、 RCVD_IN_PBLは現れないと思い ます。 独自ドメインの受信 SMTP 鯖 が最終的な受信 SMTP サーバであるな ら、 trusted_networks に ocn の SMTP サーバを登録する必要はない と思います。 user_prefs を公開している鯖に ssh login できなくなってしまいました。 このため、 user_prefs を更新できない状態が続いています。 鯖オーナ氏に問い合わせていますが、なにぶんあちらもお忙しい方なので いつ修復されるかわかりません。 こちらも何とか他の手段を講じたいとは思いますが、こちらも多忙&技術力+情報不足のため すぐに対処できない状態です。 進捗状況が変化したら追ってこちらに報告したいと思います。 user_prefs を公開しているサーバに ssh login できなくなっていた問題ですが、24日14時半頃に解決しました。 user_prefs も更新しました。 取り急ぎ御報告まで。 required_score っていくつくらいにしてますか? required_score 6.0って妥当? http://www.flcl.org/ ~yoh/user_prefs って http://www.dnsbl.com/2014/04/status-of-dnsblahblorg-shutting-down.html の影響を受けないの? なんか、これの影響っぽいDNS問い合わせ失敗ログが大量に出てるんだけど user_prefsのどこを修正して無効化すれば良いのか分からない 誰でも簡単にパソコン1台で稼げる方法など 参考までに、 ⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。 グーグル検索⇒『宮本のゴウリエセレレ』 KCNWIH3I1G ☆ 日本の、改憲をしましょう。現在、衆議員と参議院の両院で、 改憲議員が3分の2を超えております。『憲法改正国民投票法』、 でググってみてください。国会の発議はすでに可能です。 平和は勝ち取るものです。お願い致します。☆☆ Twitterでお知らせしましたが、こちらでも告知します。 https://twitter.com/Yoh_Matsuda/status/994189419169988608 cron等で拙作 user_prefs チェックされている方はおわかりのことと思いますが、昨日未明から user_prefs を公開している www.flcl.org サーバが落ちています。 現在、管理者様との連絡がつかない状態で、いつ復旧するのか不明です。(続く) #spamassassin_jp 拙作user_prefs自体はここ数ヶ月更新していません。また、最近の傾向から喫緊に更新が必要になる可能性は低いと思います。 万が一、喫緊の更新が必要になるような場合は、このTwitterアカウントと5chのSpamAssassinスレで告知します。 私に対する緊急の連絡はこのTwitterアカウントが確実です。(続く) 拙作user_prefs御利用の皆様におかれましては、今暫くの御辛抱をお願い申し上げます。 #spamassassin_jp 知り合いから教えてもらったパソコン一台でお金持ちになれるやり方 時間がある方はみてもいいかもしれません グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』 MEIQC https://twitter.com/Yoh_Matsuda/status/1075042530738225152 user_prefs を公開している flcl.org がここ数日アクセス不能な状態が続いています。 取り急ぎ、今しがた pastebin に現在私が使用している最新の user_prefs を上げました。 https://pastebin.com/QnwRxxBQ #spamassassin_jp https://twitter.com/5chan_nel (5ch newer account) https://twitter.com/Yoh_Matsuda/status/1417471449963536392 spamassassin用user_prefs をgithubにて公開しました。 https://github.com/kittyfreak/spamassassin_user_prefs githubの使い方がよくわからんので^^;DL方法等は各自でお願いします。(_o_) 取り敢えず、ここ1年位溜まった、Amazon偽装spamを始めとする厄介な奴をフィルタリングすべく、更新中。 https://twitter.com/5chan_nel (5ch newer account) read.cgi ver 08.0u [upliftProject] - 2023/07/09 Walang Kapalit ★ | uplift ★ 5ちゃんねる