* Japanese in this document is written with Shift_JIS char. set. [new] New / [fix] Fix / [imp] Improve / [chg] Change / [upd] Update log2html.pl 2.00.0g srchengn.pl 1.01.0 + jcode.pl + Jcode.pm / 1.01.0 以降で必要 + Unicode::Japanese / 1.01.0 以降では不要 [???] www.excite.co.jp が '+' を余分につけてるのは、検索した人がつけたのか? 2004/09/05 / srchengn 1.01.0a [new] search.hk.yahoo.com に対応 [new] translate.google.com に対応 2004/05/03 / srchengn 1.01.0a [imp] URL中に"?"が複数含まれる場合に処理に失敗していたのを修正 2004/04/03 / srchengn 1.01.0 [new] Biglobe の 画像検索に対応 [new] google cache のサーバを追加 [new] msn.co.sg に対応 2004/03/06 / srchengn 1.01.0 * 記録するの忘れました… 2004/02/01 / srchengn 1.01.0 [new] cybozu.excite.co.jp/search.gw に対応 [new] de.search.yahoo.com に対応 2003/12/27 / srchengn 1.01.0 [fix] host部を小文字に変換するように変更 [new] eniro.se に対応 [upd] google cache の対象サーバに 66.102.(7|11).104を追加 2003/12/07 / srchengn 1.01.0 [fix] host部を小文字に変換するように変更 [new] aolrecherches.aol.fr に対応 2003/11/25 / srchengn 1.01.0 [fix] msn.co.jp でsjisで検索された場合に対応。 2003/09/27 / srchengn 1.01.0 [new] goo の cache に対応。 [new] "search.naver.co.jp/search.naver"に対応。 [new] "rechercher.nomade.tiscali.fr/recherche.asp"に対応。 2003/08/24 / srchengn 1.01.0 [new] "home.excite.co.jp/search.gw"に対応。 [new] "partner51.oingo.com/apps/domainpark/results.cgi"に対応。 2003/08/17 / srchengn 1.01.0 [new] "brisbane.t-online.de/fast-cgi/tsc"に対応。 2003/08/13 / srchengn 1.01.0 [new] "search.nifty.com"でキーワードを"text"に格納している場合に対応。 [new] "mysearch.myway.com/jsp/GGmain.jsp"に対応。 2003/07/07 / srchengn 1.01.0 [new] "search.msn.com.tw/results.asp"に対応。 2003/06/07 / srchengn 1.01.0 [new] "search.cometsystems.com/search.php"に対応。 2003/05/31 / srchengn 1.01.0 [new] "http://ocnsearch.goo.ne.jp/ocn.jsp"に対応。 [new] "http://search.netscape.com/redir.adp"に対応。 [new] "http://search.goo.ne.jp/web.jsp"でキーワードを"A[01]"に格納している場合に対応。 [new] "aolsearch.aol.co.uk/web.adp"に対応。 [new] "goo415.goo.ne.jp/ie4.0/msResult.asp"に対応。 2003/05/31 / log2html 2.00.0g [fix] 5/17の修正で残っていた部分があったのを修正 2003/05/17 / log2html 2.00.0f [chg] 検索エンジンからのrefererを出力しないようにした。 2003/05/17 / srchengn 1.01.0 [new] "http://www2.online.rtlklub.hu/~search2/search/klubsearch.php"に対応。 2003/05/11 / srchengn 1.01.0 [new] "search.yahoo.com"で、検索語が"va"の値である場合に対応。 2003/05/04 / srchengn 1.01.0 [new] "bach.scitec.kobe-u.ac.jp/metcha/"に対応。 2003/04/27 / srchengn 1.01.0 [new] "www.ceek.jp/search.cgi"に対応。 [new] "odn.excite.co.jp/search.gw"に対応。 [new] "search.goo.ne.jp/web.jsp"に対応。 [new] "tocc.co.jp"に対応。 2003/04/07 / srchengn 1.01.0 [new] "www.altavista.com/web/results"に対応。 2003/03/27 / srchengn 1.01.0 [new] "sucheaol.aol.de"に対応。 - "suche.aol.de" と同じ構成。 - 最近AOLはホスト名のところに"aol"を付けるようになってるようだ。 2003/03/24 / srchengn 1.01.0 [new] "aolsearch.jp.aol.com"に対応。 [new] "aolsearch.aol.com"に対応。 [new] "attbi.com"に対応。 [new] Google の University Search に対応。 2003/03/10 / srchengn 1.01.0 [chg] "google"に対応… リンクはとりあえずwww.google.comに張ることにする。 - .hosts か何かでaliasをつけてるんだろうけど、http://google/search っていわれても、 どうしようもないのだ。 2003/03/06 / log2html 2.00.0e [chg] refererが"srd.yahoo.com"の場合はリンクを張らないようにした。 - 単に目的のURLへリダイレクトするためのURLなので、リンクは張らない。 [fix] html_escape に " "(SP)を追加。 [fix] User Agent名も html_escape の処理をするようにした。 2003/03/06 / srchengn 1.01.0 [new] "search.netscape.com"に対応。 [new] "dion.excite.co.jp"に対応。 [new] "srd.yahoo.com"に対応。 2003/03/03 / log2html 2.00.0d [imp] User Agentを\xhh形式で通知してきた場合に日本語に変換するようにした。 - 日本語じゃなかった場合はそのときに対応を考える… 2003/03/01 / srchengn 1.01.0 [imp] 日本語変換に用いるperl moduleを"jcode.pl"から"Jcode.pm"に変更 - Unicode対応のため、Perl 5.8.0 から標準装備となったEncode moduleを用いる予定だった が、Encode::Guessの精度が悪すぎるので"Jcode.pm"を利用する。ちなみに従来は Unicode::Japaneseを併用していた。なお jcode.plは引き続き利用する(jcode::trans)。 [補足] 従来URLに含める検索語をUnicodeとしていたのはgoogleだけで、しかもURL中に utf8であることが示されていたため、使い分けられた。2月のアクセスではutf8を 明示しないsearch engineがあったため、Unicodeも判別できるJcode.pmに変更した。 - 本当はjcode.plがUnicodeに対応してくれると嬉しんだけど、歌代さん忙しそうだし… [chg] 検索キーのencodeを毎回返すように変更し, その文字列はEncode moduleに合わせた。 - 従来はURLにその情報が含まれていた場合のみ。 2003/02/13 / srchengn 1.00.0c [fix] Unicode -> Shift_JIS への変換時に"〜"と"−"に変換に失敗するwindowsの仕様に対応 [new] %hhとURL encodeすべきところを\xhhとして通知してきた場合に修正するようにした。 2003/02/13 / srchengn 1.00.0b [new] "uk.search.yahoo.com/search/ukie"に対応。 [new] "web.lycos.co.jp/all/"に対応。 - wisenut.lycos.co.jp と同じ処理を行うようにする 2003/02/07 / srchengn 1.00.0b [new] "search.msn.com"に対応。 2003/02/04 / srchengn 1.00.0b [new] "cgi.search.biglobe.ne.jp"で検索語が"op_q"の値になっている場合に対応。 2003/02/02 / log2html 2.00.0c [fix] url_escape の対象文字を追加。"<",">","]","^","{","|" 2003/01/31 / srchengn 1.00.0b [new] googleには 216.239.32.0/19 が割り当ててあるので、ここに該当したら google の cache server と判定することにする。 2003/01/29 / log2html 2.00.0b [fix] url_escape の対象文字を追加。"[","}" 2003/01/28 / srchengn 1.00.0b [new] "auto.search.msn.com" に対応 [new] "search1.seznam.cz" に対応 2003/01/27 / log2html 2.00.0a [new] URLに含めることのできない文字を%hhに変換する url_escape を新設。 2003/01/27 / srchengn 1.00.0b [new] URLで通常利用されない\xhhを%hhに変換する機能を追加。 2003/01/26 / srchengn 1.00.0a [new] google の cache server "216.239.53.100"を追加。 2003/01/24 / srchengn 1.00.0a [new] "google/custom" に対応 [new] "haku.suomi24.fi" に対応 2003/01/21 / srchengn 1.00.0a [new] URL中で空白を表す"+"を"%2B"にさらにエンコーディングしているサイトに対応。 [new] "search.fresheye.com" に対応 [new] "search.jp.aol.com" に対応 [new] "suche.aol.de" に対応 [new] "www.goo.ne.jp/ie4.0/msResult.asp" に対応 - これって、ツールバー(だっけ?)から検索した場合なんですかね? 2003/01/08 / srchengn 1.00.0 [new] "search.msn.co.jp" に対応 [new] "www.goo.ne.jp" に対応 [new] "webmail on hotmail"に対応。(webmail on hotmail)とだけ返すようにした。 [new] 本来なら%hhとコード化すべきところを\xhhとコード化している不届き者がいるようだ。 「予\\約」としているところをみるとperlのようにも見える。 とりあえず対応しておくことにするけど… 2003/01/03 / log2html 2.00.0 * 利用サーバ変更に伴い、access.log が独自のものから apache 形式に変更になったことに 関する各種変更を行った。 2003/01/01 / log2html 1.00.0f * 以下の変更に伴い、"fqdn2domain"を利用するようにした 2003/01/01 / fqdn2domain 1.00.1b * domain.pl を fqdn2domain.pl に改称。今後の改版履歴は専用のファイルに書きます。 * さいたま市について、2002/12/31の変更を取り消し - 結果的に同じ処理をしているし、city.saitama.jp が施行以前に出てきたとしても、 それはこのスクリプトの想定範囲外でミスではない:-p 2002/12/31 / domain 1.00.1b * さいたま市はまだ政令指定都市ではないことが分かったので、いったん削除。 - Apr/01/2002 かららしい。 2002/12/30 / domain 1.00.1b * 東京都(metro.tokyo.jp)と都内の地域ドメインの判定が間違っていたのを修正 - 2002/12/27 の政令指定都市に関する変更時にエンバグした… 2002/12/27 / domain 1.00.1b * .br (Republic of Brazil)の .nom.br の判定が間違っていたのを修正 * .fr (Franch Republic)の属性をアルファベット順に並べなおした * .jp (Japan)の属性をアルファベット順に並べなおした * .jp (Japan)の政令指定都市の判定を正確なものに変更した - 東京23区はまだ簡易判定 2002/12/20 / log2html 1.00.0f * 以下の変更に伴い、remote host が IP addressかどうかの判定は行わないようにした。 2002/12/20 / domain 1.00.1b * .cn (People's Republic of China) に対応。 * IP(v4) address だった場合は 空文字列を返すようにした。 2002/12/17 / srchengn 1.00.0 *[websearch.yahoo.*] に対応 2002/12/11 / domain 1.00.1a * .ch (Swiss Confederation), .li(Principality of Liechtenstein) に対応。 * .us (United States of America)で未対応だった属性の判定を追加。 2002/12/10 / domain 1.00.1a * m//x の x optionが抜けていたため、正しく取り出せていなかった場合があったのを修正。 2002/12/03 / domain 1.00.1 * .cc (Cocos (Keeling) Islands) に対応。 2002/12/01 / log2html 1.00.0e * 検索エンジンでの keyword で、半角カナについては全角カナに変換するようにした。 2002/11/18 / domain 1.00.1 * .aero の Allocated sub domains に対応。 2002/11/13 / srchengn 1.00.0 *[uk.google.yahoo.com] に対応 2002/11/05 / srchengn 1.00.0 *[search.yahoo.com/bin/search] path = /bin/search に対応 - 普通は /search 2002/10/22 / log2html 1.00.0d * 検索エンジンでの keyword で、アルファベットと数字に関しては 無条件に半角で表示するようにした 2002/10/22 / log2html 1.00.0c * 検索エンジンからのRefereを別ファイルに出力するようにした。 * ついでに、Valid XHTML 1.0! を宣言するようにした。 2002/10/18 / domain 1.00.1 * se (Sweden, www.nic-se.se) に対応 * name のうち、www.name(http://www.name) に対応。 - www.name 以外は従来どおり、第3ドメインまで返す。 2002/10/15 / domain 1.00.1 * ph (Philippines, www.domreg.org.ph) に対応 * sg (Singapore, www.nic.net.sg) に対応 2002/10/15 / srchengn 1.00.0 *[google.com] as_q に対応 - Advanced Search の場合は、keyword が as_q になっているみたい。 2002/10/01 / srchengn 1.00.0 *[netscape.com] search-intl.netscape.com/ja/google.tmpl に対応 - google に結果を取ってきて再表示してるだけっぽい… 2002/10/01 / domain 1.00.1 * nz (New Zealand, www.domainz.net.nz) に対応 2002/09/24 / domain 1.00.1 * fr (France, AFNIC, www.nic.fr) に対応 * re (Reunion Island, AFNIC, www.nic.re) に対応 2002/09/18 / srchengn 1.00.0 *[google cache] ホスト名が IPaddr である場合に対応。 *search.yahoo.* に対応 - 単に google.yahoo.* に redirect しているだけなんだけどね。 2002/09/18 / domain 1.00.1 * tw (Taiwan, TWNIC, www.twnic.net) に対応 * no (Norway, Norid, www.norid.no) に対応 * us (USA, usnic, www.nic.us) を修正 - 第4ドメインまでを返す必要があるものでも、第5ドメインまで返していたバグを修正 - 汎用ドメインに対応 2002/09/06 / domain 1.00.1 * ca (Canada, CIRA, www.cira.ca) に暫定的に対応 - 規格文書が見つけられなかったので、とりあえず第2ドメインを出力。 日本に地域型に相当するものがあるようだが、その地名リストが見つからなかったので、 とりあえず、第4ドメインのclassで判定。でも、そのclassにも分からないものが… 2002/09/03 / srchengn 1.00.0 *[google.yahoo.*] google.yahoo.com に対応。 - .co.jp にはもともと対応していました。今回は .com からのアクセスがあったので、 サイトの判定をgoogle.yahoo.[a-z\.]+に変更しました。 2002/09/03 / log2html 1.00.0b * a要素中のURLに中に現れる"&"も"&"と出力するようにした。 * 検索エンジン経由のアクセス回数を表示するようにした。 2002/08/28 / log2html 1.00.0a * HTTP Referer に #anchor が含まれるときに処理できないバグを修正 - delimita を "#" にしてたので、処理できなかったのです… アクセスログ側を"HT"に変更 して、その処理を追加。 2002/08/20 / domain 1.00.1 *汎用JPドメインに対応 - 実は手抜き対応。というか効率無視の実装。第1レベルがJPで、第2レベルが都道府県名 じゃなかったら、汎用と判定しているのです。 というわけで、プログラム中に都道府県名が47つ並んでいるのです(x_x) 2002/08/11 / srchengn 1.00.0 *[search.lycos.com] /main/default.asp redirect to /default.asp 2002/08/02 1.00.0 *[検索エンジン] srchengn.pl に移行 pattern は 08/02付 *[ドメイン] domain.pl に移行 pattern は 06/21付 *[XHTML] 出力をXHTMLに変更 2002/08/02 0.04.7k *[検索エンジン] search.odn.ne.jpの引数変更に対応 2002/07/23 0.04.7j *[検索エンジン] para.cab.infoweb.ne.jpの処理を変更 - ここのサイトって最低… URLに含められないSPを表す'+'とかURL encodingの'%'を更に URL encoding してるから二重にdecode しなきゃいけないし、検索語が複数箇所にあったり。 &を&に置き換えるのは正しいらしいんだけどねぇ。 今までは検索語がasciiのものしかなかったからたまたまうまくいってただけらしい。 2002/07/16 0.04.7i *[検索エンジン] search.nifty.comに対応(引数は変更なし) 2002/07/09 0.04.7h *[検索エンジン] infoweb の引数変更に対応 2002/07/04 0.04.7g *[検索エンジン] google cache に対応 - 今までは cache も含めて keyword 扱い <= たぶん host とかも必要になるだろうなぁ(笑) 2002/06/21 0.04.7f *[JPドメイン] 汎用JPドメイン対応の準備 *[JPドメイン] 属性型ドメイン"LG"の追加 - 地方公共団体用属性。JPRS で採用を検討中 -> 2002/07/23正式に採用決定 *[ドメイン] .es (Spain, www.nic.es) に対応 *[検索エンジン] search.dogpile.com に対応 2002/06/07 0.04.7e *(記録してなかった…) 2002/05/24 0.04.7d *[検索エンジン] biglobeの判定条件の簡略化 *cmdline option の新設 2002/05/17 0.04.7c *[検索エンジン] google as_epq / biglobe search_ie に対応 2002/04/26 0.04.7b *[検索エンジン] biglobe ie版? / netvisao.pt に対応 2002/04/06 0.04.7a *[検索エンジン] biglobe 等に対応 2002/04/05 0.04.7 *検索エンジンでの検索ワードを表示するようにした。(google / google.yahoo.co.jp / alltheweb / dion / excite.co.jp / infoseek.co.jp / lycos.com / lycos.co.jp / wisenut.lycos.co.jp / search.com) 2001/07/06 0.04.6i beta *IPを表示しないように。 *検索エンジンからのリンクは後ろへ。 2000/07/14 0.04.6h beta *nicinfo.txt を IP順に並べるように変更。 2000/05/14 0.04.6g beta *Referer で [unknown origin], bookmark を表示、処理するようにした。 *HTML 4.0 から 4.01 に修正 2000/04/04 0.04.6f beta *0.04.6e の改造で、数字を使うドメインが対象になっていなかった バグを修正 2000/01/28 0.04.6e beta *InterNIC 以外のドメインで、第2ドメインが4文字以上の場合は、 第2ドメインまでの表示とした。 2000/01/05 0.04.6d beta *UA の表示を一部簡略化。 1999/12/31 0.04.6c beta *city.****.jp に対応 1999/12/01 0.04.6b beta *未調査の IP addr には、"*" をつけるようにした。 *Domain の解説を一部修正追加。 1999/11/23 0.04.6a beta *nicinfo.txt の使用の有無を聞くようにした。 *localhost を処理できるようにした。 1999/11/20 0.04.6 beta *remote_host の解析をしないようにした。 *remote (dot) address の処理方法を変更。 *IP address を domain に変換するDB の記録方法を変更。 133.xxx -> xxx.ac.jp => 133.xxx.0.0/16 -> xxx.ac.jp *domain 中の IP address も上記の 133.xx.0.0/16 形式になった。 *ISP が分割した IP address の変換が可能になった。 *remote domain をIP address, jp domain, other domain の順で表示するようにした。 1999/11/16 0.04.5b beta * .us (www.nic.us) に対応。 1999/11/15 0.04.5a beta *第1ドメインが it ならば、第2ドメインまで表示するように変更。 *referer が [unknown origin] と表示される場合を除外 Netscape Communicator 4.7 がこう返す時があるみたい。 1999/11/07 0.04.5 beta *IP address を domain に変換するDB を、perl 付属の DB に変更 今までは、text に書いてた。 1999/10/26 0.04.4 beta *whois の結果を利用して、IP address を domain に変換するようにした。 でも、DBは手作業で作る。自動化できるだろうけど、やらないつもり。 1999/10/13 0.04.3a alpha *referer に解説を追加 1999/09/25 0.04.3 alpha *domain の解析方法を変更 特殊なdomain を処理しやすくした。 *地域ドメインの処理を追加 上記変更により、地域型ドメイン(park.urayasu.chiba.jp みたいなの)の表示が できるようになった。(従来は、urayasu.chiba.jp) *my ドメインの処理を追加 {com|edu|gov|net|org}.my に対応 1999/09/10 0.04.2 alpha *counter.cgi の変更に対応。 1999/08/18 0.04.1 alpha *第1ドメインが de,fi,my,ru ならば、第2ドメインまで表示するように変更。 *referer の全てリンクを付けた。また80文字以上になるリンクは表示を省略するようにした。 *User Agent の表示から、MSN *.*; AOL *.* の表示を削除。 1999/07/11 0.04.0 alpha *複数のファイルを処理できる様に変更。 1999/07/11 0.03.6 alpha *Remote Host は、default で省略するようにした。 表示する時は、command line で -p を指定。 1999/07/01 0.03.5 alpha *ブラウザから、プロキシ名を排除。 1999/04/21 0.03.4 alpha *ドメイン(jpなら第3ドメイン)を切り捨てるミスを再修正。 0.03.3 の変更が、InterNIC Domain には適用されてなかった。 1999/04/20 0.03.3 alpha *ドメイン(jpなら第3ドメイン)を切り捨てるミスを修正。 ドメイン=ホストと通知してきた場合、無条件にドメインを切り捨ててたみたい。 1999/04/18 0.03.2 alpha *ホスト名に数字が入っている場合の修正。 ホスト名が数字だけの時、処理が正常に行われなかった。 1999/04/14 0.03.1 alpha *ドメインに 数字が入っている場合の修正。 ドメイン名に数字が入っている時、処理が正常に行われなかった。 1999/04/03 0.03 alpha *2つの月を比較するようにした。 1999/02/27 0.02 alpha *出力ファイルの判定を正しくした。 *counter.cgiの仕様変更に伴い、読みこみルーチンを変更。 1999/02/25 0.01 alpha *とりあえず、完成 [EOF]