PDA

查看完整版本 : [經驗]真的很受不了中國大陸的搜尋引擎


哈啦
2007-03-13, 12:28 AM
常常會發現自己的網站在一夕之間爆了流量,每次幾乎都是來自中國的搜尋引擎所致,從以前的百度到現在的搜狗,而且還定期輪流來。

我有一個網站,平常一個月的流量一二百MB就夠了,今天才幾號啊,竟然通知我爆掉了?我一去看不得了,竟然已被用掉了快3GB,顯然是快速大量的被擠爆,不然一超過原先設定的300MB沒多久就該通知流量超過。果然,是被一個中國大陸的IP才五次的visits就耗掉 2775420 KBytes。結果一查,是一個叫「海量」的hl_ftien_spider,來自中國大陸。

我常很奇怪,同樣是搜尋引擎,為什麼中國的一些搜尋引擎就常會表現出如砍站般的行為耗用大量的流量?人家google, yahoo就不會?我看到google的耗用流量也不少,但只要遇上來自中國的搜尋引擎就會被比下去。是中國這些搜尋引擎的程式設計有問題嗎?:thumbsdow 而每有新的搜尋機器人加入,許多人的網站就要爆一次流量,中國大力發展互聯網事業是不錯,但也注意這些搜尋機器人不要反而成了互聯網公害,到時形象就更糟糕了。

some.lin
2007-03-13, 12:34 AM
我每次看到我的 awstats 報表, 有搜尋引擎這樣吃我的網站, 我都非常歡迎^^

哈啦
2007-03-13, 12:39 AM
hl_ftien_spider就是: HaiLiang Full Text Index English Spider的縮寫。

sakillll
2007-03-13, 12:52 AM
自從用dreamhost就沒管那麼多了
和some一樣,歡迎歡迎~

666
2007-03-13, 07:42 AM
受不了 +1.

讓我更氣(又好笑)的是居然看到某些論壇站長,趁此現象公開呼籲叫窮:本站線上人數一再創新高、流量大增,我又要籌流量費了云云~hehe 。接著就會有一群天真無邪又單純的網友出來 reply: 站長辛苦了!大家捐款支援吧....其實明眼人一看 ALEXA 就知道,那些暴增的線上人數都是各路蜘蛛及廣告機器人。

flyby9
2007-03-13, 02:59 PM
基本上大陸的spider都不遵守robot txt
所以只能用ban ip

ptez
2007-03-13, 11:31 PM
大陸的作法是
一次派幾十隻來
幾天內把你內容抓完

Google 等是每天派一隻來
天天抓 慢慢抓

所以大陸的 robot
這樣的作法會導致網站爆掉
甚至連 server 都負荷不了
(同時太多 robot)
和 DDOS 實在沒啥差別

即使是龍頭 Baidu 也不鳥你
不要說台灣的網站
連大陸的站長也沒辦法

該說什麼呢? 民族性?

hacksystem
2007-04-09, 08:44 AM
大陆的话喜欢BAIDU这样爬,我一般新站一个月就能收入几十万,IP几万,如果爬的慢哪会这么快~hehe

哈啦
2007-04-09, 09:00 AM
大陆的话喜欢BAIDU这样爬,我一般新站一个月就能收入几十万,IP几万,如果爬的慢哪会这么快~hehe

你老兄是什麼網站啊?那麼厲害,介紹一下讓大家觀摩一下吧?

阻擊者
2007-07-18, 09:00 AM
這是一個很無聊的游戲規則。
搜索引擎的不厭其煩的來訪,收錄量的增加,搜索排名產生黑帽SEO,人人為了獲取流量,不擇手段,為博的就是這1周內的流量。
網站集群設計制作,通常只是無序的更改文章內容,COPY 數份,更換一個LOGO和網站名即可,一個月內賺取數萬元RMB甚至是美金在2004年左右都是不稀奇的。
如今的狀況應該比哈啦05年所抱怨的狀況有所改善吧?
當然,殺雞取卵式的時代過去后,大陸的個人網站都十分蕭條,不過,總算有人愿意開始靜下心,用內容留住用戶。

jackeywan
2007-07-19, 07:27 PM
同意樓上的說法,進入2007,其實我們大陸更多的電商業界人士都是冷靜下來尋求真正的互聯網發展之路,很多人都在努力,經過了以前的探索以及以后的努力,我還是比較相信中國互聯網事業會發展的比較成功的~

cheapwebhosting
2007-09-19, 06:45 PM
主要是程式設計的問題。
google會分析納一些是更新的或新鮮的,哪一些是舊的沒有更新,抓取得時候只抓想要得,不會多抓,而且會平均到一天裏。
baidu則是一股腦全抓來,相當於把你的網站全部下載幾遍,當然會造成巨大的負載,大陸已經有一些知名站點開始屏蔽baidu的robot。

baidu的確是一個無恥的公司,比如用一個國標的meta命令你可以要求google等不要緩存你的網葉,從而搜索者不得不直接訪問你的網站,從而提高訪問量,但是baidu的robot從來不遵守這些規定,使得不少搜索者直接在baidu上打開緩存内容,而不訪問你的網站。

mjj
2007-09-23, 07:05 PM
关于大陆地区搜索引擎对于robot.txt的态度
至少说百度的Spider是绝对遵守的
它将会于每一次索引你站点资料的时候读取你的robot.txt

以下是搜狗官方的说明
Q. 如何 sogou spider 不抓我的网站?
sogou spider 支持 robots 协议,您可以在网站的根目录放置 robots.txt。
robots.txt 的规则请参阅 http://www.robotstxt.org/。
但是新更新的 robots.txt 可能得过几个星期才能体现出效果来。
需要注意的是,被您禁止 sogou spider 收录的网页将不能在搜狗搜索引擎上检索到。

事实上由于大陆地区的搜索引擎竞争空前激烈
所以搜索引擎对于更新比较快的SITE甚至会达到每半小时爬一次
另外由于大陆地区大多数IDC提供的主机服务是采取不限制流量只限制并发连接数IIS的策略
所以并没有流量的忧患

呵呵
我是大陆的站长
希望这些对大家会有帮助

jidanni
2007-09-28, 05:56 PM
我怎麼弄 http://taizhongbus.jidanni.org/robots.txt
仍見到

pages
290 Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
24 Baiduspider+(+http://www.baidu.com/search/spider.htm)

哈啦
2007-09-28, 06:22 PM
我怎麼弄 http://taizhongbus.jidanni.org/robots.txt
仍見到

pages
290 Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
24 Baiduspider+(+http://www.baidu.com/search/spider.htm)


據說有些機器人根本不甩你的robots.txt上寫什麼。:XD: 直接 ban ip吧。

some
2007-09-28, 11:23 PM
在 .htaccess 前面加入

SetEnvIfNoCase Remote_Addr ^(134.196|159.226). ban
SetEnvIfNoCase Remote_Addr ^16(2.105|1.207|6.111|7.139|8.160). ban
SetEnvIfNoCase Remote_Addr ^202.(1[01][0-9]|12[01]|19[2-9]|20[0-7]). ban
SetEnvIfNoCase Remote_Addr ^202.9([6-9]|3). ban
SetEnvIfNoCase Remote_Addr ^210.(1[23]|2[1-9]|3[0-9]|4[0-7]|5[1-3]|7[2-8]|8[23]). ban
SetEnvIfNoCase Remote_Addr ^211.([89][0-9]|6[4-9]|7[01]). ban
SetEnvIfNoCase Remote_Addr ^211.1([45][0-9]|0[0-36-9]|6[0-7]). ban
SetEnvIfNoCase Remote_Addr ^218.([0-9]|[12][0-9]|[6-9][0-9]|3[01]|5[6-9]). ban
SetEnvIfNoCase Remote_Addr ^218.1(0[4-9]|9[2-9]). ban
SetEnvIfNoCase Remote_Addr ^218.2(0[0-7]|4[0-9]). ban
SetEnvIfNoCase Remote_Addr ^219.([78]2|12[89]|1[3-5][0-9]). ban
SetEnvIfNoCase Remote_Addr ^219.2([23][0-9]|1[6-9]|4[2-7]). ban
SetEnvIfNoCase Remote_Addr ^220.1([6-9][0-9]|1[2-5]). ban
SetEnvIfNoCase Remote_Addr ^220.2(0[0-7]|3[489]|5[0-2]). ban
SetEnvIfNoCase Remote_Addr ^221.([0-9]|2[0-3][0-9]). ban
SetEnvIfNoCase Remote_Addr ^221.1([03-5]|2[239]|3[0167]|7[29]|8[0-3]|9[2-8]). ban
SetEnvIfNoCase Remote_Addr ^222.([2-8][0-9]|9[0-5]). ban
SetEnvIfNoCase Remote_Addr ^222.1([6-9]|[37-9][0-9]|2[589]|4[0-3]|6[0-289]). ban
SetEnvIfNoCase Remote_Addr ^222.2([014][0-9]|2[0-3]). ban
SetEnvIfNoCase Remote_Addr ^58.([34][0-9]|19[2-5]). ban
SetEnvIfNoCase Remote_Addr ^58.(5[0-5]|6[67]|8[23]|20[0-7]). ban
SetEnvIfNoCase Remote_Addr ^58.1([4-9]|0[01]|1[6-9]|2[89]|3[0-5]|44). ban
SetEnvIfNoCase Remote_Addr ^58.2([02-5]|0[0-7]). ban
SetEnvIfNoCase Remote_Addr ^59.(3[2-9]|8[0-3]). ban
SetEnvIfNoCase Remote_Addr ^59.[4-7][0-9]. ban
SetEnvIfNoCase Remote_Addr ^59.1(0[89]|9[2-9]). ban
SetEnvIfNoCase Remote_Addr ^59.2([0-4][0-9]|5[0-5]). ban
SetEnvIfNoCase Remote_Addr ^60.([0-9]|[12][0-9]). ban
SetEnvIfNoCase Remote_Addr ^60.(63|55|255|3[01]). ban
SetEnvIfNoCase Remote_Addr ^60.1([6-8][0-9]|9[0145]). ban
SetEnvIfNoCase Remote_Addr ^60.2(0[0-489]|1[0-9]|2[0-3]|3[23]). ban
SetEnvIfNoCase Remote_Addr ^61.(4[89]|5[0-5]). ban
SetEnvIfNoCase Remote_Addr ^61.1([3-8][0-9]|2[89]|9[01]). ban
SetEnvIfNoCase Remote_Addr ^61.2(3[2-7]|4[0-3]). ban

SetEnvIfNoCase Remote_Addr ^192.1(24.154|88.170). ban
SetEnvIfNoCase Remote_Addr ^192.83.(122|169). ban
SetEnvIfNoCase Remote_Addr ^198.17.7. ban
SetEnvIfNoCase Remote_Addr ^202.(20.120|22.24[89]|22.25[0-5]|3.77). ban
SetEnvIfNoCase Remote_Addr ^202.[48].1([3-5][0-9]|2[89]). ban
SetEnvIfNoCase Remote_Addr ^202.[78]5.2(0[89]|1[0-9]|2[0-3]). ban
SetEnvIfNoCase Remote_Addr ^202.0.1([67][0-9]|10). ban
SetEnvIfNoCase Remote_Addr ^202.10.(6[4-9]|7[0-9]). ban
SetEnvIfNoCase Remote_Addr ^202.122.([0-7]|[78][0-9]|11[2-9]|128|3[2-9]|6[4-9]|9[0-5]). ban
SetEnvIfNoCase Remote_Addr ^202.125.1(7[6-9]|8[0-9]|9[01]). ban
SetEnvIfNoCase Remote_Addr ^202.127.([0-7]|[45][0-9]|3[01]|6[0-3]). ban
SetEnvIfNoCase Remote_Addr ^202.127.1([2-5][0-9]|[2-9]|1[2-9]|6[0-7]|9[2-9]). ban
SetEnvIfNoCase Remote_Addr ^202.127.2([0-9]|[2-4][0-9]|0[0-9]|1[2-9]|5[0-5]). ban
SetEnvIfNoCase Remote_Addr ^202.130.([12]?[0-9]|2[34][0-9]|22[4-9]|25[0-5]|3[01]). ban
SetEnvIfNoCase Remote_Addr ^202.131.(1[6-9]|4[89]|5[0-9]|6[0-3]). ban
SetEnvIfNoCase Remote_Addr ^202.131.2([0-3]|0[89]|1[0-9]|2[0-3]). ban
SetEnvIfNoCase Remote_Addr ^202.136.(4[89]|5[0-9]|6[0-3]). ban
SetEnvIfNoCase Remote_Addr ^202.136.2([1-3][0-9]|0[89]|5[2-5]). ban
SetEnvIfNoCase Remote_Addr ^202.14.(23[5-8]|88). ban
SetEnvIfNoCase Remote_Addr ^202.14[23].(1[6-9]|2[0-9]|3[01]). ban
SetEnvIfNoCase Remote_Addr ^202.148.(1[01][0-9]|12[0-7]|9[6-9]). ban
SetEnvIfNoCase Remote_Addr ^202.149.(1[6-8][0-9]|19[01]|2[34][0-9]|22[4-9]|25[0-5]). ban
SetEnvIfNoCase Remote_Addr ^202.158.1([6-8][0-9]|9[0-9]). ban
SetEnvIfNoCase Remote_Addr ^202.164.([0-9]|1[0-5]). ban
SetEnvIfNoCase Remote_Addr ^202.165.(10[0-9]|11[01]|9[6-9]). ban
SetEnvIfNoCase Remote_Addr ^202.166.2([01][0-9]|2[0-3]). ban
SetEnvIfNoCase Remote_Addr ^202.168.1([6-8][0-9]|9[01]). ban
SetEnvIfNoCase Remote_Addr ^202.173.([89]|1[0-5]|2[34][0-9]|22[4-9]|25[0-5]). ban
SetEnvIfNoCase Remote_Addr ^202.180.1([3-5][0-9]|2[89]). ban
SetEnvIfNoCase Remote_Addr ^202.38.([0-9]|[7-9][0-9]|2[0-4][0-9]|25[0-5]|6[4-9]). ban
SetEnvIfNoCase Remote_Addr ^202.38.1([0-2][0-9]|[0-5]|3[0-8]|4[0-7]|49). ban
SetEnvIfNoCase Remote_Addr ^202.38.1(5[0-6]|5[89]|6[01]|6[4-9]|7[0-7]|8[4-9]|9[0-9]). ban
SetEnvIfNoCase Remote_Addr ^202.4(.25[2-5]|1.15[2-9]|6.22[4-9]|6.23[0-9]). ban
SetEnvIfNoCase Remote_Addr ^202.69.(1[6-9]|2[0-9]|3[01]). ban
SetEnvIfNoCase Remote_Addr ^202.7(0.[12]?[0-9]|0.3[01]|4.[89]|4.1[0-5]). ban
SetEnvIfNoCase Remote_Addr ^202.9[01].[0-3]. ban
SetEnvIfNoCase Remote_Addr ^202.9[23].([0-3]|25[2-5]). ban
SetEnvIfNoCase Remote_Addr ^202.9[45].([12]?[0-9]|3[01]). ban
SetEnvIfNoCase Remote_Addr ^202.90.2(2[4-9]|3[0-9]|5[2-5]). ban
SetEnvIfNoCase Remote_Addr ^202.91.1(2[89]|3[01]|7[6-9]|8[0-9]|9[01]). ban
SetEnvIfNoCase Remote_Addr ^202.95.([0-9]|25[2-5]). ban
SetEnvIfNoCase Remote_Addr ^203.(208.1?[0-9]|196.[0-7]). ban
SetEnvIfNoCase Remote_Addr ^203.(89.|90.|88.6|88.22)[0-3]. ban
SetEnvIfNoCase Remote_Addr ^203.100.(1[01][0-9]|12[0-7]|3[2-9]|4[0-7]|9[6-9]). ban
SetEnvIfNoCase Remote_Addr ^203.110.1([6-8][0-9]|9[01]|9[2-9]). ban
SetEnvIfNoCase Remote_Addr ^203.118.2([01][[0-9]|2[0-3]). ban
SetEnvIfNoCase Remote_Addr ^203.119.(2[4-9]|3[0-5]). ban
SetEnvIfNoCase Remote_Addr ^203.128.([45][0-9]|1[0-5][0-9]|3[2-9]|6[0-3]|9[6-9]). ban
SetEnvIfNoCase Remote_Addr ^203.13[02].([45][0-9]|3[2-9]|6[0-3]). ban
SetEnvIfNoCase Remote_Addr ^203.135.(10[0-9]|11[01]|16[0-9]|17[0-5]|9[6-9]). ban
SetEnvIfNoCase Remote_Addr ^203.148.([1-5]?[0-9]6[0-3]). ban
SetEnvIfNoCase Remote_Addr ^203.156.(19[2-9]|2[0-4][0-9]|25[0-5]). ban
SetEnvIfNoCase Remote_Addr ^203.175.(1[3-5][0-9]|12[89]|19[2-9]|2[0-4][0-9]|25[0-5]). ban
SetEnvIfNoCase Remote_Addr ^203.187.1([6-8][0-9]|9[01]). ban
SetEnvIfNoCase Remote_Addr ^203.191.([7-9][0-9]|1[01][0-9]|12[0-7]|6[4-9]). ban
SetEnvIfNoCase Remote_Addr ^203.192.([12]?[0-9]|3[01]). ban
SetEnvIfNoCase Remote_Addr ^203.2(12|23|79).([0-9]|1[0-5]). ban
SetEnvIfNoCase Remote_Addr ^203.207.([7-9]|1[0-9]|2[0-4])[0-9]. ban
SetEnvIfNoCase Remote_Addr ^203.207.(25[0-5]|6[4-9]). ban
SetEnvIfNoCase Remote_Addr ^203.222.(19[2-9]|20[0-7]). ban
SetEnvIfNoCase Remote_Addr ^203.81.(1[6-9]|2[0-9]|3[01]). ban
SetEnvIfNoCase Remote_Addr ^203.86.([1-8]?[0-9]|9[0-5]). ban
SetEnvIfNoCase Remote_Addr ^203.88.([45]|2[01])[0-9]. ban
SetEnvIfNoCase Remote_Addr ^203.88.(3|19)[2-9]. ban
SetEnvIfNoCase Remote_Addr ^203.90.(1[3-9][0-9]|12[8-9]|2[01][0-9]|22[0-3]). ban
SetEnvIfNoCase Remote_Addr ^203.91.([45]|10)[0-9]. ban
SetEnvIfNoCase Remote_Addr ^203.91.(11[01]|3[2-9]|6[0-3]|9[6-9]). ban
SetEnvIfNoCase Remote_Addr ^203.92.([0-3]|1[6-8][0-9]|19[01]). ban
SetEnvIfNoCase Remote_Addr ^203.94.([12]?[0-9]|3[01]). ban
SetEnvIfNoCase Remote_Addr ^203.95.([0-7]|10[0-9]|11[01]|9[6-9]). ban
SetEnvIfNoCase Remote_Addr ^210.1(4.6[4-9]|5.19[0-2]). ban
SetEnvIfNoCase Remote_Addr ^210.14.([78]|1[6-9]|2[0-4])[0-9]. ban
SetEnvIfNoCase Remote_Addr ^210.14.(25|9)[0-5]. ban
SetEnvIfNoCase Remote_Addr ^210.15.([1-9]|1[0-8])?[0-9]. ban
SetEnvIfNoCase Remote_Addr ^210.16.1([3-8][0-9]|2[89]|9[01]). ban
SetEnvIfNoCase Remote_Addr ^210.185.(19[2-9]|2[0-4][0-9]|25[0-5]). ban
SetEnvIfNoCase Remote_Addr ^210.192.(1[01][0-9]|12[0-7]|9[6-9]). ban
SetEnvIfNoCase Remote_Addr ^210.211.([0-9]|1[0-5]). ban
SetEnvIfNoCase Remote_Addr ^210.5.([1-3]?[0-9]|4[0-7]). ban
SetEnvIfNoCase Remote_Addr ^210.5.1(2[89]|3[0-9]|4[0-3]). ban
SetEnvIfNoCase Remote_Addr ^210.56.(19[2-9]|2[01][0-9]|22[0-3]). ban
SetEnvIfNoCase Remote_Addr ^210.79.([7-9]|1[01]|2[34])[0-9]. ban
SetEnvIfNoCase Remote_Addr ^210.79.(12[0-7]|25[0-5]). ban
SetEnvIfNoCase Remote_Addr ^210.79.(6|22)[4-9]. ban
SetEnvIfNoCase Remote_Addr ^210.87.1([3-8][0-9]|2[8-9]|9[01]). ban
SetEnvIfNoCase Remote_Addr ^218.185.(19[2-9]|2[01][0-9]|2[0-3]). ban
SetEnvIfNoCase Remote_Addr ^220.231.([1-5]?[0-9]|6[0-3]). ban
SetEnvIfNoCase Remote_Addr ^220.231.1([3-9][0-9]|2[89]). ban
SetEnvIfNoCase Remote_Addr ^220.231.2([0-4][0-9]|5[0-5]). ban
SetEnvIfNoCase Remote_Addr ^220.232.([7-9]|1[01])[0-9]. ban
SetEnvIfNoCase Remote_Addr ^220.232.(12[0-7]|6[4-9]). ban
SetEnvIfNoCase Remote_Addr ^221.1(1.22[0-3]|2.19[01]). ban
SetEnvIfNoCase Remote_Addr ^221.11.([1-9]?|1[0-9]|2[01])[0-9]. ban
SetEnvIfNoCase Remote_Addr ^221.12.([1-9]|1[0-8])?[0-9]. ban
SetEnvIfNoCase Remote_Addr ^221.199.([1-3]?|1[3-9])[0-9]. ban
SetEnvIfNoCase Remote_Addr ^221.199.(4|20)[0-7]. ban
SetEnvIfNoCase Remote_Addr ^221.199.12[89]. ban
SetEnvIfNoCase Remote_Addr ^222.163.([12]?[0-9]|3[01]). ban
SetEnvIfNoCase Remote_Addr ^58.87.([7-9]|1[0-8])[0-9]. ban
SetEnvIfNoCase Remote_Addr ^58.87.6[4-9]. ban
SetEnvIfNoCase Remote_Addr ^59.1(07|51|91).12[0-7]. ban
SetEnvIfNoCase Remote_Addr ^59.1[59]1.([1-9]?|1[01])[0-9]. ban
SetEnvIfNoCase Remote_Addr ^59.107.([1-9]|1[01])?[0-9]. ban
SetEnvIfNoCase Remote_Addr ^60.13.([1-5]?|1[3-9]|2[0-4])[0-9]. ban
SetEnvIfNoCase Remote_Addr ^60.13.(12[89]|25[0-5]|6[0-3]). ban
SetEnvIfNoCase Remote_Addr ^61.28.([0-9]?[0-9]|1[01][0-9]|12[0-7]). ban
SetEnvIfNoCase Remote_Addr ^61.29.(1[3-9][0-9]|12[89]|2[0-4][0-9]|25[0-5]). ban
SetEnvIfNoCase Remote_Addr ^61.4.(6[4-9]|7[0-9]). ban
SetEnvIfNoCase Remote_Addr ^61.45.19[01]. ban
SetEnvIfNoCase Remote_Addr ^61.47.1([3-8][0-9]|2[89]|9[01]). ban

<Files *>
Order Allow,Deny
Allow from all
Deny from env=ban
</Files>

直接封殺大陸ip最快..

轉貼自
http://blog.mingyan.idv.tw/index.php?op=ViewArticle&articleId=508&blogId=1

jidanni
2007-11-20, 10:39 AM
另外,見
http://pic.sogou.com/d?query=%B0%D7%C6%A8%B9%C9%CD%BC%C6%AC&mood=0&mode=1&di=0&page=1&did=17&gid=0&p=24010501&dp=1&w=05002600&dr=1

發現其不但不理
http://jidanni.org/robots.txt
甚至 HOTLINK my images into their search results page.

rainxq
2009-06-27, 08:21 PM
呵呵,我是大陸的。。。你的主機太差了

18SUPER
2009-06-28, 04:49 AM
又是一篇陳年文案煩了上來
說來哈大您的主機還是有被"擺渡"騷擾嗎?

哈啦
2009-06-28, 07:22 PM
又是一篇陳年文案煩了上來
說來哈大您的主機還是有被"擺渡"騷擾嗎?

現在沒注意這些問題了,都由主機商在管的。

soarb
2009-06-30, 03:58 PM
樓主呀,站長呀。有點不專業呀。
那個也是se?只能叫採集吧。現在採集數據誰會用用戶的useragen。懂點的人都搞個google,你那個採集者算正統的了,不用假冒別人。