來自使用者代理 Mozilla/5.0(Windows;U;Windows NT 5.1;en-US;rv:1.9.0.10)的非法流量 Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729…
這是一個瞬息萬變的事件,目前還沒有答案。
請不要將您的發現或假設作為答案發布;保留答案欄位以供您實際有答案時使用。
如果您有新內容要添加,請直接在問題中進行編輯。
自今年年初以來,我通過使用者代理獲得了大量流量:
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).
我的訪問日誌顯示來自該使用者代理的 40% - 60%。這很奇怪,因為使用者代理聲明了 Firefox 3.0.10 瀏覽器(2012 年有人使用該瀏覽器嗎?絕對不是普通網站上 40%-60% 的訪問者)。
此外,日誌顯示此使用者代理僅請求 HTML 文件,沒有引用圖像、css、js 文件等資產。
我檢查了這些請求的 IP(使用那個 UA)。它來自世界各地。我認識到這些 IP 有時具有移動使用者代理。
所以我懷疑是一個正在執行大量“蜘蛛請求”的移動應用程序。最好知道來自該使用者代理的流量的根本原因。
任何人都可以確定根本原因嗎?
在過去的幾周里,我們發現來自該 UA 的流量下降了,而其他流量增加了。看起來機器人/爬蟲現在使用更常見的 UA,因此更難以阻止。我看到其他人在回答這個問題時這麼說,但是當 serverfault 決定重新安排這個問題時,它被刪除了。
舊答案作為參考
來自迪的更新
我經營著自己的流量非常大的網站,在過去一個月左右的時間裡,我在我們的 apache 日誌中看到了完全相同的內容(我還沒有機會進一步查看)。所有請求的 40% 是我看到的百分比,這顯然是瘋狂的。
而且我還注意到請求似乎總是說請求瀏覽器不支持 gzip 壓縮 - 導致所有網頁請求都未壓縮發送,我們的頻寬使用量飆升!
但到目前為止,我一直無法確定到底發生了什麼——到目前為止,我懷疑它可能是某種代理伺服器,或者用於發送假使用者代理字元串的移動設備。
編輯添加:剛剛做了一些研究,看起來它可能是防病毒軟體:http ://www.webmasterworld.com/search_engine_spiders/4428772.htm
是的,我們注意到跨多個站點的類似流量。
我們仍在尋找根本原因,但我們的一些發現包括:
- 如果它是一隻蜘蛛,它的工作就很糟糕。在一段時間內(可能是幾個小時),似乎每個域只敲擊一個或兩個 URL,直到它移動到另一個 URL。但是,內容總是相對“最新”的,這使人們相信 Google 新聞是一個因素,正如 Dee 在他/她的答案中發布的連結中所假設的那樣(我們所有的網站都是新聞網站)。
- 雖然 IP 在地理上分散,但對我們來說,它們中的大多數似乎都位於源站點附近(我們的大多數站點都是本地新聞媒體,因此它們沒有獲得很多國家流量)。幾乎沒有一個請求來自美國以外。這再次證明了從 Google 新聞中獲取 URL 的可信度(我猜那些通過郵政編碼本地化了 Google 新聞的人會看到我們的內容)。
- 大多數情況下,請求可以作為背景噪音(儘管特別嘈雜)而被註銷,但我們每天會出現幾次峰值,僅此 UA 將佔約 100mbps 的流量約 15-30 分鐘。
- 不幸的是,雖然 Google 新聞似乎是這些 URL 被發現的一個可能載體,但我們所看到的一切都是間接的,我們仍然沒有任何確鑿證據來說明這些 URL 是如何或為什麼會受到打擊的。
我們有大型新聞網站 - 我們的故事每週都會被 Google 新聞多次收錄。自 11 月下旬以來,我們一直從該來源獲得流量 - 並且每週都在增長 - 2 月份可能達到 3000 萬次展示。
出現在 Google News US 的首頁是這種流量的觸發因素——大約 75% 的流量聲稱來自美國 IP。但無論它是什麼,都在努力掩蓋自己。這並不友好。
我們也沒有發現確鑿證據——但一家主要的安全供應商已經同意代表我們進行進一步調查。
新聞網站(AndroidPolice.com)第一次發生了同樣的事情。這些隨機請求中有大約 10 分鐘使 QPS 超過我們平均水平的 5000%(5000qps,這是 Linode 的 NodeBalancer 的限制)。當請求耗盡 I/O 和網路時,CPU 開始空閒——這是一個真正的 DDOS。
我真的很想弄清楚這一點,但目前它似乎完全令人費解。
來自馬克的更新
只需添加+1。我們在我們的網站上看到了同樣的行為。這裡不需要添加大量新資訊,但這裡是我們流量的一般形狀:
- 流量高度分散。流量來自超過 60k 的唯一 IP。
- 絕大多數流量都點擊單個 URL,通常是 Google 新聞上列出的最近的 URL(儘管 Google 新聞並不總是看起來是矢量)
- 所有這些流量都來自同一執行緒中提到的 Firefox/3.0.10 使用者代理,儘管我們在這里和那裡看到了一些奇怪的移動代理。
- 來自此代理的所有流量均不包含引薦來源數據。
- 爆發每週發生一次或兩次,持續 30-60 分鐘,然後消失。
最後一個文章是 4 月 13 日,但流量肯定還沒有結束。最奇怪的部分可能是這樣一個事實,即任何稱職的惡意軟體作者都可以肯定(肯定會)使用來自現代瀏覽器的使用者代理字元串,從而使阻止使用者代理防禦毫無價值。這一事實使它看起來好像一個“無害”的新聞聚合器或其他一些應用程序是來源。不過,到目前為止,我還無法得出任何真正的結論,希望有資訊的人可以在這裡發布。
我們看到了同樣的模式,一個故事被Google新聞收錄,隨後請求該故事的流量非常高(但不是圖片等附件文件)。出站響應流量會導致峰值,這可能會使網路飽和(或者確實如此,直到我們開始響應時只出現 503 錯誤)。這些攻擊(我們還能叫它們什麼?)平均持續大約 30 分鐘,但非常流行的故事可以有一個小時或更長時間的高流量(我說的是 firefox 3.0.10 的流量,當然正常的流量也仍然很高一陣子)。
在一小時內(對於負載平衡組中的單個伺服器),我們看到了 200,000 個請求,其中 97,000 個是 firefox 3.0.10 請求,幾乎佔所有請求的 50%。當您考慮到通常一個頁面會生成 10 個或更多對主文件和輔助文件的請求時,97,000 個會更大。我注意到在這 97,000 個 IP 地址中有 51,000 個唯一 IP 地址。我說的是一個小時(實際上接近 45 分鐘)。無論是什麼原因導致這種情況都非常普遍。
我們在一個巨大的法國高科技新聞網站上有同樣的問題。
每當一條新聞在Google新聞上發布和查看時,新聞的流量就會大大增加,通過 IP 和使用者代理“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) 訪問大約 50 到 100 次) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)”。
所有的 IP 地址似乎都位於法國或法國國家,並且沒有推薦人。這似乎是一個機器人,但為什麼一個遠端地址必須在幾分鐘內返回 50 或 100 次同一新聞?會不會是被感染的電腦?為什麼在Google新聞上看到新聞時會出現這種現象?Google對這種奇怪的流量負責嗎?
如果有人在這個主題中找到了解釋,我認為這將有助於許多大中型網站控制他們的流量!
編輯: http: //2bits.com/botnet/botnet-hammering-web-site-causing-outages.html 如果確實是受感染的電腦,考慮到涉及的地址數量,這是非常令人擔憂的。我們將為 Apache 實現此腳本以阻止所有流量:
# Referer is empty RewriteCond %{HTTP_REFERER} ^$ # User agent is bogus old browser RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10" # Forbid the request RewriteRule ^(.*)$ - [F,L]
來自埃內斯託的更新
西班牙中型綜合新聞網站,發現幾天以來一些無關新聞的訪問量很高。
無論它是誰,它都會載入完整的 HTML,因為我們注意到它是由於“頁面視圖”計數在頁面載入後通過數據庫更新而增加的。
我們每天只注意到一個或兩個目標 URL。
在幾秒鐘內通過同一 URL 發送大量請求 (7000-12000),並在一天內從不同的 IP 分發。未來幾天將定位其他 URL。
沒有推薦人。
目標文章出現在 Google 新聞上,但我們不能保證它是否相關。
Google Analytics 不會將其辨識為合法流量。我們有超過 8000 次點擊的文章,而 GA 只報告了 25 條左右(我假設 javascript 它沒有被解釋)。
為您添加一些數據點。
Bots vs. Browsers不認為這個 UA 是一個機器人(還)。
在我有日誌的流量最高的網站上,2012 年 5 月迄今為止的使用情況顯示此 UA 不到流量的 1%。很大一部分 UA 請求看起來是合法的(例如,載入所有預期的資源)。這與 2012 年 2 月的情況基本相同。
這個網站的首頁很少更新,所有的動態內容都被 robots.txt 屏蔽了。
這很可能來自 Genieo。他們更新了他們的應用程序以使用新的使用者代理:Mozilla/5.0+(compatible;+Genieo/1.0+ http://www.genieo.com/webfilter.html )。它使用與原始使用者代理相同的模式,但現在它們似乎辨識了自己。如果您查看他們的使用者代理中的 URL,他們甚至會承認他們可能已經或可能仍在為某些網站產生過多的流量。- df法
邁克·費根的更新
幾週來,我們一直在與我們認為的 DDOS 攻擊作鬥爭。我們剛剛開始將 Genieo 視為這些攻擊的使用者代理。以前我們看到“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)”和大量來自“ Mozilla/5.0 (Windows NT 6.1; rv:11.0) Gecko/20100101 Firefox/11.0"。10k+ 不同的 IP,每天 100 萬次以上的請求,僅針對 3 或 4 個頁面,其中同一個 IP 請求頁面 100 次以上,並且沒有提取任何額外的資產或廣告。我的發現是,這些 IP 都沒有真正進入我們網站上的任何其他頁面。
我聯繫了 Genieo,這是他們的回复:
“感謝您與我們聯繫。
舊版本的 Genieo 可能會導致您描述的流量負載。對此造成的任何不便,我們深表歉意。我們昨天發布和更新解決了這個問題,來自我們應用程序的數據負載應該會在接下來的 24 小時內消失。我們相信我們通過將它介紹給新使用者來為您的網站提供良好的服務。我們沒有正確評估,隨著我們的安裝基礎不斷增長,它可能會在某些位置引起過載。
Genieo 是個人報紙或智能 RSS 閱讀器。它是具有智能語義個性化過濾的客戶端 RSS 閱讀器。Genieo 應用程序通過執行語義分析來跟踪來自使用者最喜歡站點的 RSS 數據“閱讀”文章,並針對使用者感興趣的區域對其進行過濾。如果文章與使用者的興趣相匹配,則應用程序會在使用者首頁中顯示文章的標題和片段。點擊標題會跳轉到文章的站點——你的站點。Genieo 代理是自治的(出於隱私原因);它在最終使用者的機器上執行,這就是為什麼您看到代理從許多不同的 IP 訪問您的站點的原因。
Genieo 的大部分數據來自使用者的正常 RSS 提要,但 Genieo 還添加了一些來自使用者之前未註冊的新新聞站點的內容(出於偶然性和多樣性)。Genieo 算法會查找“熱門”文章、Twitter 熱門文章、YouTube 最受歡迎和 Google 新聞亮點,並檢查它們是否符合使用者的興趣
我們不知道這會導致某些站點出現負載問題。一旦引起我們的注意,我們會使用防止負載峰值的新版本更新目前使用者。
最好的祝福,
-Dotan
PS:我們過去確實使用過“Mozilla/5.0 (Windows NT 6.1; rv:11.0) Gecko/20100101 Firefox/11.0”(由於技術錯誤),但所有目前的 Genieo 使用者都應該使用 Genieo 使用者代理(對於過去幾週)”
我認為使用者 dflaw 找到了它。這是 Genieo 的軟體。我們做了一些測試並聯繫了他們。所有結果都在這裡公佈。