2011年2月26日 星期六

關鍵字擷取網頁

關鍵字下法先以最簡單的方式(純中文字不含 and, or, not 功能)
http://www.google.com.tw/search?q=關鍵字
http://tw.search.yahoo.com/search?p=關鍵字

我試用過TNMHTTP以及TIdHTTP兩種方式連結取得網頁 兩種方式都一樣

一兩筆 或是手動輸入關鍵字都沒有問題 可以順利抓取搜尋結果頁面

但是當我想透過讀自己設定好的Excel格式
讀取大量關鍵字一筆一筆丟給Yahoo或是Google去搜尋取得結果頁面時
Google沒問題
Yahoo卻大約到第25筆左右就把我封鎖了 讀到的網頁是error 999的頁面 感覺是被封IP
可是直接用IE開卻又沒問題(在URL列中直接key入 http://tw.search.yahoo.com/search?p=關鍵字)

可能是Yahoo會去判別是哪隻程式在發request 如果是他不認識的程式就封鎖。

所以想請問各問大大有沒有解決的辦法,或是讓Yahoo認為我這隻程式模擬IE發request而不被它檔下
或是有沒有其他功能可以換用看看的 TIdTCPClient TIdTCPServer 之類的 我都不太會用 @@:"
希望能抓一百個以上關鍵字的回傳結果頁面

謝謝各位大大 <(_ _)>
作者 : auslk(火焰挑戰者)
[ 貼文 6 | 人氣 8 | 評價 10 | 送出評價 1 次 ]
[ 回應本文 ] [ 發表新文 ] [ 給予評價 ] [ 給予評價 ] [ 回上頁 ] [ 回討論區列表 ] [ 回知識入口 ]
2007/5/13 下午 06:23:04
您好!

網頁擷取關鍵字部分,記得一件事情 要有讀取該網頁的延遲時間設定
否則你寫的程式會因該防火牆判斷為是"網路攻擊" 進而把你所住ip

解決方案: 請再寫一個每三秒鐘換一個新ip 這樣速度上就可以更快擷取到你想要的資訊

你的主要功能應該類似 "網路蜘蛛" 就自動搜尋 然後儲存的功能
其應用於收集email address/picture/...etc.

就記得變換ip即可 程式coding就交給你了^^"(老人不喜歡玩電腦原因就在這...)

Best Regards,
Pauli   

作者 : auslk(火焰挑戰者)
[ 貼文 6 | 人氣 8 | 評價 10 | 送出評價 1 次 ]
[ 回應本文 ] [ 發表新文 ] [ 給予評價 ] [ 給予評價 ] [ 回上頁 ] [ 回討論區列表 ] [ 回知識入口 ]
2007/5/13 下午 06:23:10
您好!

網頁擷取關鍵字部分,記得一件事情 要有讀取該網頁的延遲時間設定
否則你寫的程式會因該防火牆判斷為是"網路攻擊" 進而把你所住ip

解決方案: 請再寫一個每三秒鐘換一個新ip 這樣速度上就可以更快擷取到你想要的資訊

你的主要功能應該類似 "網路蜘蛛" 就自動搜尋 然後儲存的功能
其應用於收集email address/picture/...etc.

就記得變換ip即可 程式coding就交給你了^^"(老人不喜歡玩電腦原因就在這...)

Best Regards,
Pauli   

沒有留言:

張貼留言