2012年5月25日

[PHP]curl抓取網頁

資料來源:
[php] 利用 curl 來抓取網頁結果

php curl_setopt函數相關參數介紹




如果要用php來抓取網頁,一般人最常想到的就是「fopen」這個函式了。但現在有了更強大的函式,「curl」,至於這個函式怎麼用呢?就往下看吧!

如使用mysql一樣,首先,我們必須先建立一個「curl」的連線,也因此,必須使用到「$ch = curl_init()」這個函式。而為了怕建立連線忘了關閉。因此,必須先寫好關閉的函式,「curl_close($ch)」。

接下來,你可以設定他截取網頁的選項,一般來說常用的有「CURLOPT_RETURNTRANSFER」、「CURLOPT_URL」、「CURLOPT_HEADER」、「CURLOPT_FOLLOWLOCATION」、「CURLOPT_USERAGENT」這幾個選項。而這幾個選項分別代表「將結果回傳成字串」、「設定截取網址」、 「是否截取header的資訊」、「是否抓取轉址」及「瀏覽器的user agent」。最後,再執行「curl_exec($ch)」以取出結果就可以了。

而以抓取yahoo為例,若我們要偽裝成google bot去抓取,那麼我們可以寫成下列的樣子。
$ch = curl_init(); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); 
curl_setopt($ch, CURLOPT_URL, "www.yahoo.com.tw"); 
curl_setopt($ch, CURLOPT_HEADER, false); 
curl_setopt($ch, CURLOPT_USERAGENT, "Google Bot"); 
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true); 
$output = curl_exec($ch); curl_close($ch); echo $output;

當然,你也可以將選項們設定一個陣列,以增加設定時的閱讀度。這時就得動用「curl_setopt_array()」這個函式了。

而改寫上列程式如下:
$ch = curl_init(); 
$options = array(
    CURLOPT_URL => 'www.yahoo.com.tw', 
    CURLOPT_HEADER => false,
    CURLOPT_RETURNTRANSFER => true,
    CURLOPT_USERAGENT => "Google Bot",
    CURLOPT_FOLLOWLOCATION => true 
); 
curl_setopt_array($ch, $options); 
$output = curl_exec($ch); 
curl_close($ch); 
echo $output;






curl_setopt相關參數


CURLOPT_INFILESIZE: 當你上傳一個文件到遠程站點,這個選項告訴PHP你上傳文件的大小。

CURLOPT_VERBOSE: 如果你想CURL報告每一件意外的事情,設置這個選項為一個非零值。

CURLOPT_HEADER: 如果你想把一個頭包含在輸出中,設置這個選項為一個非零值。

CURLOPT_NOPROGRESS: 如果你不會PHP為CURL傳輸顯示一個進程條,設置這個選項為一個非零值。

注意:PHP自動設置這個選項為非零值,你應該僅僅為了調試的目的來改變這個選項。

CURLOPT_NOBODY: 如果你不想在輸出中包含body部分,設置這個選項為一個非零值。

CURLOPT_FAILONERROR: 如果你想讓PHP在發生錯誤(HTTP代碼返回大於等於300)時,不顯示,設置這個選項為一人非零值。默認行為是返回一個正常頁,忽略代碼。

CURLOPT_UPLOAD: 如果你想讓PHP為上傳做準備,設置這個選項為一個非零值。

CURLOPT_POST: 如果你想PHP去做一個正規的HTTP POST,設置這個選項為一個非零值。這個POST是普通的 application/x-www-from-urlencoded 類型,多數被HTML表單使用。

CURLOPT_FTPLISTONLY: 設置這個選項為非零值,PHP將列出FTP的目錄名列表。

CURLOPT_FTPAPPEND: 設置這個選項為一個非零值,PHP將應用遠程文件代替覆蓋它。

CURLOPT_NETRC: 設置這個選項為一個非零值,PHP將在你的 ~./netrc 文件中查找你要建立連接的遠程站點的用戶名及密碼。

CURLOPT_FOLLOWLOCATION: 設置這個選項為一個非零值(象 'Location: ')的頭,服務器會把它當做HTTP頭的一部分發送(注意這是遞歸的,PHP將發送形如 'Location: '的頭)。

CURLOPT_PUT: 設置這個選項為一個非零值去用HTTP上傳一個文件。要上傳這個文件必須設置CURLOPT_INFILE和CURLOPT_INFILESIZE選項.

CURLOPT_MUTE: 設置這個選項為一個非零值,PHP對於CURL函數將完全沉默。

CURLOPT_TIMEOUT: 設置一個長整形數,作為最大延續多少秒。

CURLOPT_LOW_SPEED_LIMIT: 設置一個長整形數,控制傳送多少字節。

CURLOPT_LOW_SPEED_TIME: 設置一個長整形數,控制多少秒傳送CURLOPT_LOW_SPEED_LIMIT規定的字節數。

CURLOPT_RESUME_FROM: 傳遞一個包含字節偏移地址的長整形參數,(你想轉移到的開始表單)。

CURLOPT_SSLVERSION: 傳遞一個包含SSL版本的長參數。默認PHP將被它自己努力的確定,在更多的安全中你必須手工設置。

CURLOPT_TIMECONDITION: 傳遞一個長參數,指定怎麼處理CURLOPT_TIMEVALUE參數。你可以設置這個參數為TIMECOND_IFMODSINCE 或 TIMECOND_ISUNMODSINCE。這僅用於HTTP。

CURLOPT_TIMEVALUE: 傳遞一個從1970-1-1開始到現在的秒數。這個時間將被CURLOPT_TIMEVALUE選項作為指定值使用,或被默認TIMECOND_IFMODSINCE使用。

下列選項的值將被作為字符串:



CURLOPT_URL: 這是你想用PHP取回的URL地址。你也可以在用curl_init()函數初始化時設置這個選項。

CURLOPT_USERPWD: 傳遞一個形如[username]:[password]風格的字符串,作用PHP去連接。

CURLOPT_PROXYUSERPWD: 傳遞一個形如[username]:[password] 格式的字符串去連接HTTP代理。

CURLOPT_RANGE: 傳遞一個你想指定的範圍。它應該是'X-Y'格式,X或Y是被除外的。HTTP傳送同樣支持幾個間隔,用逗句來分隔(X-Y,N-M)。

CURLOPT_POSTFIELDS: 傳遞一個作為HTTP 「POST」操作的所有數據的字符串。

CURLOPT_REFERER: 在HTTP請求中包含一個'referer'頭的字符串。

CURLOPT_USERAGENT: 在HTTP請求中包含一個'user-agent'頭的字符串。

CURLOPT_FTPPORT: 傳遞一個包含被ftp 'POST'指令使用的IP地址。這個POST指令告訴遠程服務器去連接我們指定的IP地址。 這個字符串可以是一個IP地址,一個主機名,一個網絡界面名(在UNIX下),或是『-』(使用系統默認IP地址)。

CURLOPT_COOKIE: 傳遞一個包含HTTP cookie的頭連接。

CURLOPT_SSLCERT: 傳遞一個包含PEM格式證書的字符串。

CURLOPT_SSLCERTPASSWD: 傳遞一個包含使用CURLOPT_SSLCERT證書必需的密碼。

CURLOPT_COOKIEFILE: 傳遞一個包含cookie數據的文件的名字的字符串。這個cookie文件可以是Netscape格式,或是堆存在文件中的HTTP風格的頭。

CURLOPT_CUSTOMREQUEST: 當進行HTTP請求時,傳遞一個字符被GET或HEAD使用。為進行DELETE或其它操作是有益的,更Pass a string to be used instead of GET or HEAD when doing an HTTP request. This is useful for doing or another, more obscure, HTTP request.

注意: 在確認你的服務器支持命令先不要去這樣做。

下列的選項要求一個文件描述(通過使用fopen()函數獲得):



CURLOPT_FILE: 這個文件將是你放置傳送的輸出文件,默認是STDOUT.

CURLOPT_INFILE: 這個文件是你傳送過來的輸入文件。

CURLOPT_WRITEHEADER: 這個文件寫有你輸出的頭部分。

CURLOPT_STDERR: 這個文件寫有錯誤而不是stderr。

沒有留言:

張貼留言