PHP采集程序中常用的函数

Filed under: Spider | No Comments »
Posted on
  1. <?php
  2. //获得当前的脚本网址
  3. function get_php_url(){
  4.         if(!empty($_SERVER["REQUEST_URI"])){
  5.                 $scriptName = $_SERVER["REQUEST_URI"];
  6.                 $nowurl = $scriptName;
  7.         }else{
  8.                 $scriptName = $_SERVER["PHP_SELF"];
  9.                 if(empty($_SERVER["QUERY_STRING"])) $nowurl = $scriptName;
  10.                 else $nowurl = $scriptName."?".$_SERVER["QUERY_STRING"];
  11.         }
  12.         return $nowurl;
  13. }
  14. //把全角数字转为半角数字
  15. function GetAlabNum($fnum){
  16.         $nums = array("","","","","","","","","","");
  17.         $fnums = "0123456789";
  18.         for($i=0;$i<=9;$i++) $fnum = str_replace($nums[$i],$fnums[$i],$fnum);
  19.         $fnum = ereg_replace("[^0-9\.]|^0{1,}","",$fnum);
  20.         if($fnum=="") $fnum=0;
  21.         return $fnum;
  22. }

Read the rest of this entry »

Tags : , ,

snoopy——PHP版的网络客户端

Filed under: Spider | No Comments »
Posted on

官方的简介:
snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。
下面是它的一些特征:
1、方便抓取网页的内容
2、方便抓取网页的文字(去掉HTML代码)
3、方便抓取网页的链接
4、支持代理主机
5、支持基本的用户/密码认证模式
6、支持自定义用户agent,referer,cookies和header内容
7、支持浏览器转向,并能控制转向深度
8、能把网页中的链接扩展成高质量的url(默认)
9、方便提交数据并且获取返回值
10、支持跟踪HTML框架(v0.92增加)
11、支持再转向的时候传递cookies
Read the rest of this entry »