Filed under: Spider | 4 Comments »
Posted on 12月 11th, 2007 由 毛毛虫
模拟登陆可以用curl或者socket来实现,当curl需要服务器相应的启用curl module,自己socket实现相对比较麻烦,使用snoopy就简单了很多啦。
在这里,我们使用喜悦国际村做为例子。(^_^,纯属研究)
首先,我们要获取到登陆需要发送什么字段,目标地址是什么。这里我们使用snoopy的fetchform来实现。
- <?php
- include "Snoopy.class.php";
- $snoopy = new Snoopy;
- $snoopy->fetchform("http://www.phpx.com/happy/logging.php?action=login");
- print $snoopy->results;
- ?>
当然你也可以直接查看http://www.phpx.com/happy/logging.php?action=login的源代码来实现,不过这样更加方便把。这里,我们获取到目标和提交的数据,下一步就可以实现模拟登陆了。代码如下:
- <?php
- include "Snoopy.class.php";
- $snoopy = new Snoopy;
- $submit_url = "http://www.phpx.com/happy/logging.php?action=login";
- $submit_vars["loginmode"] = "normal";
- $submit_vars["styleid"] = "1";
- $submit_vars["cookietime"] = "315360000";
- $submit_vars["loginfield"] = "username";
- $submit_vars["username"] = "********"; //你的用户名
- $submit_vars["password"] = "*******"; //你的密码
- $submit_vars["questionid"] = "0";
- $submit_vars["answer"] = "";
- $submit_vars["loginsubmit"] = "提 交";
- $snoopy->submit($submit_url,$submit_vars);
- print $snoopy->results;
- ?>
Filed under: Spider | 1 Comment »
Posted on 12月 11th, 2007 由 毛毛虫
- <?php
- //获得当前的脚本网址
- function get_php_url(){
- if(!empty($_SERVER["REQUEST_URI"])){
- $scriptName = $_SERVER["REQUEST_URI"];
- $nowurl = $scriptName;
- }else{
- $scriptName = $_SERVER["PHP_SELF"];
- if(empty($_SERVER["QUERY_STRING"])) $nowurl = $scriptName;
- else $nowurl = $scriptName."?".$_SERVER["QUERY_STRING"];
- }
- return $nowurl;
- }
- //把全角数字转为半角数字
- function GetAlabNum($fnum){
- $nums = array("0","1","2","3","4","5","6","7","8","9");
- $fnums = "0123456789";
- for($i=0;$i<=9;$i++) $fnum = str_replace($nums[$i],$fnums[$i],$fnum);
- $fnum = ereg_replace("[^0-9\.]|^0{1,}","",$fnum);
- if($fnum=="") $fnum=0;
- return $fnum;
- }
Filed under: Spider | 1 Comment »
Posted on 12月 10th, 2007 由 毛毛虫
官方的简介:
snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。
下面是它的一些特征:
1、方便抓取网页的内容
2、方便抓取网页的文字(去掉HTML代码)
3、方便抓取网页的链接
4、支持代理主机
5、支持基本的用户/密码认证模式
6、支持自定义用户agent,referer,cookies和header内容
7、支持浏览器转向,并能控制转向深度
8、能把网页中的链接扩展成高质量的url(默认)
9、方便提交数据并且获取返回值
10、支持跟踪HTML框架(v0.92增加)
11、支持再转向的时候传递cookies
Read the rest of this entry »
