Snoopy中文手册(毛毛虫翻译)

Filed under: Spider | 5 Comments »
Posted on
  1. /**
  2. * @name Snoopy手册中文版
  3. * @author 毛毛虫 wangchong1985@gmail.com
  4. * @version Snoopy - the PHP net client v1.2.2
  5. * @link http://www.wangchong.org
  6. * @since 2008-04-27
  7. */

名称:

Snoopy - the PHP net client v1.2.2

概要:

  1. include "Snoopy.class.php";
  2.     $snoopy = new Snoopy;
  3.    
  4.     $snoopy->fetchtext("http://www.php.net/");
  5.     print $snoopy->results;
  6.    
  7.     $snoopy->fetchlinks("http://www.phpbuilder.com/");
  8.     print $snoopy->results;
  9.    
  10.     $submit_url = "http://lnk.ispi.net/texis/scripts/msearch/netsearch.html";
  11.    
  12.     $submit_vars["q"] = "amiga";
  13.     $submit_vars["submit"] = "Search!";
  14.     $submit_vars["searchhost"] = "Altavista";
  15.        
  16.     $snoopy->submit($submit_url,$submit_vars);
  17.     print $snoopy->results;
  18.    
  19.     $snoopy->maxframes=5;
  20.     $snoopy->fetch("http://www.ispi.net/");
  21.     echo "<PRE>\n";
  22.     echo htmlentities($snoopy->results[0]);
  23.     echo htmlentities($snoopy->results[1]);
  24.     echo htmlentities($snoopy->results[2]);
  25.     echo "</PRE>\n";
  26.  
  27.     $snoopy->fetchform("http://www.altavista.com");
  28.     print $snoopy->results;

描述:

Snoopy是什么?

Snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。

Snoopy的一些特点:

* 方便抓取网页的内容
* 方便抓取网页的文本内容 (去除HTML标签)
* 方便抓取网页的链接
* 支持代理主机
* 支持基本的用户名/密码验证
* 支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
* 支持浏览器转向,并能控制转向深度
* 能把网页中的链接扩展成高质量的url(默认)
* 方便提交数据并且获取返回值
* 支持跟踪HTML框架(v0.92增加)
* 支持再转向的时候传递cookies (v0.92增加)
Read the rest of this entry »

snoopy与htmlsql实例(盗墓笔记采集)

Filed under: Spider | 2 Comments »
Posted on

snoopy这个采集类库是个很好玩的东西,简单而且使用,一般的采集应付起来绰绰有余。
最近一个哥们要看盗墓笔记的全本TXT文档,让我帮他采集,想了下决定用snoopy和一个好玩的类库htmlsql来做,htmlsql第一次使用,感觉比较好玩,写SQL的感觉非常有趣,就是灵活性上不是很突出,但做这种小的采集足够了,可能是因为第一次使用这个类库,并不是很顺利,写了两个多钟头,才搞定这个采集,这里放出源码供大家下载吧,想玩玩的可以拿去参考下。
展示部分代码:

  1. <?php
  2. include_once("./snoopy.class.php");
  3. include_once("./htmlsql.class.php");
  4. require_once("./function.php");
  5. //防止页面超时
  6. set_time_limit(0);
  7. //生成文本文档名称
  8. $name="怒海潜沙";//自定义文件名(注意自己修改)
  9. $txt_name=$name.".txt";
  10. $zhangjie="nu-hai-qian-sha";//这个程序写的并不是很智能,每个章节的链接地址还要自己修改下(注意自己修改)
  11. $max="46";//最大采集章节数(注意自己修改)
  12. $wsql = new htmlsql();
  13. for($i=1;$i<=$max;$i++){
  14.     $a=sprintf("%02d", $i);
  15.     $url="http://www.daomubiji.com/$zhangjie-$a.html";
  16.     // connect to a URL
  17.     if (!$wsql->connect('url', $url)){
  18.         print 'Error while connecting: ' . $wsql->error;
  19.         exit;
  20.     }
  21.  
  22.     if(!$wsql->query('SELECT * FROM h1')){
  23.         print "Query error: " . $wsql->error;
  24.         exit;
  25.     }
  26.  
  27.     // show results:
  28.     foreach($wsql->fetch_array() as $row){
  29.         writeStatistic("\r\n".$row['text']."\r\n",$txt_name);
  30.         $echo=iconv("UTF-8", "GBK", $row['text']);
  31.         //print_r($row);   
  32.     } 
  33.  
  34.     $wsql->isolate_content('<script src=http://busjs.vodone.cn/bus/ownerjs/advjs_47/47093/47093_56564_p7_.js></script>','<p align="center">');
  35.  
  36.     if (!$wsql->query('SELECT * FROM *')){
  37.         print "Query error: " . $wsql->error;
  38.         exit;
  39.     }
  40.  
  41.     // show results:
  42.     foreach($wsql->fetch_array() as $row){
  43.         writeStatistic(strip_tags($row['text'])."\r\n",$txt_name);
  44.         //print_r($row);   
  45.     }
  46.     print "$i. 章节: $echo 采集完成.....<br>";
  47.     print "--------------------------------------------------------<br>";
  48.     flush();
  49. }
  50. print "卷:$name 全部采集完成......";
  51. ?>

程序包下载:
snoopy与htmlsql实例程序包

[转]利用PHP制作简单的内容采集器

Filed under: Spider | 2 Comments »
Posted on

出处:天极网

  采集器,通常又叫小偷程序,主要是用来抓取别人网页内容的。关于采集器的制作,其实并不难,就是远程打开要采集的网页,然后用正则表达式将需要的内容匹配出来,只要稍微有点正则表达式的基础,都能做出自己的采集器来的。

  前几天做了个小说连载的程序,因为怕更新麻烦,顺带就写了个采集器,采集八路中文网的,功能比较简单,不能自定义规则,不过大概思路都在里面了,自定义规则可以自己来扩展。

  用php来做采集器主要用到两个函数:file_get_contents()和preg_match_all(),前一个是远程读取网页内容的,不过只在php5以上的版本才能用,后一个是正则函数,用来提取需要的内容的。

  下面就一步一步来讲功能实现。
Read the rest of this entry »

[原创]图书网站采集实例教程

Filed under: Spider | No Comments »
Posted on

在网上看到很多简单的采集教程,尤其是针对图书网站的比较多,但附带实例的并不多,在看了一篇针对八路中文网的抓取分析后,决定针对这个网站,写一个简单的抓取教程,并附带实例。由于俺偷懒,文中很多分析都是来自《利用PHP制作简单的内容采集器》,俺只是进一步优化了他的流程,并完成了代码实例的编写。
采集程序其实并不难做,只要分析清楚流程,然后使用合适的正则来取到你想要的内容就可以了。废话不说了,教程开始:
1.分析入口:
多打开几本书后,可以发现书名的基本格式是:http://www.86zw.com/Book/书号/Index.aspx。于是得出:

  1. $BookId='1888';
  2. $index="http://www.86zw.com/Book/".$BookId."/Index.aspx";//组合书目首页URL

2.打开页面:

  1. $contents=file_get_contents($index);

3.抓取图书信息页:

  1. //抓取图书相关信息
  2. preg_match_all("/<div id=\"CrBookTitle\"><span class=\"booktitle\">(.*)<\/span><\/div>/is",$contents,$Arraytitle);
  3. preg_match_all("/【<a href=\"(.*)\"><font color=\"#CC0000\">点击阅读<\/font><\/a>】/is",$contents,$Arraylist);
  4. unset($contents);
  5. $title=$Arraytitle[1][0];//书名
  6. $list="http://www.86zw.com".trim($Arraylist[1][0]);//列表页URL

Read the rest of this entry »

用snoopy提交数据实现登陆

Filed under: Spider | 4 Comments »
Posted on

模拟登陆可以用curl或者socket来实现,当curl需要服务器相应的启用curl module,自己socket实现相对比较麻烦,使用snoopy就简单了很多啦。

在这里,我们使用喜悦国际村做为例子。(^_^,纯属研究)

首先,我们要获取到登陆需要发送什么字段,目标地址是什么。这里我们使用snoopy的fetchform来实现。

  1. <?php
  2. include "Snoopy.class.php";
  3. $snoopy = new Snoopy;
  4. $snoopy->fetchform("http://www.phpx.com/happy/logging.php?action=login");
  5. print $snoopy->results;
  6. ?>

当然你也可以直接查看http://www.phpx.com/happy/logging.php?action=login的源代码来实现,不过这样更加方便把。这里,我们获取到目标和提交的数据,下一步就可以实现模拟登陆了。代码如下:

  1. <?php
  2. include "Snoopy.class.php";
  3. $snoopy = new Snoopy;
  4. $submit_url = "http://www.phpx.com/happy/logging.php?action=login";
  5.  
  6.    $submit_vars["loginmode"] = "normal";
  7.    $submit_vars["styleid"] = "1";
  8.    $submit_vars["cookietime"] = "315360000";
  9.    $submit_vars["loginfield"] = "username";
  10.    $submit_vars["username"] = "********"; //你的用户名
  11.   $submit_vars["password"] = "*******"//你的密码
  12.   $submit_vars["questionid"] = "0";
  13.    $submit_vars["answer"] = "";
  14.    $submit_vars["loginsubmit"] = "提   交";
  15.    $snoopy->submit($submit_url,$submit_vars);
  16.    print $snoopy->results;
  17.  
  18. ?>