snoopy与htmlsql实例(盗墓笔记采集)

Filed under: Spider | 3 Comments »
Posted on

snoopy这个采集类库是个很好玩的东西,简单而且使用,一般的采集应付起来绰绰有余。
最近一个哥们要看盗墓笔记的全本TXT文档,让我帮他采集,想了下决定用snoopy和一个好玩的类库htmlsql来做,htmlsql第一次使用,感觉比较好玩,写SQL的感觉非常有趣,就是灵活性上不是很突出,但做这种小的采集足够了,可能是因为第一次使用这个类库,并不是很顺利,写了两个多钟头,才搞定这个采集,这里放出源码供大家下载吧,想玩玩的可以拿去参考下。
展示部分代码:

  1. <?php
  2. include_once("./snoopy.class.php");
  3. include_once("./htmlsql.class.php");
  4. require_once("./function.php");
  5. //防止页面超时
  6. set_time_limit(0);
  7. //生成文本文档名称
  8. $name="怒海潜沙";//自定义文件名(注意自己修改)
  9. $txt_name=$name.".txt";
  10. $zhangjie="nu-hai-qian-sha";//这个程序写的并不是很智能,每个章节的链接地址还要自己修改下(注意自己修改)
  11. $max="46";//最大采集章节数(注意自己修改)
  12. $wsql = new htmlsql();
  13. for($i=1;$i<=$max;$i++){
  14.     $a=sprintf("%02d", $i);
  15.     $url="http://www.daomubiji.com/$zhangjie-$a.html";
  16.     // connect to a URL
  17.     if (!$wsql->connect('url', $url)){
  18.         print 'Error while connecting: ' . $wsql->error;
  19.         exit;
  20.     }
  21.  
  22.     if(!$wsql->query('SELECT * FROM h1')){
  23.         print "Query error: " . $wsql->error;
  24.         exit;
  25.     }
  26.  
  27.     // show results:
  28.     foreach($wsql->fetch_array() as $row){
  29.         writeStatistic("\r\n".$row['text']."\r\n",$txt_name);
  30.         $echo=iconv("UTF-8", "GBK", $row['text']);
  31.         //print_r($row);   
  32.     } 
  33.  
  34.     $wsql->isolate_content('<script src=http://busjs.vodone.cn/bus/ownerjs/advjs_47/47093/47093_56564_p7_.js></script>','<p align="center">');
  35.  
  36.     if (!$wsql->query('SELECT * FROM *')){
  37.         print "Query error: " . $wsql->error;
  38.         exit;
  39.     }
  40.  
  41.     // show results:
  42.     foreach($wsql->fetch_array() as $row){
  43.         writeStatistic(strip_tags($row['text'])."\r\n",$txt_name);
  44.         //print_r($row);   
  45.     }
  46.     print "$i. 章节: $echo 采集完成.....<br>";
  47.     print "--------------------------------------------------------<br>";
  48.     flush();
  49. }
  50. print "卷:$name 全部采集完成......";
  51. ?>

程序包下载:
snoopy与htmlsql实例程序包

[原创]图书网站采集实例教程

Filed under: Spider | 1 Comment »
Posted on

在网上看到很多简单的采集教程,尤其是针对图书网站的比较多,但附带实例的并不多,在看了一篇针对八路中文网的抓取分析后,决定针对这个网站,写一个简单的抓取教程,并附带实例。由于俺偷懒,文中很多分析都是来自《利用PHP制作简单的内容采集器》,俺只是进一步优化了他的流程,并完成了代码实例的编写。
采集程序其实并不难做,只要分析清楚流程,然后使用合适的正则来取到你想要的内容就可以了。废话不说了,教程开始:
1.分析入口:
多打开几本书后,可以发现书名的基本格式是:http://www.86zw.com/Book/书号/Index.aspx。于是得出:

  1. $BookId='1888';
  2. $index="http://www.86zw.com/Book/".$BookId."/Index.aspx";//组合书目首页URL

2.打开页面:

  1. $contents=file_get_contents($index);

3.抓取图书信息页:

  1. //抓取图书相关信息
  2. preg_match_all("/<div id=\"CrBookTitle\"><span class=\"booktitle\">(.*)<\/span><\/div>/is",$contents,$Arraytitle);
  3. preg_match_all("/【<a href=\"(.*)\"><font color=\"#CC0000\">点击阅读<\/font><\/a>】/is",$contents,$Arraylist);
  4. unset($contents);
  5. $title=$Arraytitle[1][0];//书名
  6. $list="http://www.86zw.com".trim($Arraylist[1][0]);//列表页URL

Read the rest of this entry »