Snoopy中文手册(毛毛虫翻译)

Filed under: Spider | 5 Comments »
Posted on
  1. /**
  2. * @name Snoopy手册中文版
  3. * @author 毛毛虫 wangchong1985@gmail.com
  4. * @version Snoopy - the PHP net client v1.2.2
  5. * @link http://www.wangchong.org
  6. * @since 2008-04-27
  7. */

名称:

Snoopy - the PHP net client v1.2.2

概要:

  1. include "Snoopy.class.php";
  2.     $snoopy = new Snoopy;
  3.    
  4.     $snoopy->fetchtext("http://www.php.net/");
  5.     print $snoopy->results;
  6.    
  7.     $snoopy->fetchlinks("http://www.phpbuilder.com/");
  8.     print $snoopy->results;
  9.    
  10.     $submit_url = "http://lnk.ispi.net/texis/scripts/msearch/netsearch.html";
  11.    
  12.     $submit_vars["q"] = "amiga";
  13.     $submit_vars["submit"] = "Search!";
  14.     $submit_vars["searchhost"] = "Altavista";
  15.        
  16.     $snoopy->submit($submit_url,$submit_vars);
  17.     print $snoopy->results;
  18.    
  19.     $snoopy->maxframes=5;
  20.     $snoopy->fetch("http://www.ispi.net/");
  21.     echo "<PRE>\n";
  22.     echo htmlentities($snoopy->results[0]);
  23.     echo htmlentities($snoopy->results[1]);
  24.     echo htmlentities($snoopy->results[2]);
  25.     echo "</PRE>\n";
  26.  
  27.     $snoopy->fetchform("http://www.altavista.com");
  28.     print $snoopy->results;

描述:

Snoopy是什么?

Snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。

Snoopy的一些特点:

* 方便抓取网页的内容
* 方便抓取网页的文本内容 (去除HTML标签)
* 方便抓取网页的链接
* 支持代理主机
* 支持基本的用户名/密码验证
* 支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
* 支持浏览器转向,并能控制转向深度
* 能把网页中的链接扩展成高质量的url(默认)
* 方便提交数据并且获取返回值
* 支持跟踪HTML框架(v0.92增加)
* 支持再转向的时候传递cookies (v0.92增加)
Read the rest of this entry »

仿QQ等级显示函数

Filed under: PHP&MySQL | No Comments »
Posted on

开头先引述下QQ等级的算法:
设当前等级为N,达到当前等级最少需要的活跃天数为D,当前活跃天数为Dc,升级剩余天数为Dr,则:

mimetex.gif

从而推出:

mimetex1.gif

好了,引述完成,懒得写字了,贴出代码:

  1. <?php
  2. /**
  3. *
  4. * showRank.php
  5. * QQ等级输出类库
  6. * @author 毛毛虫 <wangchong1985@gmail.com>
  7. * @version 1.0 2008-04-09
  8. *
  9. */
  10. class showRank {
  11.    
  12.     /**
  13.      * 第一级图片显示字段
  14.      */
  15.     public $mImage1;
  16.    
  17.     /**
  18.      * 第二级图片显示字段
  19.      */
  20.     public $mImage2;
  21.    
  22.     /**
  23.      * 第三级图片显示字段
  24.      */
  25.     public $mImage3;
  26.  
  27.     /**
  28.      * 构造函数:传入图片值
  29.      * @return
  30.      */
  31.     function __construct($pImage1 = '',$pImage2 = '',$pImage3 = '') {
  32.         $this->mImage1 = $pImage1;
  33.         $this->mImage2 = $pImage2;
  34.         $this->mImage3 = $pImage3;
  35.     }
  36.    
  37.     /**
  38.      * 根据活跃天数计算用户等级。(模仿QQ的升级方式)
  39.      * @return int
  40.      * @access public
  41.      */
  42.     function get_rank($pScore) {
  43.         $temp = $pScore+4;
  44.         $tRank = sqrt($temp)-2;
  45.         $tRank = floor($tRank);
  46.         return $tRank;
  47.     }
  48.    
  49.     /**
  50.      * 用户等级标志,根据用户等级显示用户标志
  51.      * 仿照QQ等级的四进制显示
  52.      * @return str
  53.      * @access public
  54.      */
  55.     function get_score($pScore) {
  56.         $str = '';
  57.         $tRank = $this->get_rank($pScore);//根据分数取得等级
  58.         $tPicNum = base_convert($tRank,10,4);//转化为四进制
  59.         $tPicNum = strrev($tPicNum);//翻转字符串
  60.         $tArray = str_split($tPicNum);//转化为数组
  61.         $tNum = count($tArray);
  62.         if($tNum<=3) {
  63.             for($i=$tNum-1;$i>=0;$i--){
  64.                 switch($i){
  65.                     case '0':
  66.                         for($j=0;$j<$tArray[$i];$j++){
  67.                             $str .= $this->mImage1;
  68.                         }
  69.                     break;
  70.                     case '1':
  71.                         for($j=0;$j<$tArray[$i];$j++){
  72.                             $str .= $this->mImage2;
  73.                         }
  74.                     break;
  75.                     case '2':
  76.                         for($j=0;$j<$tArray[$i];$j++){
  77.                             $str .= $this->mImage3;
  78.                         }
  79.                     break;
  80.                     default:
  81.                         //$str = ;
  82.                     break;
  83.                 }
  84.             }
  85.         }else {
  86.             $str =     $this->mImage3.$this->mImage3.$this->mImage3.$this->mImage3;
  87.         }
  88.         return $str;
  89.  
  90.     }
  91.  
  92. }
  93. ?>

Read the rest of this entry »

PHP实现‘服务器推’(flush函数使用)

Filed under: PHP&MySQL | 3 Comments »
Posted on

最近一直在做自己的图书站,分别使用过杰奇和读吧两套不同的系统,对于这两套系统也是又爱又恨,爱的是他们的功能强大,恨他们都同属没有开源精神的产物。呵呵,作为一名穷程序员,俺可以理解作者的苦衷,这里就不批判了。
年假期间,无事可做,翻看自己以前的采集代码,发现很多可以优化和提升的地方,就简单做了下优化,其中也使用了用户体验更加优秀的服务器推技术,这里简单的介绍下核心的函数:flush。
Read the rest of this entry »

杰奇小说连载系统sitemap生成插件

Filed under: PHP&MySQL | No Comments »
Posted on

最近为自己的书站最终选择了杰奇小说连载系统,但是这个系统并不是开源的程序,无法自由修改,很是不爽,但熟悉了几天后,还是忍不住做些扩展的开发,这是我写的一个sitemap的生成程序,在这里放出来给大家用用吧。
sitemap.php

  1. $txt_name='sitemap.xml';
  2. writeStatistic_set_name($txt_name);
  3. $sql="select * from jieqi_article_article ";
  4. $db->query($sql);
  5. for($i=1;$i<= $db->num_rows();$i++){
  6.     $db->next_record();
  7.     $siteid = $db->f(siteid);
  8.     $articleid = $db->f(articleid);
  9.     $url = "<url>
  10.         <loc>http://www.iobug.com/files/article/html/$siteid/$articleid/index.html</loc>
  11.     </url>";
  12.     writeStatistic($url,$txt_name);
  13. }
  14. $db->free();
  15. $over='</urlset>';
  16. writeStatistic($over,$txt_name);
  17. print "<script>alert(\"sitemap生成结束!\");</script>";
  18. exit;

杰奇小说连载系统sitemap生成插件下载:
杰奇小说sitemap生成插件下载

snoopy与htmlsql实例(盗墓笔记采集)

Filed under: Spider | 1 Comment »
Posted on

snoopy这个采集类库是个很好玩的东西,简单而且使用,一般的采集应付起来绰绰有余。
最近一个哥们要看盗墓笔记的全本TXT文档,让我帮他采集,想了下决定用snoopy和一个好玩的类库htmlsql来做,htmlsql第一次使用,感觉比较好玩,写SQL的感觉非常有趣,就是灵活性上不是很突出,但做这种小的采集足够了,可能是因为第一次使用这个类库,并不是很顺利,写了两个多钟头,才搞定这个采集,这里放出源码供大家下载吧,想玩玩的可以拿去参考下。
展示部分代码:

  1. <?php
  2. include_once("./snoopy.class.php");
  3. include_once("./htmlsql.class.php");
  4. require_once("./function.php");
  5. //防止页面超时
  6. set_time_limit(0);
  7. //生成文本文档名称
  8. $name="怒海潜沙";//自定义文件名(注意自己修改)
  9. $txt_name=$name.".txt";
  10. $zhangjie="nu-hai-qian-sha";//这个程序写的并不是很智能,每个章节的链接地址还要自己修改下(注意自己修改)
  11. $max="46";//最大采集章节数(注意自己修改)
  12. $wsql = new htmlsql();
  13. for($i=1;$i<=$max;$i++){
  14.     $a=sprintf("%02d", $i);
  15.     $url="http://www.daomubiji.com/$zhangjie-$a.html";
  16.     // connect to a URL
  17.     if (!$wsql->connect('url', $url)){
  18.         print 'Error while connecting: ' . $wsql->error;
  19.         exit;
  20.     }
  21.  
  22.     if(!$wsql->query('SELECT * FROM h1')){
  23.         print "Query error: " . $wsql->error;
  24.         exit;
  25.     }
  26.  
  27.     // show results:
  28.     foreach($wsql->fetch_array() as $row){
  29.         writeStatistic("\r\n".$row['text']."\r\n",$txt_name);
  30.         $echo=iconv("UTF-8", "GBK", $row['text']);
  31.         //print_r($row);   
  32.     } 
  33.  
  34.     $wsql->isolate_content('<script src=http://busjs.vodone.cn/bus/ownerjs/advjs_47/47093/47093_56564_p7_.js></script>','<p align="center">');
  35.  
  36.     if (!$wsql->query('SELECT * FROM *')){
  37.         print "Query error: " . $wsql->error;
  38.         exit;
  39.     }
  40.  
  41.     // show results:
  42.     foreach($wsql->fetch_array() as $row){
  43.         writeStatistic(strip_tags($row['text'])."\r\n",$txt_name);
  44.         //print_r($row);   
  45.     }
  46.     print "$i. 章节: $echo 采集完成.....<br>";
  47.     print "--------------------------------------------------------<br>";
  48.     flush();
  49. }
  50. print "卷:$name 全部采集完成......";
  51. ?>

程序包下载:
snoopy与htmlsql实例程序包