Filed under: PHP&MySQL | 3 Comments »
Posted on 02月 12th, 2008 由 毛毛虫
最近一直在做自己的图书站,分别使用过杰奇和读吧两套不同的系统,对于这两套系统也是又爱又恨,爱的是他们的功能强大,恨他们都同属没有开源精神的产物。呵呵,作为一名穷程序员,俺可以理解作者的苦衷,这里就不批判了。
年假期间,无事可做,翻看自己以前的采集代码,发现很多可以优化和提升的地方,就简单做了下优化,其中也使用了用户体验更加优秀的服务器推技术,这里简单的介绍下核心的函数:flush。
Read the rest of this entry »
Filed under: PHP&MySQL | 1 Comment »
Posted on 02月 2nd, 2008 由 毛毛虫
最近为自己的书站最终选择了杰奇小说连载系统,但是这个系统并不是开源的程序,无法自由修改,很是不爽,但熟悉了几天后,还是忍不住做些扩展的开发,这是我写的一个sitemap的生成程序,在这里放出来给大家用用吧。
sitemap.php
- $txt_name='sitemap.xml';
- writeStatistic_set_name($txt_name);
- $sql="select * from jieqi_article_article ";
- $db->query($sql);
- for($i=1;$i<= $db->num_rows();$i++){
- $db->next_record();
- $siteid = $db->f(siteid);
- $articleid = $db->f(articleid);
- $url = "<url>
- <loc>http://www.iobug.com/files/article/html/$siteid/$articleid/index.html</loc>
- </url>";
- writeStatistic($url,$txt_name);
- }
- $db->free();
- $over='</urlset>';
- writeStatistic($over,$txt_name);
- print "<script>alert(\"sitemap生成结束!\");</script>";
- exit;
杰奇小说连载系统sitemap生成插件下载:
杰奇小说sitemap生成插件下载
Filed under: Spider | 1 Comment »
Posted on 02月 2nd, 2008 由 毛毛虫
snoopy这个采集类库是个很好玩的东西,简单而且使用,一般的采集应付起来绰绰有余。
最近一个哥们要看盗墓笔记的全本TXT文档,让我帮他采集,想了下决定用snoopy和一个好玩的类库htmlsql来做,htmlsql第一次使用,感觉比较好玩,写SQL的感觉非常有趣,就是灵活性上不是很突出,但做这种小的采集足够了,可能是因为第一次使用这个类库,并不是很顺利,写了两个多钟头,才搞定这个采集,这里放出源码供大家下载吧,想玩玩的可以拿去参考下。
展示部分代码:
- <?php
- include_once("./snoopy.class.php");
- include_once("./htmlsql.class.php");
- require_once("./function.php");
- //防止页面超时
- set_time_limit(0);
- //生成文本文档名称
- $name="怒海潜沙";//自定义文件名(注意自己修改)
- $txt_name=$name.".txt";
- $zhangjie="nu-hai-qian-sha";//这个程序写的并不是很智能,每个章节的链接地址还要自己修改下(注意自己修改)
- $max="46";//最大采集章节数(注意自己修改)
- $wsql = new htmlsql();
- for($i=1;$i<=$max;$i++){
- $a=sprintf("%02d", $i);
- $url="http://www.daomubiji.com/$zhangjie-$a.html";
- // connect to a URL
- if (!$wsql->connect('url', $url)){
- print 'Error while connecting: ' . $wsql->error;
- exit;
- }
- if(!$wsql->query('SELECT * FROM h1')){
- print "Query error: " . $wsql->error;
- exit;
- }
- // show results:
- foreach($wsql->fetch_array() as $row){
- writeStatistic("\r\n".$row['text']."\r\n",$txt_name);
- $echo=iconv("UTF-8", "GBK", $row['text']);
- //print_r($row);
- }
- $wsql->isolate_content('<script src=http://busjs.vodone.cn/bus/ownerjs/advjs_47/47093/47093_56564_p7_.js></script>','<p align="center">');
- if (!$wsql->query('SELECT * FROM *')){
- print "Query error: " . $wsql->error;
- exit;
- }
- // show results:
- foreach($wsql->fetch_array() as $row){
- writeStatistic(strip_tags($row['text'])."\r\n",$txt_name);
- //print_r($row);
- }
- print "$i. 章节: $echo 采集完成.....<br>";
- print "--------------------------------------------------------<br>";
- flush();
- }
- print "卷:$name 全部采集完成......";
- ?>
程序包下载:
snoopy与htmlsql实例程序包
