疯狂的程序员's Archiver

感谢您对《疯狂的程序员》的爱护和支持,欢迎小说的读者到《疯狂的程序员》讨论区交流。
我们将定期从中评选出热心读者若干名,免费赠阅我们以后出版的图书。
请会员填写有效的邮箱,否则无法收到获奖邮件。

绝影 发表于 2008-7-13 21:19

(转)用ruby写一个爬虫程序捉取《疯狂的程序员》

最近在CSDN的一个blog上看到一篇网络小说连载《疯狂的程序员》,看了头几篇来了兴趣,就准备都弄下来放到手机上看。小说到现在连载到50多集,前面试读的几篇都是手工复制到文本文件,虽然说手工50多次ctrl+c, ctrl+v也不是特别麻烦,但学过编程的人心理就是会觉得做这档事会不爽^^ 于是就决定用ruby写个爬虫程序来搞定这个小任务。

相关链接:
ruby的html实体转换库:HTMLEntities([url=http://htmlentities.rubyforge.org/]http://htmlentities.rubyforge.org/[/url])
String.scan()文档:[url=http://www.ruby-doc.org/core/classes/String.html#M000827]http://www.ruby-doc.org/core/classes/String.html#M000827[/url]
String.gsub!()文档:[url=http://www.ruby-doc.org/core/classes/String.html#M000839]http://www.ruby-doc.org/core/classes/String.html#M000839[/url]

源代码压缩包中有两个文件,csdn_crawler.rb是视频中用到的代码,csdn_crawler2.rb是在csdn_crawler.rb基础上处理了一写额外问题的,并加入注释,方便阅读。

    * 视频下载地址:
    * ==> [url=http://www.17rumen.com/download/ruby/ruby_crawler.7z]点击这里下载ruby写爬虫程序视频教程[/url]
    * ==> [url=http://www.17rumen.com/download/ruby/ruby_crawler_src.7z]点击这里下载ruby写爬虫程序源代码[/url]
    * 解压密码:[url=http://www.17rumen.com/]www.17rumen.com[/url]

Gavin 发表于 2008-7-15 13:53

哦,哦,有没有 python的?

leisdieu 发表于 2008-7-20 01:34

初来乍到

ruby会点 下来研究研究

eardyliu 发表于 2008-7-20 14:57

这个程序好啊!

北纬31度 发表于 2008-7-23 10:57

谁写个PYTHON的

77604644 发表于 2008-9-9 12:05

谁有perl的啊,呵呵,好像中国的perl不是太时兴哦

mage 发表于 2008-12-5 10:15

先顶一↓,再看!

yaya987906 发表于 2009-1-6 10:59

`

支持楼主!顶一个
























[img]http://bbs.ccd.com.cn/images/default/sigline.gif[/img]

[color=black]走自己的路!![/color][url=http://www.wmbdw.cn/][color=black]七彩谷[/color][/url][url=http://www.xjjse.cn/][color=black]七彩谷[/color][/url][url=http://www.oolomo.com.cn/][color=black]欧莱诺[/color][/url][url=http://www.shuzy.cn/][color=black]亚马逊[/color][/url][url=http://www.ocj5.cn/][color=black]东方cj[/color][/url]

页: [1]

Powered by Discuz! Archiver 6.1.0  © 2001-2007 Comsenz Inc.