首页 > 网站 > 获取豆瓣收藏列表的脚本

获取豆瓣收藏列表的脚本

2009年9月26日 发表评论 阅读评论

很久很久以前,写了一个PHP脚本,用来取自己豆瓣收藏的列表,界面极其不友好,但是好歹可以用。因为PHP调试起来超级不方便,写了一个基本功能以后我已经没兴趣继续优化它了,而后这个PHP脚本也属于鸡肋,因此不知道被我丢哪个角落了。

上周日花了挺多时间写了一个Python脚本来做同样的事情。和之前不同的是,我使用的豆瓣的API,意味着我不再是解析HTML而是解析XML。

遇到几个问题。

一个是对XML的结构和Python SAX的不熟悉,代码写得超级Buggy。

第二是,对Python的全局变量如何在类里面使用没概念,犯了错误。

第三是中文的支持,这个一开始以为是Python的SAX包对Unicode支持不好,最后发现其实是因为Python专门为Unicode准备了一个unicode对象,而不是一般的字符串str对象!

代码在这里:http://www.chenyi1976.com/code/doubanlist.txt。扩展名使用txt是因为py扩展名的下载有问题,打包成zip倒也可以,不过我希望可以直接查看而不用专门下载.

做得还不好。比如失败不会重试。比如用户名必须进代码改参数而不是直接在命令行传入。很多很多的小问题。

输出是一个csv文件。可以直接用excel打开。。。它的格式是逗号分隔的CSV文件,Unicode不带BOM编码。如果直接在Excel里面打开会有乱码。如果使用NotePad++或者UltraEdit转化一下编码,从“Unicode不带BOM编码”转化为“Unicode编码”(其实就在文件头上加了三个特殊字符也就是所谓的BOM标记),然后再用Excel打开就可以直接看到中文了。

写完了感觉很好。我也强记了一些Python的东西。强记是因为下次使用时可以更方便更顺手。

另外,DF同学帮我写了一个专门取某网站图片的Python脚本,很好用,很邪恶,不解释,有疑问自己Google答案,代码在这里:http://www.chenyi1976.com/code/get_4u_pic.txt。另:本人也有部分贡献在代码中。

原创的话痨如需转载请注明来源:http://blog.chenyi.me/blog/10682;转载的文章我会力所能及地注明来源如有疏漏请留言指正。

文章的脚注信息由WordPress的wp-posturl插件自动生成

分类: 网站 标签:
  1. 本文目前尚无任何评论.
  1. 本文目前尚无任何 trackbacks 和 pingbacks.