获取豆瓣收藏列表的脚本
很久很久以前,写了一个PHP脚本,用来取自己豆瓣收藏的列表,界面极其不友好,但是好歹可以用。因为PHP调试起来超级不方便,写了一个基本功能以后我已经没兴趣继续优化它了,而后这个PHP脚本也属于鸡肋,因此不知道被我丢哪个角落了。
上周日花了挺多时间写了一个Python脚本来做同样的事情。和之前不同的是,我使用的豆瓣的API,意味着我不再是解析HTML而是解析XML。
遇到几个问题。
一个是对XML的结构和Python SAX的不熟悉,代码写得超级Buggy。
第二是,对Python的全局变量如何在类里面使用没概念,犯了错误。
第三是中文的支持,这个一开始以为是Python的SAX包对Unicode支持不好,最后发现其实是因为Python专门为Unicode准备了一个unicode对象,而不是一般的字符串str对象!
代码在这里:http://www.chenyi1976.com/code/doubanlist.txt。扩展名使用txt是因为py扩展名的下载有问题,打包成zip倒也可以,不过我希望可以直接查看而不用专门下载.
做得还不好。比如失败不会重试。比如用户名必须进代码改参数而不是直接在命令行传入。很多很多的小问题。
输出是一个csv文件。可以直接用excel打开。。。它的格式是逗号分隔的CSV文件,Unicode不带BOM编码。如果直接在Excel里面打开会有乱码。如果使用NotePad++或者UltraEdit转化一下编码,从“Unicode不带BOM编码”转化为“Unicode编码”(其实就在文件头上加了三个特殊字符也就是所谓的BOM标记),然后再用Excel打开就可以直接看到中文了。
写完了感觉很好。我也强记了一些Python的东西。强记是因为下次使用时可以更方便更顺手。
另外,DF同学帮我写了一个专门取某网站图片的Python脚本,很好用,很邪恶,不解释,有疑问自己Google答案,代码在这里:http://www.chenyi1976.com/code/get_4u_pic.txt。另:本人也有部分贡献在代码中。
文章的脚注信息由WordPress的wp-posturl插件自动生成





















最新评论