update:lkong2weibo

技术## ifttt方面 ##
也许是ifttt最近修正了他的feed的问题,所以之前一直无法识别的rss突然可以识别了,所以我的微博
如今用的就是ifttt实现的lkong2weibo。缺点还是原来那样——更新频率太慢

python爬虫方面

之前也说到了,因为我要实现的主干网上都有现成的[微博python sdk][2]。所以主要困难集中在如何提取固定的网页标签中的内容包括:
  1. 书名号内的书名
  2. 标签内的书评
  3. 3
    中间的评分3

处理方式根据昨天晚上的查找大概有一下几种

  1. 正则表达式
  2. beautifulsoup
  3. htmlparser

其中beatifulsoup是最为方便的,因为模块里已经预设好了各种标签。
所以我主要是用beautifulsoup处理的,代码如下:

lkong2weibo

import urllib2
from bs4 import BeautifulSoup

response=urllib2.urlopen(“http://www.yousuu.com/comments/digest")#读入优书网网址

soup=BeautifulSoup(response)

print soup.find_all(‘p’)#输出所有

标签内容

但是最后还是出错了,错误如下
错误

顺便赞一下实验楼,整个过程都是在实验楼的虚拟机中完成的,响应速度真心不错。