技术## ifttt方面 ##
也许是ifttt最近修正了他的feed的问题,所以之前一直无法识别的rss突然可以识别了,所以我的微博
如今用的就是ifttt实现的lkong2weibo。缺点还是原来那样——更新频率太慢
python爬虫方面
之前也说到了,因为我要实现的主干网上都有现成的[微博python sdk][2]。所以主要困难集中在如何提取固定的网页标签中的内容包括:
- 书名号内的书名
- 标签内的书评
- 3
处理方式根据昨天晚上的查找大概有一下几种
- 正则表达式
- beautifulsoup
- htmlparser
其中beatifulsoup是最为方便的,因为模块里已经预设好了各种标签。
所以我主要是用beautifulsoup处理的,代码如下:
lkong2weibo
import urllib2
from bs4 import BeautifulSoup
response=urllib2.urlopen(“http://www.yousuu.com/comments/digest")#读入优书网网址
soup=BeautifulSoup(response)
print soup.find_all(‘p’)#输出所有
标签内容 但是最后还是出错了,错误如下
顺便赞一下实验楼,整个过程都是在实验楼的虚拟机中完成的,响应速度真心不错。