使用Python内置集合对象和内置函数filter()过滤无效书评

原创 2017-09-14 董付国 Python小屋 Python小屋

很多朋友是从编写网络爬虫开始学习Python的，一个很自然的想法是爬取书评（关于如何编写爬虫抓取书评会单独形成文章进行介绍），然后选择自己喜欢的书或者其他读者评价较高的书，这是一个非常好的思路，也是非常明智的做法。

然而，并不是每个消费者都会认真留言评论，也有部分消费者可能会复制了几个简单的句子或词作为评论。在爬取到原始书评之后可能需要进行简单的处理和过滤，这时就需要制定一个过滤的标准进行预处理，这也是数据处理与分析的关键内容之一。

在进入正题之前，首先回顾一个常识：Python集合中的所有元素是不允许重复的，非常适合用来提取唯一元素。

在下面的代码中，采用了一个最简单的规则：正常书评中，重复的字应该不会超过一定的比例。

comments = ['这是一本非常好的书，作者用心了',
            '作者大大辛苦了',
            '好书，感谢作者提供了这么多的好案例',
            '书在运输的路上破损了，我好悲伤。。。',
            '为啥我买的书上有菜汤。。。。',
            '啊啊啊啊啊啊，我怎么才发现这么好的书啊，相见恨晚',
            '书的质量有问题啊，怎么会开胶呢？？？？？？',
            '好好好好好好好好好好好',
            '好难啊看不懂好难啊看不懂好难啊看不懂',
            '书的内容很充实',
            '你的书上好多代码啊，不过想想也是，编程的书嘛，肯定代码多一些',
            '书很不错!!一级棒!!买书就上当当，正版，价格又实惠，让人放心!!! ',
            '无意中来到你小铺就淘到心意的宝贝，心情不错! ',
            '送给朋友的、很不错',
            '这是一本好书，讲解内容深入浅出又清晰明了，推荐给所有喜欢阅读的朋友同好们。']

rule = lambda s:len(set(s))/len(s)>0.5
result = filter(rule, comments)

print('原始书评：')
for comment in comments:
print(comment)

print('='*30)
print('过滤后的书评：')
for comment in result:
print(comment)

代码运行结果：

----------喜大普奔----------

1、继《Python程序设计基础》《Python程序设计（第2版）》《Python可以这样学》系列图书之后，董付国老师新书《Python程序设计开发宝典》已于2017年8月1日在清华大学出版社出版。为庆祝新书《Python程序设计开发宝典》全面上架，清华大学出版社联合“赣江图书专营”淘宝店推出特价优惠活动，《Python程序设计开发宝典》原价69元，新书上架期间超低价39.8元，可以复制下面的链接使用浏览器打开查看图书详情和购买：

https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-14464369246.84.46f16db0roWfX4&id=557107249812&rn=339cbc9df2bac424664103917dedfbd2&abbucket=8&tbpm=3

2、10月13日——15日，重庆，全国高校程序设计系列课程高级研究班，详见：全国高校程序设计系列课程高级研修班（Python）通知

3、9月22日——24日，北京，全国Python科研应用专题实操培训班通知，详见：全国Python科研应用专题实操培训班通知