Skip to content

SSTTTAY/douban

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

豆瓣电影评论的爬取(登录之后)

提供两个方法进行爬取: 1.使用request,向网页发送post请求的url,包含登录的表单信息。如果需要验证码,再找到验证码的连接,再次发送请求。

2.用selenium方法,驱动浏览器,进行登录。

获得网页之后,用Beautiful Soup 解析网页,获得评论信息。 通过更改发送请求的页面信息的url获得不同的页面。 注意爬取速度不要太快,因此每爬完一个页面之后需要停留2-4秒

将爬取到的评论存入本地txt文档,然后用结巴分词法将电影评论进行分割,提取排名前20的关键字制作词云。 词云的制作包括选择mask,就是词云的形状,字体,背景色等。

About

Tangshihua

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages