⇪

全宋词爬取过程及数据分析

Posted March 07, 2017

由于某个公众号对我仓库chinese-poetry的推广，短时间大量涨粉，有人想要宋词的数据。于是最近利用零散时间对全宋词进行爬取分析，并做了简单的分析，发现了一些不得了的事情。

分析仅仅对全宋词的内容进行了关键字排名分析、宋词作者产量分析、最受欢迎的词牌名排名分析

关键字排名分析

宋人喜欢用东风，东风作为现代也会微妙，人间、何处从唐诗就开始蝉联前三. 即使到了现代，这两个词依存古风.

辛弃疾果不其然的成为两宋现存词最多的作家, 还有一些虽然产量丰富但未必是我们熟知的。

浣溪沙作为婉约豪放两派所常用的词牌，在两宋时期作为最受欢迎也是理所应当.

爬取逻辑没有做相应的系统化处理，只是简单的脚本，配置交互式界面做的操作。采用的相关技术: Python + parsel + peewee + requests + jieba

附上爬取解析脚本的逻辑:

分别保存上面两个脚本为parse.py和db.py, 然后执行以下命令

$ pip install peewee parsel requests
$ python db.py # 初始化数据库
$ python parse.py

𝔔

#个人项目