2020年1月

微信公众号导出的文章统计数据xlsx 文档结构如下。需要用到的数据第6行起,第1列是标题及链接,第3列是发表日期。
php方式解构excel文档已经做过了,最近都是拿python练手,顺便就试试在py中完成这个任务

excel导出公众号数据.png

下文无特别说明是python3.x代码,需要跳过弯路看正确解决方案的的直接跳到最后方案


- 阅读剩余部分 -

对自己2019年的全部博客做了分词统计,用的是python的分词组件 jieba

https://github.com/fxsjy/jieba

使用方法很简单我就略过不说了

QQ截图20200101031407.png

直接看结果,全年的口头禅或者使用的最多的词top10分别是(词,词频)。

'可以', 70
'一个', 59
'问题', 59
'这个', 59
'需要', 55
'文件', 52
'如果', 49
'下载', 45
'安装', 44
'执行', 41

还真是无趣的结果呢 (˘•ω•˘)