很多朋友对于qq软件管理网站源码分享下载和qq软件官网不太懂,今天就由小编来为大家分享,希望可以帮助到大家,下面一起来看看吧!
本文选取2018年1月1日~1月31日QQ群聊数据
利用Python做文本可视化分析
首先要获取QQ群聊的文本数据
而爬虫可以很好的实现网页数据的爬取
一般爬取数据流程如下所示
分为网站请求、伪装、解析、存储四个过程
更为详细的爬取流程如下所示
需要添加一些规则
本文所使用的文本数据
是我从QQ电脑端后台导出的
导出文本数据后
编写程序,调试代码,做可视化分析
详细代码如下所示
日期\ndefget_date(data):\n39;\\d{4}-\\d{2}-\\d{2}&天\ndays=[date[-2:]fordateindates]\nplt.subplot(221)\nsns.countplot(days)\nplt.title(&39;)\n39;WeekDays&时间\ndefget_time(data):\ntimes=re.findall(r&39;,data)\n39;06&39;07&39;08&39;09&39;10&39;11&39;12&39;13&39;14&39;15&39;16&39;17&39;18&39;19&39;20&39;21&39;22&39;23&39;00&39;01&39;02&39;03&39;04&39;05&39;Hours&词云\ndefget_wordclound(text_data):\nword_list=[&34;.join(jieba.cut(sentence))forsentenceintext_data]\nnew_text=&39;.join(word_list)\npic_path=&39;\nmang_mask=imread(pic_path)\nplt.subplot(224)\nwordcloud=WordCloud(background_color=&34;,font_path=&39;,\nmask=mang_mask,stopwords=STOPWORDS).generate(new_text)\nplt.imshow(wordcloud)\nplt.axis(&34;)\n39;\\d{4}-\\d{2}-\\d{2}.*?\\(\\d+\\)\\n(.*?)\\n\\n&39;新建文本文档.txt'\nwithopen(filename)asf:\ndata=f.read()\nget_date(data)\nget_time(data)\nget_content(data)\nplt.show()
做出文本可视话图后,可以得出如下结论
在2018年1月1日~1月31日统计180班群聊中
1月2日这一天群聊次数最多
每周的星期二群聊次数做多
每天的16时群聊次数最多
做词云图发现
“全体成员”出现的词频最多
好了,本文到此结束,如果可以帮助到大家,还望关注本站哦!
