Twitter数据采集以及情感分析方法
我并不是杰弗里·川普(Donald Trump)的超级粉丝。严格说来,我一点也不喜爱他。殊不知,他的个人魅力是不可忽视的,他的名字一直占有着大部分报刊和社交网络。大家对他的心态是戏剧化的和多边的。他的叙述词要不是十分积极主动的,要不是十分消沉的,针对互联网收集和文本分析而言,它是一些极致的原材料。
此次科学研究的目地主要是应用Octoparse爬虫工具爬取Twitter上有关杰弗里·川普的有关文章。随后,大家应用python语言表达开展文本分析,为此来剖析群众对美国总统的观点。最终,大家应用Tableau Public开展数据可视化。
文中尤其合适下列群体:
1、想掌握怎样收集社交网络上的內容或是评价。
2、想掌握怎样运用Python开展文本分析。
最先大家开启Octoparse官方网站,免费下载官方网最新版,并依照标示进行申请注册,登陆后,再开启内嵌的Twitter简单模版。
收集的数据字段包含:
登录名
发布时间
公布內容
图片地址
Tweet连接
评价数,分享数,关注点赞数
最先在Twitter收集模版的关键字主要参数中键入"Donald Trump",随后点一下运行收集便会全自动采集数据,正如下图所显示,非常简单,我大约收集了一万好几条Twitter文章,你能尽量多的输入关键字,进而收集大量的文章,收集到文章数据信息后,将数据信息导出来为文本文档,文件命名为"data.txt"。
运用Python开展文本分析
在逐渐以前,请保证您的电脑上早已安裝Python开发工具及其文本编辑,我文章内容中应用的是Python2.7和Notepad 文本编辑。
随后,大家应用了2个感情关键字目录构成的txt文件,来剖析以前收集出来的Twitter信息内容,你能在文尾免费下载这两个文档。
这儿的念头是把txt文件中的每一个感情关键词提取到list目录中,随后测算这种关键字在一条推原文中的頻率,最终大家把相对应包括感情词的文章给记下来。
最先,把2个txt文件中的积极主动和消費感情关键字各自储存在plist和nlist的目录中。
随后,对收集出来的Twitter文章开展数据预处理,解决掉全部特殊字符(标点符号和数据等),将一条文章数据信息储存到word_list目录中。
历经数据处理方法后,数据信息只包括清理后的文章,使我们更易开展数据统计分析。事后,大家会建立三个词典:wordcountdict,wordcountpositive,and wordcountnegative。
下面,界定每一个词典,假如在Twitter数据信息中发生相对应的文章,则提升1,并存储到wordcountdict词典中。
下面得话,明确每条文章是不是包括积极主动或是消沉的感情关键字,假如包括了积极主动的感情关键字,则wordcountpositive词典关键字加1,不然确保一个同样的值。假如包括了消沉的感情关键字,wordcountnegative做同样解决。假如文章不包含一切积极主动或是消沉关键字,则未作一切解决。
文本分析:消沉或是积极主动
根据运作上边的Python脚本制作,我明白了535两个消沉关键字及其3894个积极主动关键字,储存在上面相对应的目录中,随后开启Tableau,创建了一个气泡图,以下所显示。
由图能够 看得出,许多积极主动关键字全是片面性的,仅有404种积极主动关键字被应用,最普遍得话,比如“like”、“great”和“right”,大部分关键字是基本的而且偏口语体,如“wow”和“cool”,而应用的否认关键字更为多元化,她们大多数十分宣布而且高級,最常见的是“illegal”、“lies”、“racist”。别的词句,如“delinquent”、“inflammatory”、“hypocrites”也是经常会出现的。
上边关键字与此同时也表明拥护者比改革派的文化教育水准更低,显而易见,杰弗里·川普在twiter客户中并不火爆。
汇总:
在本文中,大家提到了怎样Octoparse手机软件收集Twitter文章,大家还探讨了怎样开展数据预处理和应用Python对Twitter文章开展文本分析。针对编码的详细版本号,你能在下列链接下载。
(https://gist.github.com/octoparse/fd9e0006794754edfbdaea86de5b1a51)
参照连接:
https://medium.com/datamonsters/text-preprocessing-in-python-steps-tools-and-examples-bf025f872908
https://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html
https://github.com/jeffreybreen/twitter-sentiment-analysis-tutorial-201107/blob/master/data/opinion-lexicon-English/positive-words.txt
http://nohumanbeingisillegal.com/Home.html