1号毛驴...
2号毛驴...
3号毛驴...

Twitter数据采集以及情感分析方法

我并不是杰弗里·川普(Donald Trump)的超级粉丝。严格说来,我一点也不喜爱他。殊不知,他的个人魅力是不可忽视的,他的名字一直占有着大部分报刊和社交网络。大家对他的心态是戏剧化的和多边的。他的叙述词要不是十分积极主动的,要不是十分消沉的,针对互联网收集和文本分析而言,它是一些极致的原材料。

此次科学研究的目地主要是应用Octoparse爬虫工具爬取Twitter上有关杰弗里·川普的有关文章。随后,大家应用python语言表达开展文本分析,为此来剖析群众对美国总统的观点。最终,大家应用Tableau Public开展数据可视化。

文中尤其合适下列群体:

1、想掌握怎样收集社交网络上的內容或是评价。

2、想掌握怎样运用Python开展文本分析。

最先大家开启Octoparse官方网站,免费下载官方网最新版,并依照标示进行申请注册,登陆后,再开启内嵌的Twitter简单模版。

otocparse.png

收集的数据字段包含:

登录名

发布时间

公布內容

图片地址

Tweet连接

评价数,分享数,关注点赞数

最先在Twitter收集模版的关键字主要参数中键入"Donald Trump",随后点一下运行收集便会全自动采集数据,正如下图所显示,非常简单,我大约收集了一万好几条Twitter文章,你能尽量多的输入关键字,进而收集大量的文章,收集到文章数据信息后,将数据信息导出来为文本文档,文件命名为"data.txt"。

截图_20190416104152.png

运用Python开展文本分析

在逐渐以前,请保证您的电脑上早已安裝Python开发工具及其文本编辑,我文章内容中应用的是Python2.7和Notepad 文本编辑。

随后,大家应用了2个感情关键字目录构成的txt文件,来剖析以前收集出来的Twitter信息内容,你能在文尾免费下载这两个文档。

这儿的念头是把txt文件中的每一个感情关键词提取到list目录中,随后测算这种关键字在一条推原文中的頻率,最终大家把相对应包括感情词的文章给记下来。

最先,把2个txt文件中的积极主动和消費感情关键字各自储存在plist和nlist的目录中。

截图_20190416110317.png

随后,对收集出来的Twitter文章开展数据预处理,解决掉全部特殊字符(标点符号和数据等),将一条文章数据信息储存到word_list目录中。

2.png

历经数据处理方法后,数据信息只包括清理后的文章,使我们更易开展数据统计分析。事后,大家会建立三个词典:wordcountdict,wordcountpositive,and wordcountnegative。

3.png

下面,界定每一个词典,假如在Twitter数据信息中发生相对应的文章,则提升1,并存储到wordcountdict词典中。

5.png

下面得话,明确每条文章是不是包括积极主动或是消沉的感情关键字,假如包括了积极主动的感情关键字,则wordcountpositive词典关键字加1,不然确保一个同样的值。假如包括了消沉的感情关键字,wordcountnegative做同样解决。假如文章不包含一切积极主动或是消沉关键字,则未作一切解决。

4 (1).png

文本分析:消沉或是积极主动

根据运作上边的Python脚本制作,我明白了535两个消沉关键字及其3894个积极主动关键字,储存在上面相对应的目录中,随后开启Tableau,创建了一个气泡图,以下所显示。

截图_20190416120630.png

由图能够 看得出,许多积极主动关键字全是片面性的,仅有404种积极主动关键字被应用,最普遍得话,比如“like”、“great”和“right”,大部分关键字是基本的而且偏口语体,如“wow”和“cool”,而应用的否认关键字更为多元化,她们大多数十分宣布而且高級,最常见的是“illegal”、“lies”、“racist”。别的词句,如“delinquent”、“inflammatory”、“hypocrites”也是经常会出现的。

上边关键字与此同时也表明拥护者比改革派的文化教育水准更低,显而易见,杰弗里·川普在twiter客户中并不火爆。

汇总:

在本文中,大家提到了怎样Octoparse手机软件收集Twitter文章,大家还探讨了怎样开展数据预处理和应用Python对Twitter文章开展文本分析。针对编码的详细版本号,你能在下列链接下载。

(https://gist.github.com/octoparse/fd9e0006794754edfbdaea86de5b1a51)

参照连接:

https://medium.com/datamonsters/text-preprocessing-in-python-steps-tools-and-examples-bf025f872908

https://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html

https://github.com/jeffreybreen/twitter-sentiment-analysis-tutorial-201107/blob/master/data/opinion-lexicon-English/positive-words.txt

http://nohumanbeingisillegal.com/Home.html


相似文章列表

6000+
服务客户
100+
行业推广
70+
城市坐标
50,000+
商业价值
Ins买粉丝