网络评论情感可视化技术方法及工具研究*
1 引 言
网络评论情感分析方法主要针对网络用户在线评论信息所表达的评论对象及其情感极性和情感强度进行自动分析。通过情感分析, 对评论者的褒贬态度、意见进行判断或评估, 从而了解网络用户对某事件、某观点或某商品的情感态度, 挖掘数据中隐藏关系、趋势和主题, 帮助研究人员发现新的知识和见解。在网络评论情感分析过程中, 可视化方法不仅作为一种展现情感分析结果的主要方法被广泛应用, 更是一种从数据到知识的探索过程, 为人们洞察数据特点、产生可能的猜测并不断验证猜测、总结新的知识提供帮助。
人类从外界获得的信息约有80%以上来自于视觉系统, 当大数据以直观的、可视化的图形形式展示在分析者面前时, 分析者往往能够一眼洞悉数据背后隐藏的信息并转化知识以及智慧[1]。将用户评论情感数据通过丰富的图形或图像进行内容揭示, 可以使情感分析的结果更易被理解, 同时能够更加有效地被应用和传播, 也是帮助人们洞察数据隐含内容和隐含关系的重要手段。当前, 越来越多的网络用户在社交网站、电商网站以及门户网站等直接对某个热点事件、商品或服务发表评论。网络评论情感可视化是情感可视化的重要组成部分, 已成为情感分析和可视化技术领域的研究热点, 许多学者对网络评论情感可视化进行了多种有益尝试和研究。本文通过对近年国内外网络评论情感分析可视化的技术方法研究的相关文献进行调研, 对各种网络评论情感可视化方法和工具进行梳理, 探讨网络评论情感可视化技术方法发展的主要趋势, 以期为网络评论情感可视化相关研究及可视化工具选择提供参考。
2 网络评论情感可视化过程及数据模型
网络评论情感可视化是将评论文本抽象量化的过程, 通过可视化将量化的数据转换为受众的直观感受。网络评论情感可视化过程可归纳为数据采集、数据预处理、情感分析、数据模型判别和情感可视化5个阶段[2,3,4,5], 如图1所示。
(1) 数据采集阶段利用网络数据抓取技术, 如开源爬虫程序或工具, 从网络上获取原始评论数据。
(2) 数据预处理阶段主要任务包括: 剔除噪音数据, 过滤数据等数据预处理操作; 提取文本数据的多维度属性(时间、空间、用户属性等)和情感特性, 按照属性分类对数据进行多粒度划分。
(3) 情感分析阶段基于情感词典方法或基于机器学习方法来提取评论文本的情感特性[6], 通过层次计算模型对文本进行综合层次分析。
(4) 数据模型判别阶段根据分析需求和情感极性分析结果进行数据模型判别和构建, 以便选择基于特定数据模型的可视化呈现技术。
(5) 情感可视化阶段包括个人化情感可视化和社会化情感可视化[7], 个人化情感可视化对用户属性进行分析, 结合时间和地理空间要素, 展示用户情感的波动趋势; 而社会化情感可视化则基于时间、空间、热词、用户属性、事件属性、传播属性等特性, 展示不同特性下群体用户对热点事件的观点态度变化趋势。
在上述网络评论情感可视化过程中, 数据模型(Data Model)是数据特征的抽象, 也是情感可视化方法选择的重要依据。情感分析的数据模型可分为三个层次[8]:
①词汇层次, 如“词袋”(Bag of Words[9], BOW)、N-Gram和词频向量(Word Frequency Vector)等。BOW模型是一个无序的文档表示, 可用来表示图像, 被认为是基于独立特征的直方图表示; N-gram模型可用来在文本中存储空间等信息; 词频向量是利用词频表现文本特征, 通过TF-IDF算法可筛选出频次较高的特定关键词。
②句法层次, 如树图(Tree Diagram)等。树图是一种用来表示层次结构数据的抽象数据类型, 通常每个节点都附有相应的值。
③语义层次, 如面向网络数据模型(Network Oriented Data Model)、多面实体关系数据模型(Multifaceted Entity-Relational Data Mode)等。多面实体关系数据模型是一种更复杂的数据模型, 为了帮助情感分析和可视化, 可将数据分解为几个关键的元素, 如实体、关系、小平面(Facet)等。将评论文本转换成多面实体关系数据模型, 通常需要经过面分割、实体抽取、关系构建、时间重新排序等处理程序。基于不同时间采集的数据而生成的多面实体数据结构, 可以捕捉到数据随时间的变化情况, 通常用数据的时间趋势特性来描述在过去的时间里实体和关系的变化趋势。
在选择可视化呈现技术时, 研究者们主要依据情感极性分析所构建的数据模型来进行选择。对于不同数据模型的情感可视化技术选择总结如表1所示。
分类数据模型可视化技术词汇层次词袋、N-Gram、词频向量词云图、散点图、气泡图、雷达图等句法层次树图模型单词树图、网络图语义层次面向网络数据模型TextFlow[10]、网络图多面实体关系数据模型桑基图、主题河流图、
IN-SPIRE[11]
新窗口打开
3 网络评论情感可视化技术方法
文本可视化技术可分为三个主要的部分: 文本相似度可视化技术; 文本内容可视化技术; 情感可视化技术[8]。其中, 带有情感色彩的主观性评论文本情感可视化, 主要反映用户对于不同目标对象的情感极性, 以及其随时间推移的变化。虽然文本可视化的一般性技术和工具在情感可视化领域得到广泛的应用, 但情感可视化技术有着自身的特点, 不完全等同于一般性文本可视化技术, 其自有的一些研究元素如情感极性、情感维度、情感分歧度等, 在选择具体的可视化技术和工具对其进行展示时, 将有不同的考虑。
早期的网络评论情感分析可视化技术主要通过简单的图形实现可视化呈现[12,13]。随着可视化技术应用的不断发展, 情感可视化已不仅仅是数据的最终呈现。找出数据之间关键、独特的关联性, 以实现信息的传达和双向沟通, 发现数据中新的信息, 更是情感可视化非常关键的作用。近年来, 社交网络研究的快速发展有力推动了社交网络情感分析可视化的发展。网络评论情感可视化技术方法的研究[14,15,16,17,18]主要具有以下几方面特点:
(1) 直观化: 更直观、形象地呈现数据;
(2) 关联化: 挖掘、突出呈现数据之间的关联;
(3) 艺术化: 增强呈现的艺术效果;
(4) 交互性: 智能、交互性强的动态可视化, 实现用户与数据的交互, 具有实时性与互动操作性。
通过分析相关文献, 本文将主要的网络评论情感可视化技术方法总结为基于词语的情感可视化技术[4-5, 19]、基于主题的情感可视化技术[17]和基于时空的情感可视化技术[14-16, 18]。
3.1 基于词语的情感可视化技术
基于词语的情感可视化的对象可以是关键词、句子、短文本、长文本和篇章, 而网络评论语料大多是短文本结构, 评论文本内容信息蕴含了人们对某一事件或商品的主观喜好、赞赏等情感信息, 利用数据挖掘技术可以抽取文本中带有情感色彩的情感词汇和关系, 并以简洁直观的图表形式展示给读者。基于词频统计可视化方法可用于提取网络评论中的高频词汇, 从中发现用户关注的重点信息和情感的侧重因素。
基于词语的情感可视化技术多采用统计图表以实现网络评论情感可视化展示, 如条形图、折线图、饼图、气泡图、散点图、网络图、词云图和雷达图等。词云图是词频可视化最典型的形式, 主要根据情感词汇出现的频次, 预设一定的规律和法则对其进行排布。笔者使用词云图对京东商城iPhone 6手机用户评论内容情感分析结果进行可视化呈现, 如图2所示, 正向评论中大部分用户认为iPhone6手机“不错”, 感到“满意”; 而负面评论中大部分用户认为价格贵, 其次是卡、发热等问题。
笔者使用Tableau[20]实现iPhone6手机用户对商品特征属性所表达的情感倾向可视化, 如图3所示, 圆形越大代表该属性关注度越高。可见, 用户最关注的是外观, 其次是价格和性能。
由于大数据的发展, 仅使用统计图表、词云图等单一、静态的可视化方式已很难对复杂数据进行全面的展示。
3.2 基于主题的情感可视化技术
基于主题的可视化常用于探索和发现学科热点、演变和趋势, 目的是从大规模文本中发现特定的一个或者多个主题领域, 并发现主题领域之间的关系[19]。在网络评论情感分析可视化技术领域, 多用于社交网络上追踪、分析大型事件中观点情感爆发、传播, 以展示某个主题发展或衰落过程[21]。如主题河流图的形式, 通过河流宽度表示某个主题在对应时刻的热度来展示该主题的发展和衰落。不同类型的意见领袖用不同颜色的线条穿插在不同河流中隐喻其产生的影响力, 线条的分裂和合并表示意见领袖的关注点在不同主题的分裂与合并。借助主题河流图对Twitter网站上2011年9月美国发生的“占领华尔街”运动主题竞争进行可视化展示[17], 如图4所示。图4上方是整个运动期间主题竞争发展情况, 在前两周内抗议主题在稳定发展, 在10月15日至22日迅速达到顶峰, 在22日之后缓慢衰减; 下方的关键词词云图, 展示了在事件活跃期间的特定时间点热点关键词的变化; 中间的饼图展示了特定时间点政客、媒体和草根用户三类群体在事件的讨论中影响力的占比情况。
图4 “占领华尔街”运动期间Twitter网站上 主题竞争可视化展示
3.3 基于时空的情感可视化技术
时间和空间维度已成为网络评论文本情感分析的重要属性。为了帮助研究者更深层次理解情感分析的数据结果, 发现其隐含的内在关系, 包含时间信息的情感可视化受到越来越多的关注, 同时产生了许多更抽象、复杂图形的可视化表现方式。同样, 通过对包含地理信息的用户评论数据进行情感分析, 可以将结果以视觉地图的形式呈现, 能直观地表现出评论情感在空间维度上展现的规律。
(1) 基于时间维度的情感可视化技术
基于时间维度的情感可视化是对带有时间标签信息的大量评论文本数据, 按照对应的时间轴进行可视化展示。代表性的可视化技术有时间隧道图、主题河流图、桑基图等。
时间隧道图(Time Tunnel Representation)是由Wang等[16]在基于时间维度进行Twitter数据情感分析可视化时提出的, 模型的可视化效果示意图如图5所示。在该可视化效果中, 将情感与时间维度结合, 展现的信息包括时间维度信息、不同情感标签的情感分类、每个时间圆环中不同情感极性的用户情感强度及对应的推文数量。
主题河流图(ThemeRiver)可用来表示事件或主题情感等在一段时间内流动和变化情况, 可读性较强, 通过借用河流的隐喻, 连贯、细致地展现了主题随时间的变化, 使读者利用直观的流式图形迅速把握海量信息的发展脉络。如TextFlow项目[10](见图6)可展现多个主题之间的合并, 或者一个主题分裂成多个主题的情况。
其中, 关键词被抽象成蓝色的曲线, 线的粗细表示关键词的热度; 多个不同的关键词组成不同的主题流, 使用不同的颜色表示, 河流的宽窄表示主题包含的关键词的丰富程度; 主题之间根据关键词的演变会有主题产生、主题合并及主题分解等多种模式; 主题流中会形成事件, 通过直观地观察河流的流动走势, 可以发现其中的关键事件及对应的时间、涉及的关键词等信息, 进而挖掘主题的演变规律。
桑基图(Sankey Diagram)是一种特定类型的流程图, 因1898年Sankey绘制的“蒸汽机的能源效率图”而闻名[22], 类别之间连接的分支宽度表示不同类别之间的流量数据大小, 其抽象性的流动使得情感分析的数据展示效果更为直观。笔者使用数据可视化软件BDP[23]绘制了特定用户群体的情感极性随时间的变化流向桑基图(见图7), 通过观察用户群体极性随时间的流动变化, 可以迅速发现流量突变或异常的时间点, 并对这些异常点进行更深入的探索和分析。
(2) 基于空间维度的情感可视化技术
基于空间维度的情感可视化主要是对含有空间维度信息的大量的网络评论数据, 绘制情感地图, 令数据呈现效果更加直观。
笔者抽取京东商城中包含用户所在省市地理信息的iPhone6商品用户评论信息, 使用R[24]绘制评论情感地图, 如图8所示。黄色气泡代表该城市用户评论的积极情感, 橙色气泡代表消极情感, 气泡越大该城市发表消极或者积极评论的用户比例越高。可见, 中西部地区的用户发表的消极评论较少, 东部省份如江浙地区用户发表消极评论的比例较高。
由于评论文本常常蕴含着时空多个层面的信息, 为了进一步挖掘深层次的信息, 相关研究采用时间和地理信息相结合的情感可视化技术方法, 如耳语(Whisper)[25], 使用向日葵作为隐喻, 表现评论文本信息传播时的时空特点; Twitter Mood[26]利用不同颜色代表不同的心情, 表现美国各州Twitter用户的情感浮动情况。
4 网络评论情感可视化工具
目前实现网络评论情感可视化的工具有很多种类, 笔者依据可视化工具的交互和定制特征将其总结分为三大类: 静态可视化类、交互式可视化类及支持编程可视化类。
4.1 静态可视化类
数据的静态可视化是对静态无交互性或无动态变化数据的可视化, 直接呈现出数据的基本信息和概貌, 是最基础和常用的方法。Excel[27]是一款应用最广泛的数据报表统计和图表可视化软件, 其展现效果简单易懂, 但步骤繁琐。Wordle[28]是制作词云图常见的实现方案, 特点是通过调整关键词在视觉空间的填充路径, 提高其外观艺术性, 如图2即是笔者使用Wordle绘制的词云图。Tableau[20]是一款用于快速数据分析、可视化和共享信息的商业桌面产品, 其特点是图表美观、界面简单易操作, 支持图表自定义并且数据可视化效率较高。Visually[29]可用于创建自定义的共享信息图、视频以及互动体验, 展现形式灵活并且包含很多创新元素, 主要为品牌营销领域提供服务。静态的可视化方式缺乏创新性、不利于激发读者兴趣。
4.2 交互式可视化类
数据的交互式可视化是通过人机交互的图形界面对数据进行实时操作和监测。用户可以通过界面展示多维数据或从不同维度展示同一部分数据, 具有实时性与互动操作性, 可自由探索感兴趣的数据。Crossfilter[30]是一个用来展示大型数据集的JavaScript库, 应用于交互式GUI图形图表, 支持快速交互, 主要用来构建既是图表、又是互动图形用户界面的数据分析程序。Prefuse[31]是一组用于创建丰富的交互式数据可视化的软件工具, 并且支持数据建模、动画、动态查询、综合搜索和数据库连接, 易集成到Java Swing应用程序或Web Applet。D3[32](数据驱动文件)是一种支持SVG渲染的JavaScript库, 应用于复杂的可视化图形, 复杂的交互、可视化效果较好, 是近年来较受欢迎的数据可视化工具。ECharts[33]即商业级数据图表, 是一个纯JavaScript的图表库, 可以流畅地运行在PC和移动设备上, 兼容当前绝大部分浏览器, 提供直观、生动、可交互、可高度个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验, 赋予用户对数据进行挖掘、整合的能力。
4.3 支持编程可视化类
支持编程可视化类具有“编程+工具”的双重属性, 具有处理大数据的能力。目前大多数设计新颖、独特的数据可视化图都可以通过代码和软件工具实现。用户还可以通过支持编程技术的可视化工具开发出各种情感可视化分析工具。
目前具有开源的前端可视化工具, 一般以JavaScript引入的形式, 使用Script 标签直接嵌入自己的网页中, 或在工程中直接调用开发者提供的API。例如Google Chart[34]是Google提供的在线数据可视化工具, 为大数据自动生成动态统计图。它提供了大量现成的图标类型, 从简单的线图表到复杂的分层树图等; 还内置了动画和用户交互控制。Weka[35]是基于Java环境下开源的机器学习以及数据挖掘软件, 集合了大量能承担数据挖掘任务的机器学习算法, 包括对数据进行预处理, 分类, 回归、聚类、关联规则以及在新的交互式界面上的可视化。R是一套完整的数据处理、计算和制图软件系统, 主要用于统计分析、绘图以及数据挖掘, 提供了丰富的图形可视化包用于绘制数据图表。 Processing[36]是一种开源的编程语言, 是Java语言的延伸, 语法简易, 有大量实例和代码。
网络评论情感可视化工具很多, 每一种工具都有自身的特点, 根据其使用的分析技术、设计理念和交互功能, 能够在某一方面形象地展示数据的内容、结构、关系。笔者以京东商城iPhone6手机用户评论为例, 抓取iPhone6手机用户评论数据, 经清洗后共获得2 482条有效评论数据。用R绘制iPhone6用户商品特征属性情感分析的雷达图(见图9), 与同样表达iPhone6用户商品特征属性情感分析的气泡图(见图3)比较, 图9动态直观地呈现商品属性正向和负向情感占比情况。鼠标悬停时会动态显示该扇区代表的属性和对应的比例, 如性能(Performance)的积极评论比例为91.27%。
笔者使用Many Eyes[37]绘制了显示不同地区iPhone6手机用户评论的积极情感倾向的圆形放射图, 如图10所示。其中半径越长代表该地区用户评论的积极情感倾向越明显, 所反映的各地区用户评论的积极情感倾向高低与正负情感地图(见图8)基本一致, 但图10无法同时反映用户积极和负面的情感倾向, 且不能体现地区在地理位置上的关系。相比之下, 正负情感地图可视化效果更加直观和全面。
不同类别的网络评论情感可视化工具的特点概括如表2所示。
数据可视化类别关键任务主要特点相关工具静态可视化类进行数据静态呈现, 使数据具有更强的可读性快速、图表资源丰富、应用广Excel、iCharts、Wordle、Tableau、
Visually等交互式可视化类实现交互功能, 使数据更加生动界面与数据融为一体, 同步更新Crossfilter、D3、Prefuse、EChart、
Many Eyes等支持编程可视化类处理大规模数据同时满足数据分析和可视化需求Weka、R、Processing、Google Chart、
iCharts[38]等
新窗口打开
5 网络评论情感可视化的发展趋势
文本可视化分析方法被广泛应用于网络评论情感分析领域, 随着技术的发展, 其方法和技术、工具在实践中得到不断发展和创新, 主要有如下的发展趋势:
5.1 从单一图形到多层面图形可视化
静态情感可视化中常用的统计和图表可视化软件, 呈现的图形多为单一图形, 表现情感倾向的某个特征。如传统的词云图, 根据情感关键词出现的频率进行可视化, 忽略文本句子结构关系和时间的属性。在社交网络上存在大量重复的短文本, 同时也蕴含着宝贵的信息, 为了深入挖掘有用的信息, 一些研究尝试将词云图与时间相结合、在词云图中添加树形图等, 进行多层面图形的可视化呈现。如Cui等[39]将词云图和折线图相结合, 以标记不同的颜色表示单词随时间的变化, 并将每个时间点的词云图与一个折线图相关联。Hu等[40]运用一种新颖的文本可视化技术SentenTree对社交网站中文本进行可视化分析。在传统的词云图基础上添加了树形结构, 保持原始文本上下文的关系, 进一步展示高频词的句子结构信息, 如图11所示, 目的是快速为用户提供文本内容的全局概览信息。
图11 2014年世界杯第一个进球时Twitter数据SentenTree可视化效果图
5.2 从单一可视化到混合可视化
在可视化呈现上, 情感分析研究初期多采用单一的可视化呈现形式如散点图、折线图、瀑布图等对情感分析的结果进行展示, 新的研究更倾向于使用多种可视化的图形技术相结合, 更直观和全面地呈现多维的信息。Xu等[17]研究了基于Twitter的主题事件的情感可视化的方法, 运用主题河流图、关键词云图和饼图相结合, 展示主题的发生、成长、分解、合并、衰减和热点, 以及政客、媒体、草根用户三类群体在事件中所起作用的变化, 见图4。Cao等[41]运用SocialHelix系统进行社交网站上的主题和事件的情感分析, 使用独特的DNA双螺旋形式对用户观点的情感分歧度进行可视化展现。2015年, Zhao等[18]利用一款针对个人的社交网络多维情感分析工具PEARL, 基于个人社交网络数据, 监测不同时间个人情绪的波动, 如图12所示。该工具将情感分为5种类型, 并用不同的颜色表示, 在情绪强度、主题多个层次进行可视化展示, 绘制总体的情绪波动曲线、情感河流图, 对于重要的关键情感转折点, 除了展示原始的Twitter评论数据以外, 还绘制对应的词云图、情感对象的情感极性占比气泡图等, 交互探索分析一个人的情绪随时间的变化情况。
5.3 从历史可视化到预测可视化
情感可视化已越来越广泛地应用于如股市行情、政治事件、群体事件、流行疫情、电影票房、商品销量、个人情绪倾向等多种领域的预测活动。Joseph等[42]使用条形图展现投资者的股票检索行为的情感系数, 进而绘制预测股票未来涨跌走势的折线图。Lampos等[43]提取Twitter等社交网站上每天产生的大量与流行病症相关的内容的情感属性, 绘制不同地区的情感值折线图, 进而对流行病疫情爆发的时间和地区进行预测和定位。EI-Assady等[44]采用一种动态运动的可视化方法(ConTovi)分析多方会谈中各方的行为模式。通过统计每个发言人的语言, 并抽取相关的文本情感特征, 探索每个发言人的观点和态度随时间推移的变化, 以帮助有关研究人员预测公众对事件观点的动态变化走势。
Kase等[45]从大型社交网站数据中提取数据并直观呈现社交情感主题, 用于军事上的反美情绪预测。通过对被监测者在社交网站上的聊天文本内容进行情感分析, 定量地预测其对某个主题方面的情感倾向, 并进行可视化呈现。如图13所示, 该系统由4个部分组成: 被监测者的社交主题监测; 使用条形图显示被监测者在一段时间内平均情感倾向值; 使用气泡图和条形图展现不同的社交平台的发文数量情况; 使用散点图呈现具体每条聊天文本的情感倾向监测情况。
图13 MiNPAC “Community Pulse Dashboard”系统社交情感主题监测可视化效果
6 结 论
情感可视化是情感分析和可视化技术领域的研究热点。本文通过综述国内外情感分析和可视化的技术, 探讨网络评论情感可视化的技术方法。依据网络评论情感分析可视化技术方法特点, 将其归纳为基于词语的情感可视化技术、基于主题的情感可视化技术和基于时空的情感可视化技术。依据可视化工具的交互和定制特征, 将其总结为静态可视化类、交互式可视化类以及支持编程可视化类三种类型, 并从关键任务、主要特点、相关工具等方面对不同类别的可视化工具特点进行系统梳理。最后, 对当前网络评论情感可视化的发展趋势归纳总结为: 从单一图形到多层面图形可视化, 从单一可视化到混合可视化及从历史可视化到预测可视化。
随着情感可视化技术方法和工具的不断发展, 网络评论情感可视化将逐步改善其分析工具的易用性, 拓展其分析技术方法的应用范围, 进一步提高情感分析可视化呈现的可靠性和科学性。
作者贡献声明
徐健: 提出研究思路, 设计研究框架;
杨斯楠, 叶萍萍: 文献调研, 资料整理;
叶萍萍: 采集、清洗和分析数据, 进行实验;
杨斯楠: 论文起草;
杨斯楠, 徐健: 论文最终版本修订。
利益冲突声明
所有作者声明不存在利益冲突关系。
参考文献
[1]任磊, 杜一, 马帅, 等.大数据可视分析综述
[J]. 软件学报, 2014, 25(9): 1909-1936.https://doi.org/10.13328/j.cnki.jos.004645 URL [本文引用: 1] 摘要
可视分析是大数据分析的重要方法.大数据可视分析旨在利用计算机自动化分析能力的同时,充分挖掘人对于可视化信息的认知能力优势,将人、机的各自强项进行有机融合,借助人机交互式分析方法和交互技术,辅助人们更为直观和高效地洞悉大数据背后的信息、知识与智慧.主要从可视分析领域所强调的认知、可视化、人机交互的综合视角出发,分析了支持大数据可视分析的基础理论,包括支持分析过程的认知理论、信息可视化理论、人机交互与用户界面理论.在此基础上,讨论了面向大数据主流应用的信息可视化技术——面向文本、网络(图)、时空、多维的可视化技术.同时探讨了支持可视分析的人机交互技术,包括支持可视分析过程的界面隐喻与交互组件、多尺度/多焦点/多侧面交互技术、面向post-wimp的自然交互技术.最后,指出了大数据可视分析领域面临的瓶颈问题与技术挑战.
(Ren Lei, Du Yi, Ma Shuai, et al.Visual Analytics Towards Big Data
[J]. Journal of Software, 2014, 25(9): 1909-1936.)https://doi.org/10.13328/j.cnki.jos.004645 URL [本文引用: 1] 摘要
可视分析是大数据分析的重要方法.大数据可视分析旨在利用计算机自动化分析能力的同时,充分挖掘人对于可视化信息的认知能力优势,将人、机的各自强项进行有机融合,借助人机交互式分析方法和交互技术,辅助人们更为直观和高效地洞悉大数据背后的信息、知识与智慧.主要从可视分析领域所强调的认知、可视化、人机交互的综合视角出发,分析了支持大数据可视分析的基础理论,包括支持分析过程的认知理论、信息可视化理论、人机交互与用户界面理论.在此基础上,讨论了面向大数据主流应用的信息可视化技术——面向文本、网络(图)、时空、多维的可视化技术.同时探讨了支持可视分析的人机交互技术,包括支持可视分析过程的界面隐喻与交互组件、多尺度/多焦点/多侧面交互技术、面向post-wimp的自然交互技术.最后,指出了大数据可视分析领域面临的瓶颈问题与技术挑战.
[2]杜嘉忠, 徐健, 刘颖.网络商品评论的特征—情感词本体构建与情感分析方法研究
[J]. 现代图书情报技术, 2014(5): 74-82.URL [本文引用: 1] 摘要
【目的】解决情感分析领域使用通用情感词典进行情感分析时,在特定领域内无法识别领域专用情感词,以及同一情感词描述不同特征时可能表达出不同情感倾向的两个问题。【方法】提出一种基于领域专用情感词的网络评论情感分析方法。该方法构建特征–情感词本体,利用本体对网络上的产品评论进行情感分析。并与基于Senti-HowNet词典的情感分析方法进行对比。【结果】本文方法在特征层的情感倾向分析的准确率和召回率都有显著提高。【局限】本文方法中的本体需要尽可能完整的特征词集和情感词集,并且情感分析结果好坏直接依赖于本体的构建是否完善;由于网络文本的不规范性,特征词和情感词抽取以及情感分析的过程都不考虑句法结构;数据分析过程对问题进行了简化,仅考虑特征粒度的情感倾向,未考虑连词等对情感倾向有影响的其他因素。【结论】对专用情感词和通用情感词进行分类管理,解决了两个问题,情感分析结果得到提高。
(Du Jiazhong, Xu Jian, Liu Ying.Research on Construction of Feature-Sentiment Ontology and Sentiment Analysis
[J]. New Technology of Library and Information Service, 2014(5): 74-82.)URL [本文引用: 1] 摘要
【目的】解决情感分析领域使用通用情感词典进行情感分析时,在特定领域内无法识别领域专用情感词,以及同一情感词描述不同特征时可能表达出不同情感倾向的两个问题。【方法】提出一种基于领域专用情感词的网络评论情感分析方法。该方法构建特征–情感词本体,利用本体对网络上的产品评论进行情感分析。并与基于Senti-HowNet词典的情感分析方法进行对比。【结果】本文方法在特征层的情感倾向分析的准确率和召回率都有显著提高。【局限】本文方法中的本体需要尽可能完整的特征词集和情感词集,并且情感分析结果好坏直接依赖于本体的构建是否完善;由于网络文本的不规范性,特征词和情感词抽取以及情感分析的过程都不考虑句法结构;数据分析过程对问题进行了简化,仅考虑特征粒度的情感倾向,未考虑连词等对情感倾向有影响的其他因素。【结论】对专用情感词和通用情感词进行分类管理,解决了两个问题,情感分析结果得到提高。
[3]程翠琼, 徐健.面向网络游记时间特征的情感分析模型
[J]. 数据分析与知识发现, 2017, 1(2): 87-95.URL [本文引用: 1] 摘要
【目的】通过对网络游记进行情感分析,发现游客对旅游地情感倾向的时间分布规律。【应用背景】越来越多人通过浏览大量网络游记来收集信息,制定旅游计划。网络游记成为旅游者搭配旅游地及出游时间的重要参考内容,也为商家提供了商机。【方法】提出面向网络游记时间特征的情感分析模型,分析游客情感的时间变化规律。该模型包括5个模块:网络游记文本内容及旅游时间数据的采集、游记文本预处理、情感标注、按时间段统计游记情感特征分值、游记情感时间特征分析。并从网络抓取4种类型旅游地游记对模型进行实验。【结果】在7类情感中,[好】的情感均值在各旅游地的各月份中总是远高于其他情感,较为稳定;[好]、[乐]和[恶]在不同月份的波动程度较大;情感随时间的波动与相应游记数量并不相关,即传统的旅游地旺季和淡季的划分与游客的实际情感体验并不相关。【结论】该模型能够有效地反映旅游地的游客情感随时间变化的波动,进而为旅游管理者、潜在旅游者信息获取提供新的信息参考渠道。
(Cheng Cuiqiong, Xu Jian.A Sentiment Analysis Model Based on Temporal Characteristics of Travel Blogs
[J]. Data Analysis and Knowledge Discovery, 2017, 1(2): 87-95.)URL [本文引用: 1] 摘要
【目的】通过对网络游记进行情感分析,发现游客对旅游地情感倾向的时间分布规律。【应用背景】越来越多人通过浏览大量网络游记来收集信息,制定旅游计划。网络游记成为旅游者搭配旅游地及出游时间的重要参考内容,也为商家提供了商机。【方法】提出面向网络游记时间特征的情感分析模型,分析游客情感的时间变化规律。该模型包括5个模块:网络游记文本内容及旅游时间数据的采集、游记文本预处理、情感标注、按时间段统计游记情感特征分值、游记情感时间特征分析。并从网络抓取4种类型旅游地游记对模型进行实验。【结果】在7类情感中,[好】的情感均值在各旅游地的各月份中总是远高于其他情感,较为稳定;[好]、[乐]和[恶]在不同月份的波动程度较大;情感随时间的波动与相应游记数量并不相关,即传统的旅游地旺季和淡季的划分与游客的实际情感体验并不相关。【结论】该模型能够有效地反映旅游地的游客情感随时间变化的波动,进而为旅游管理者、潜在旅游者信息获取提供新的信息参考渠道。
[4]李涵昱, 钱力, 周鹏飞.面向商品评论文本的情感分析与挖掘
[J]. 情报科学, 2017, 35(1): 51-55.URL Magsci [本文引用: 2] 摘要
【目的/意义】随着电子商务的快速发展, 互联网上出现大量商品评论信息, 商品评论文本的情感分析与挖掘对于研究商品口碑、 进行商品推荐都具有重要的价值。【方法/过程】文中设计商品属性提取与过滤算法、 情感词判别算法, 分析商品的评论信息并自动抽取用户关注的商品属性和用户对相应属性的评价观点, 并进一步将其应用于商品评价文本的情感倾向性分析。【结果/结论】实现了自动化的商品属性和评价情感词抽取, 实现了商品评论的情感倾向性分析, 在真实数据集上进行测试取得了准确率 81.08%, 召回率 88.23%。
(Li Hanyu, Qian Li, Zhou Pengfei.Sentiment Analysis and Mining of Product Reviews
[J]. Information Science, 2017, 35(1): 51-55.)URL Magsci [本文引用: 2] 摘要
【目的/意义】随着电子商务的快速发展, 互联网上出现大量商品评论信息, 商品评论文本的情感分析与挖掘对于研究商品口碑、 进行商品推荐都具有重要的价值。【方法/过程】文中设计商品属性提取与过滤算法、 情感词判别算法, 分析商品的评论信息并自动抽取用户关注的商品属性和用户对相应属性的评价观点, 并进一步将其应用于商品评价文本的情感倾向性分析。【结果/结论】实现了自动化的商品属性和评价情感词抽取, 实现了商品评论的情感倾向性分析, 在真实数据集上进行测试取得了准确率 81.08%, 召回率 88.23%。
[5]郑飏飏, 徐健, 肖卓.情感分析及可视化方法在网络视频弹幕数据分析中的应用
[J]. 现代图书情报技术, 2015(11): 82-90.[本文引用: 2]
(Zheng Yangyang, Xu Jian, Xiao Zhuo.Utilization of Sentiment Analysis and Visualization in Online Video Bullet-screen Comments
[J]. New Technology of Library and Information Service, 2015(11): 82-90.)[本文引用: 2]
[6]朱琳琳, 徐健.网络评论情感分析关键技术及应用研究
[J]. 情报理论与实践, 2017, 40(1): 121-126.[本文引用: 1]
(Zhu Linlin, Xu Jian.Research on the Key Technologies and Applications of Sentimental Analysis in Network Review
[J]. Information Studies: Theory & Application, 2017, 40(1): 121-126.)[本文引用: 1]
[7]杜贺, 於志文, 王志涛.微博情感可视化系统
[J].中国科技论文, 2014, 9(10): 1144-1148.[本文引用: 1]
(Du He, Yu Zhiwen, Wang Zhitao.Visualization System of Microblog Sentiment
[J]. China Science Paper, 2014, 9(10): 1144-1148.)[本文引用: 1]
[8]Cao N, Cui W.Introduction to Text Visualization
[M]. Atlantics Press, 2016: 41-48.[本文引用: 2]
[9]Bag of Words [EB/OL]. [2017-12-13]..URL [本文引用: 1]
[10]Cui W, Liu S, Tan L, et al.TextFlow: Towards Better Understanding of Evolving Topics in Text
[J]. IEEE Transactions on Visualization & Computer Graphics, 2011, 17(12): 2412-2421.https://doi.org/10.1109/TVCG.2011.239 URL PMID: 22034362 [本文引用: 2] 摘要
Understanding how topics evolve in text data is an important and challenging task. Although much work has been devoted to topic analysis, the study of topic evolution has largely been limited to individual topics. In this paper, we introduce TextFlow, a seamless integration of visualization and topic mining techniques, for analyzing various evolution patterns that emerge from multiple topics. We first extend an existing analysis technique to extract three-level features: the topic evolution trend, the critical event, and the keyword correlation. Then a coherent visualization that consists of three new visual components is designed to convey complex relationships between them. Through interaction, the topic mining model and visualization can communicate with each other to help users refine the analysis result and gain insights into the data progressively. Finally, two case studies are conducted to demonstrate the effectiveness and usefulness of TextFlow in helping users understand the major topic evolution patterns in time-varying text data.
[11]IN-SPIRETM Visual Document Analysis
[EB/OL]. [2017-10- 31]. .URL [本文引用: 1]
[12]Dave K, Lawrence S, Pennock D M.Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews
[C]// Proceedings of International Conference on World Wide Web. ACM, 2003: 519-528.[本文引用: 1]
[13]Hu M, Liu B.Mining and Summarizing Customer Reviews
[C]// Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Seattle, Washington, USA. 2004: 168-177.[本文引用: 1]
[14]Hao M, Rohrdandz C, Janetzko H, et al.Visual Sentiment Analysis on Twitter Data Streams
[C]// Proceedings of the 2011 IEEE Conference on Visual Analytics Science and Technology. 2011: 277-278.[本文引用: 2]
[15]Golder S A, Macy M W.Diurnal and Seasonal Mood Vary with Work, Sleep, and Daylength Across Diverse Cultures
[J]. Science, 2011, 333(6051): 1878-1881.https://doi.org/10.1126/science.1202775 URL [本文引用: 1]
[16]Wang F Y, Sallaberry A, Klein K, et al.SentiCompass: Interactive Visualization for Exploring and Comparing the Sentiments of Time-varying Twitter Data
[C]// Proceedings of the Visualization Symposium. IEEE, 2015: 129-133.[本文引用: 3]
[17]Xu P, Wu Y, Wei E, et al.Visual Analysis of Topic Competition on Social Media
[J]. IEEE Transactions on Visualization & Computer Graphics, 2013, 19(12): 2012-2021.[本文引用: 4]
[18]Zhao J, Gou L, Wang F, et al.PERAL: An Interactiv Visual Anlytic Tool for Understanding Personal Emotion Style Derived from Social Media
[C]// Proceedings of the 2014 IEEE Conference on Visual Analytics Science and Technology. IEEE, 2015: 203-212.[本文引用: 3]
[19]赵琦, 张智雄, 孙坦.文本可视化及其主要技术方法研究
[J]. 现代图书情报技术, 2008(8): 24-30.https://doi.org/10.3969/j.issn.1003-3513.2008.08.005 URL [本文引用: 2] 摘要
文本可视化是通过对文本资源的分析,发现特定信息,并利用计算机技术将其以图形化方式呈现来的一种方法。通过分析文本可视化典型系统,分析现今的文本可视化的特点。并从基于词汇、基于篇章、基于时间序列、基于主题领域4种不同的文本可视化方式人手来分析其的主要技术方法。最后探讨文本可视化如何在信息环境下发挥作用。
(Zhao Qi, Zhang Zhixiong, Sun Tan.A Research on the Methodological of Text Visualization
[J]. New Technology of Library and Information Service, 2008(8): 24-30.)https://doi.org/10.3969/j.issn.1003-3513.2008.08.005 URL [本文引用: 2] 摘要
文本可视化是通过对文本资源的分析,发现特定信息,并利用计算机技术将其以图形化方式呈现来的一种方法。通过分析文本可视化典型系统,分析现今的文本可视化的特点。并从基于词汇、基于篇章、基于时间序列、基于主题领域4种不同的文本可视化方式人手来分析其的主要技术方法。最后探讨文本可视化如何在信息环境下发挥作用。
[20]Tbleau [EB/OL]. [2017-10-31]..URL [本文引用: 2]
[21]郭传斌, 刘琦岩, 赵婧, 等.情报学视角下的文本可视化应用
[J]. 情报工程, 2017, 3(4): 48-61.https://doi.org/10.3772/j.issn.2095-915x.2017.04.007 URL [本文引用: 1] 摘要
文本可视化可以帮助人们在海量的文本文档中快速获取知识,随着信息技术的发展和信息需求的增加,文本可视化的应用愈加广泛。作为情报学的主要研究对象,文本可视化对基于文献资料的情报研究具有重要的价值。本文结合情报研究任务和文本可视化的应用场景,将27个案例分为基于文本概览、文本主题、文本情感和文本关系的四类应用,对近期文本可视化的研究状况进行了分析和总结。最后针对可视化方法在情报学的应用提出了建议,以期为相关研究人员提供参考。
(Guo Chuanbin, Liu Qiyan, Zhao Jing, et al.Study on Text Visualization from the Information Science Perspective
[J]. Technology Intelligence Engineering, 2017, 3(4): 48-61.)https://doi.org/10.3772/j.issn.2095-915x.2017.04.007 URL [本文引用: 1] 摘要
文本可视化可以帮助人们在海量的文本文档中快速获取知识,随着信息技术的发展和信息需求的增加,文本可视化的应用愈加广泛。作为情报学的主要研究对象,文本可视化对基于文献资料的情报研究具有重要的价值。本文结合情报研究任务和文本可视化的应用场景,将27个案例分为基于文本概览、文本主题、文本情感和文本关系的四类应用,对近期文本可视化的研究状况进行了分析和总结。最后针对可视化方法在情报学的应用提出了建议,以期为相关研究人员提供参考。
[22]Sankey Diagram [EB/OL]. [2017-12-14]..URL [本文引用: 1]
[23]BDP [EB/OL]. [2017-12-14]..URL [本文引用: 1]
[24]The R Project for Statistical Computing [EB/OL]. [2017- 10-31]..URL [本文引用: 1]
[25]Cao N, Lin Y R, Sun X, et al.Whisper: Tracing the Spatiotemporal Process of Information Diffusion in Real Time
[J]. IEEE Transactions on Visualization & Computer Graphics, 2012, 18(12): 2649-2658.[本文引用: 1]
[26]Mislove A, Lehmann S, Ahn Y-Y, et al.Pulse of the Nation: U.S. Mood Throughout the Day Inferred from Twitter
[EB/OL]. [2017-10-31]. .URL [本文引用: 1]
[27]Excel [EB/OL]. [2017-10-31]. .URL [本文引用: 1]
[28]Wordle [EB/OL]. [2017-10-31]. .URL [本文引用: 1]
[29]Visually Content Marketing for Brands [EB/OL]. [2017-10-31]. .URL [本文引用: 1]
[30]Crossfilter [EB/OL]. [2017-10-31]..URL [本文引用: 1]
[31]Prefuse [EB/OL]. [2017-10-31]. .URL [本文引用: 1]
[32]D3 [EB/OL]. [2017-10-31]. .URL [本文引用: 1]
[33]EChart[EB/OL].[2017-10-31].// .URL [本文引用: 1]
[34]Google Chart [EB/OL]. [2017-10-31]..URL [本文引用: 1]
[35]Weka3 Data Mining Software in Java [EB/OL]. [2017-10-31]. .URL [本文引用: 1]
[36]Processing [EB/OL]. [2017-10-31]..URL [本文引用: 1]
[37]Many Eyes [EB/OL]. [2017-10-31]. .URL [本文引用: 1]
[38]iCharts[EB/OL].[2017-10-31]. .URL [本文引用: 1]
[39]Cui W, Wu Y, Liu S, et al.Context-Preserving, Dynamic Word Cloud Visualization
[J]. IEEE Computer Graphics & Applications, 2010, 30(6): 42-53.[本文引用: 1]
[40]Hu M, Wongsuphasawat K, Stasko J.Visualizing Social Media Content with SentenTree
[J]. IEEE Transactions on Visualization & Computer Graphics, 2017, 23(1): 621-630.https://doi.org/10.1109/TVCG.2016.2598590 URL PMID: 27875177 [本文引用: 1] 摘要
We introduce SentenTree, a novel technique for visualizing the content of unstructured social media text. SentenTree displays frequent sentence patterns abstracted from a corpus of social media posts. The technique employs design ideas from word clouds and the Word Tree, but overcomes a number of limitations of both those visualizations. SentenTree displays a node-link diagram where nodes are words and links indicate word co-occurrence within the same sentence. The spatial arrangement of nodes gives cues to the syntactic ordering of words while the size of nodes gives cues to their frequency of occurrence. SentenTree can help people gain a rapid understanding of key concepts and opinions in a large social media text collection. It is implemented as a lightweight application that runs in the browser.
[41]Cao N, Lu L, Lin Y R, et al.SocialHelix: Visual Analysis of Sentiment Divergence in Social Media
[J]. Journal of Visualization, 2015, 18(2): 221-235.https://doi.org/10.1007/s12650-014-0246-x URL [本文引用: 1] 摘要
Abstract Social media allow people to express and promote different opinions, on which people’s sentiments to a subject often diverge when their opinions conflict. An intuitive visualization that...
[42]Joseph K, Wintoki M B, Zhang Z.Forecasting Abnormal Stock Returns and Trading Volume Using Investor Sentiment: Evidence from Online Search
[J]. International Journal of Forecasting, 2011, 27(4): 1116-1127.https://doi.org/10.1016/j.ijforecast.2010.11.001 URL [本文引用: 1]
[43]Lampos V, Cristianini N.Tracking the Flu Pandemic by Monitoring the Social Web
[C]// Proceedings of the 2nd International Workshop on Cognitive Information Processing. IEEE, 2010: 411-416.[本文引用: 1]
[44]El-Assady M, Gold V, Acevedo C, et al.ConToVi: Multi‐Party Conversation Exploration Using Topic-Space Views
[J]. Computer Graphics Forum, 2016, 35(3): 431-440.https://doi.org/10.1111/cgf.12919 URL [本文引用: 1] 摘要
Abstract We introduce a novel visual analytics approach to analyze speaker behavior patterns in multi-party conversations. We propose Topic-Space Views to track the movement of speakers across the thematic landscape of a conversation. Our tool is designed to assist political science scholars in exploring the dynamics of a conversation over time to generate and prove hypotheses about speaker interactions and behavior patterns. Moreover, we introduce a glyph-based representation for each speaker turn based on linguistic and statistical cues to abstract relevant text features. We present animated views for exploring the general behavior and interactions of speakers over time and interactive steady visualizations for the detailed analysis of a selection of speakers. Using a visual sedimentation metaphor we enable the analysts to track subtle changes in the flow of a conversation over time while keeping an overview of all past speaker turns. We evaluate our approach on real-world datasets and the results have been insightful to our domain experts.
[45]Kase S E, Roy H E, Bowman E K, et al.Visualizing Host-Nation Sentiment at the Tactical Edge
[C]// Proceedings of the 19th International Command and Control Research and Technology Symposium. 2014.[本文引用: 1]
网址:网络评论情感可视化技术方法及工具研究* https://mxgxt.com/news/view/226690
相关内容
数据可视化:国内外现状及未来研究方向网络主播的污名化及其伦理困境:一项网络民族志研究-武大国际法评论
大数据分析技术在社交网络中的应用研究 .pdf
社交媒体时代网络意见领袖筛选和测量方法研究论文.pdf
社会化网络中“粉丝经济”模式与营销策略研究论文
社科大互联网法治研究中心:2023互联网平台网络暴力治理机制构建与测评报告(60页).pdf
网络综艺节目行业深度调研及发展策略研究报告.docx
网络舆情潜在热点主题识别研究*
网络社交媒体数据挖掘与情感分析
基于大数据的社交网络分析与应用研究.docx