一、文本可视化概述
文本作为人类信息交流的主要载体之一,对其进行可视化能有效帮助人们快速理解和获取其中蕴含的信息。文本是人类信息交流的主要传播媒体之一,文本信息在人们日常生活中几乎无处不在,如新闻、邮件、微博、小说和书籍等。想了解更多关于东南亚电商平台、东南亚店铺运营、跨境电商平台、品牌出海东南亚、跨境商家孵化请关注本站。
文本可视化是大数据可视化研究的主要内容之一,它是指对文本信息进行分析,抽取其中的特征信息,并将这些信息以易于感知的图形或图像方式展示。文本可视化结合了信息检索、人机交互、可视化等技术,可以说是信息时代的润滑剂。由于文本类别的多样性及读者需求的多样性,人们提出了各类文本可视化的方法,包括普适性文档可视化方法、针对特定文档类别和分析需求的可视化方法。
文本可视化基本流程包括3个主要步骤,即文本处理、可视化映射和交互操作。整个过程应该围绕用户分析的需求设计。
文本处理是文本可视化流程的基础步骤,主要任务是根据用户需求对原始文本资源中的特征信息进行分析,例如提取关键词或主题等。对文本原始数据进行处理主要包括3个基本步骤:文本数据预处理、特征抽取及特征度量。对文本原始数据进行预处理的目的是去除原始数据中一些无用或冗余的信息,常用分词技术与词干提取等方法。然后还要对文本进行净化处理,抽取可代表整个文档的特征信息。
可视化映射是指以合适的视觉编码和视觉布局方式呈现文本特征的方式。其中,视觉编码是指采用合适的视觉通道和可视化图符表征文本特征;视觉布局是指承载文本特征信息的各个图元在平面上的分布和呈现方式。对于同一个可视化结果,不同用户感兴趣的部分可能不完全相同,而交互操作提供了在可视化视图中浏览和探索感兴趣部分的手段。
二、文本可视化应用
下面将从文本的模式或结构、文档的主题或主题分布、文本中的关联等方面阐述些文本数据可视化的经典案例和应用。
①标签云
标签云(tag cloud)又称文本云(text cloud)或单词云(word cloud),是最直观、最常见的对文本关键字进行可视化的方法。标签云一般使用字体的大小与颜色对关键词的重要性进行编码。权重越大的关键词的字体越大,颜色越显著。除了字体大小与颜色,关键词的布局也是标签云可视化方法中一个重要的编码维度。它允许自定义可视化的视图空间,如长方形、圆形或者其他不规则图形,将关键词紧密地布局在视图空间。
②小说视图
小说视图(novel views)方法是使用简单的图形将小说中的主要人物在小说中的分布情况进行可视化。
③主题山地
主题山地(them scapes)方法使用了抽象的三维山地景观视图来隐喻文档集合中各个文档主题的分布,其中高度和颜色用来编码主题相似的文档的密度。
④主题河流
主题河流(theme river)是用于时序型文本数据可视化的经典方法。时序型文本通常是指具有内在顺序的文档集合,例如一段时间内的新闻报道、一套丛书等。由于时间轴是时序型文本的重要属性,需要重点考虑时间轴的表示及可视化。