解释复杂趋势和模式的图表标题对于提高读者理解和保留所呈现数据的能力非常重要。对于视力障碍人士来说,标题中的信息通常是他们理解图表的唯一方法。
但编写有效、详细的标题是一个劳动密集型的过程。虽然自动字幕技术可以减轻这种负担,但它们通常很难描述提供额外上下文的认知特征。
为了帮助人们编写高质量的图表标题,麻省理工学院的研究人员开发了一个数据集来改进自动标题系统。使用此工具,研究人员可以教授机器学习模型,以根据用户的需求改变图表标题中包含的内容类型和复杂程度。
麻省理工学院的研究人员发现,使用数据集进行自动字幕训练的机器学习模型始终能够生成精确、语义丰富的字幕,并描述数据趋势和复杂模式。定量和定性分析表明,他们的模型比其他自动字幕系统更有效地为图表添加字幕。
该团队的目标是提供名为 VisText 的数据集,作为研究人员在解决图表自动字幕这一棘手问题时可以使用的工具。麻省理工学院电气工程和计算机科学专业的研究生、计算机科学和计算机科学可视化小组成员、共同主要作者 Angie Boggust 表示,这些自动系统可以帮助为无字幕的在线图表提供字幕,并提高视力障碍人士的可访问性。人工智能实验室(CSAIL)。
“我们尝试将许多人类价值观嵌入到我们的数据集中,这样当我们和其他研究人员构建自动图表标题系统时,我们就不会得到人们不想要或不需要的模型,”她说。
Boggust与共同主要作者、研究生 Benny J. Tang 以及资深作者、麻省理工学院计算机科学副教授、CSAIL 可视化小组领导者 Arvind Satyanarayan 一起参与了这篇论文。该研究将在计算语言学协会年会上公布。
以人为本的分析
研究人员从可视化小组之前的工作中受到启发,开发了 VisText ,该工作探索了如何制作良好的图表标题。在这项研究中,研究人员发现,视力正常的用户和盲人或低视力用户对标题中语义内容的复杂性有不同的偏好。
该小组希望将以人为本的分析引入自动字幕研究中。为此,他们开发了 VisText,这是一个图表和相关标题的数据集,可用于训练机器学习模型以生成准确的、语义丰富的、可定制的标题。
开发有效的自动字幕系统并非易事。现有的机器学习方法通常尝试以图像的方式为图表添加标题,但人和模型对自然图像的解释与我们阅读图表的方式不同。其他技术完全跳过视觉内容,并使用其基础数据表为图表添加标题。然而,此类数据表在图表发布后往往无法获得。
考虑到使用图像和数据表的不足,VisText 还将图表表示为场景图。场景图可以从图表图像中提取,包含所有图表数据,但还包括其他图像上下文。
“场景图就像两全其美——它包含图像中几乎所有的信息,同时比数据表更容易从图像中提取信息。由于它也是文本,我们可以利用现代大语言模型的进步来制作字幕。”Tang 解释道。
他们编译了一个数据集,其中包含 12,000 多个图表(每个图表都表示为数据表、图像和场景图)以及相关的标题。每个图表都有两个单独的标题:一个描述图表结构(如其轴范围)的低级标题和一个描述统计数据、数据关系和复杂趋势的高级标题。
研究人员使用自动化系统生成低级字幕,并从人类工作人员那里众包更高级别的字幕。
“我们的字幕基于先前研究的两项关键内容:关于视觉媒体可访问描述的现有指南和我们小组用于对语义内容进行分类的概念模型。这确保了我们的字幕能够为视力障碍读者提供重要的低级图表元素,例如轴、比例和单位,同时保留字幕编写方式的人类差异,”唐说。
翻译图表
收集图表图像和字幕后,研究人员使用 VisText 训练五种用于自动字幕的机器学习模型。他们想了解每种表示形式(图像、数据表和场景图)以及表示形式的组合如何影响字幕的质量。
“您可以将图表字幕模型视为语言翻译模型。但我们不是说将德语文本翻译成英语,而是说将这种‘图表语言’翻译成英语,”博格斯特说。
他们的结果表明,使用场景图训练的模型的表现与使用数据表训练的模型一样好甚至更好。由于场景图更容易从现有图表中提取,研究人员认为它们可能是一种更有用的表示形式。
他们还分别使用低级和高级字幕训练模型。这种技术被称为语义前缀调整,使他们能够教导模型改变标题内容的复杂性。
此外,他们还对采用最佳方法生成的字幕进行了定性检查,并对六种常见错误进行了分类。例如,如果模型显示趋势在下降,而实际上趋势在上升,则会出现方向错误。
这种细粒度、稳健的定性评估对于理解模型如何犯错非常重要。例如,使用定量方法,方向错误可能会招致与重复错误相同的惩罚,其中模型重复相同的单词或短语。但方向错误可能比重复错误更容易误导用户。博格斯特说,定性分析帮助他们理解这些类型的微妙之处。
她补充说,此类错误还暴露了当前模型的局限性,并引发了研究人员在开发自动字幕系统时必须考虑的道德考虑。
生成机器学习模型(例如为 ChatGPT 提供支持的模型)已被证明会产生幻觉或提供可能具有误导性的错误信息。虽然使用这些模型为现有图表自动添加标题有明显的好处,但如果图表标题不正确,可能会导致错误信息的传播。
“也许这意味着我们不仅仅用人工智能为看到的所有东西添加字幕。相反,也许我们提供这些自动字幕系统作为作者工具供人们编辑。在整个研究过程中考虑这些伦理影响非常重要,而不仅仅是在我们有模型可供部署的最后才考虑,”她说。
Boggust、Tang 和他们的同事希望继续优化模型以减少一些常见错误。他们还希望扩展 VisText 数据集以包含更多图表和更复杂的图表,例如具有堆叠条形图或多条线的图表。他们还希望深入了解这些自动字幕模型实际上正在了解图表数据的哪些内容。
这项研究得到了谷歌研究学者奖、国家科学基金会、MLA@CSAIL Initiative 和美国空军研究实验室的部分支持。
留学方案申请