人工智能(AI)工具被证明对于完成广泛的任务非常有价值。虽然它们主要用于提高生产力或简化日常流程,但它们也显示出自动生成创造性文本和艺术图像的潜力。
滑铁卢大学和纽约大学库兰特研究所的研究人员最近开发了一种人工智能工具,可以根据文本描述自动生成独特的艺术图像。他们的方法是基于动态记忆生成对抗网络(DM-GAN)的,这是一种基于两个人工神经网络的模型,这两个神经网络协同工作,生成越来越有说服力的图像,并在arXiv上预先发表了一篇论文。
“我们创建了一个端到端的解决方案,可以从文本描述中生成艺术图像,”田庆和和公关Jean-ClaudeFranchitti在论文中写道。
Tian和Franchitti最近的工作背后的关键思想是创建一个模型,该模型可以使用用户提供的文本描述来生成与这些描述匹配的艺术图像。这将允许那些妨碍他们有效绘画的残疾人和其他不擅长绘画的人创作出描绘特定事物的美丽艺术图像。
然而,大多数用于训练生成模型的现有数据集都包含标记的图像或文本,而不是与其文本描述相匹配的图像。因此,研究人员必须想出一种替代方法来训练他们的模型。
研究人员在论文中解释道:“由于缺乏成对文本描述和艺术图像的数据集,很难直接训练出一种基于文本输入创建艺术的算法。”。“为了解决这个问题,我们将任务分为三个步骤。”
首先,研究人员使用他们的DM-GAN模型生成一个真实的图像,表示文本描述。随后,他们使用多层人工神经网络ResNet将DM-GAN制作的图像分类为WikiArt数据集概述的流派类别之一。
WikiArt数据集通常用于培训深度学习方法,包含195位艺术家创作的40000多幅艺术画。在将DM-GAN制作的图像分类为WikiArt概述的流派类别之一后,该模型可以选择与该流派类别兼容的绘画风格,并使用神经艺术风格化网络将其传输到生成的图像。
研究人员在一系列初步试验中评估了他们的多框架方法。虽然它取得了相当好的效果,但他们希望在下一步的工作中进一步改进它的性能。
研究人员在论文中写道:“一般来说,对于文本输入和所需风格的多种组合,我们可以获得可接受的结果。”。“然而,我们的解决方案仍有许多方面需要改进。特别是,我们计划添加一个语音识别模块,使残疾人能够通过语音而不是打字来指定输入。”
未来,田和弗兰奇蒂开发的技术可能会被集成到图形和绘图应用程序中,使所有个人都能制作出高质量的艺术图像,而不管他们的能力和艺术天赋如何。研究人员设计的模型代码可在GitHub上公开获取。在接下来的研究中,该团队还计划将其性能与其他图像生成方法进行比较,并改进其各个组件的性能。
漏 2022科学X网络