据The Verge报道,关于皮肤状况的图像数据库众所周知地偏向于浅色皮肤。与其等待收集更多深色皮肤上的癌症或炎症等病症的缓慢过程,一个团体希望利用人工智能来填补空白。它正在研究一个人工智能程序,以生成深色皮肤上疾病的合成图像--并将这些图像用于一个可以帮助诊断皮肤癌的工具。
加拿大麦克马斯特大学从事该项目的机器学习专家Eman Rezk说:“拥有黑皮肤的真实图像是最终的解决方案。在我们拥有这些数据之前,我们需要找到一种方法来缩小差距。”
但在该领域工作的其他专家担心,使用合成图像可能会引入他们自己的问题。斯坦福大学皮肤病学临床学者Roxana Daneshjou说,重点应该是在现有数据库中增加更多不同的真实图像。她说:“创建合成数据听起来比做艰苦的工作来创建一个多样化的数据集更容易。”
目前研究人员建立的工具可以扫描皮疹和痣的图像,以弄清最可能的问题类型。然后皮肤科医生可以使用这些结果来帮助他们进行诊断。但大多数工具是建立在图像数据库上的,这些数据库要么不包括许多深色皮肤上的病症实例,要么没有关于它们所包括的肤色范围的良好信息。这使得研究小组很难相信一个工具在深色皮肤上会有同样的准确性。
这就是为什么Rezk和团队转向了合成图像。该项目有四个主要阶段。该团队已经分析了可用的图像集,以了解深色皮肤色调的代表性如何开始不足。它还开发了一个人工智能程序,使用浅色皮肤上的皮肤状况的图像来产生深色皮肤上的这些状况的图像,并验证了模型给他们的图像。“由于人工智能和深度学习的进步,我们能够使用现有的白色扫描图像来生成不同肤色的高质量合成图像,”Rezk说。
接下来,该团队将把深色皮肤的合成图像与浅色皮肤的真实图像结合起来,创建一个可以检测皮肤癌的程序。Rezk说,它将不断检查图像数据库,以找到任何新的、真实的深色皮肤状况的图片,他们可以将其添加到未来的模型中。
该团队并不是第一个创建合成皮肤图像的团队--包括Google Health研究人员在内的一个小组在2019年发表了一篇论文,描述了生成这些图像的方法,而且它可以创建不同肤色的图像。(Google对皮肤病学人工智能感兴趣,并在去年春天宣布了一个可以识别皮肤状况的工具)。
Rezk说合成图像是一种权宜之计,直到有更多关于深色皮肤状况的真实图片可用。不过,Daneshjou对使用合成图像表示担忧,即使是作为一个临时解决方案。研究团队将不得不仔细检查人工智能生成的图像是否会有任何人们无法用肉眼看到的通常的怪异特征。理论上,这种类型的特征可能会歪曲人工智能程序的结果。确认合成图像与模型中的真实图像一样好用的唯一方法是将它们与真实图像进行比较--真实图像是供不应求的。她说:“然后回到这样一个事实:为什么不努力尝试获得更多的真实图像?”
Daneshjou说,如果一个诊断模型是基于一个小组的合成图像和另一个小组的真实图像--即使是暂时的--那也是一个问题。它可能会导致模型在不同的肤色上有不同的表现。
她说,对合成数据的倚重也可能使人们不太可能推动真实、多样化的图像。她表示:“如果你要这么做,你真的会继续做这项工作吗?我实际上希望看到更多的人在获取真实的多样化数据方面做工作,而不是试图做这种变通。”