AI数据生成

背景,介绍,与未来

— 崔晨洋

Index

Background

所有的AI一个很大的终极目标就是要实现泛化的能力,也就是所谓的“举一反三,触类旁通”。

所有的AI一个很大的终极目标就是要实现泛化(generalization)的能力,也就是所谓的“举一反三,触类旁通”。数据在目前的AI之路上的重要性,不言而喻,数据的好坏某种程度直接决定了模型性能的上限。尤其当数据需要与真实的物理世界进行交互融合时,数据方面所面临的挑战我们以前也总结过,对于常见的机器学习,我们会遇到很多问题。

Background

Situation

What is Synthetic Data

使用AI生成数据,再与真实数据混合生成我们的“合成数据”。

  • 数据孪生
  • 保留特征、关系和模式
  • 无需研究和定义规则
  • 有(一些)数据

AI生成数据

  • 预定义的规则
  • 花费大量的时间

基于规则

  • 随机生成
  • 还没有数据
  • 不想在规则上花时间

虚拟数据

Why is Synthetic Data

Why is Synthetic Data

解决数据隐私挑战

合成生成的数据由全新的人工数据点组成,与原始数据没有一对一的关系。

1

提升数据量和洞察力

由于“锁定”的数据,无休止的宝贵数据机会被浪费了。

2

推动行业合作

除了加速内部数据共享和数据访问之外,合成数据还为组织之间的外部数据共享和数据访问提供了机会。

3

实现速度和敏捷性

除了绕过内部流程和耗时的轨迹之外,人工智能引擎将通过完全自主和集成的方法为您完成所有艰苦的工作。

4

增强和模拟

合成数据生成的生成方面允许增强和模拟全新的数据。

5

How AI Generate Data

有效数据的稀缺性,以及采样偏差,这些也是机器学习发展的关键瓶颈所在。

有效数据的稀缺性,以及采样偏差,这些也是机器学习发展的关键瓶颈所在。对此,AI数据生成所采用的方式,几乎遵循的逻辑都是采用在仿真中大量生成图片或者CAD模型,加上适当的噪音,环境变量,从而“复制”真实数据的目标域的固有分布。

而在此我们也会发现,数据生成的一个核心要素是怎么控制噪音,环境变量等等因素,使得生成的数据与真实的数据,在某种程度上尽可能的类似,从而使得在合成数据上训练的模型可以无差别的迁移到真实的数据。

How AI Generate Data

Demo By NVIDIA

Argue & Future

AI数据也是一把双刃剑

Deepfake 是一种越来越普遍的 AI 合成媒体(图像、音频和视频)形式;事实上,诸如 deepfake 软件 faceswap 所使用的 GAN 允许用户通过外表和声音来冒充任何人,并且已经足够有说服力地骗取了一家英国能源公司 243,000 美元(。政策制定者、数字取证专家和技术公司对深度伪造的创建和分发进行了监管,美国最近的立法禁止分发恶意合成媒体,以保护政治候选人。

Argue

然而,用于生成深度伪造的算法也可用于匿名化患者数据。类似于软件 faceswap 所使用的 GAN 架构可用于对实时视频中的人脸进行去识别化,并且类似的方法可用于对 EMR、医学图像和其他 PHI 进行去识别化。在医疗保健环境中,特别是在临床研究中,可能需要对患者互动进行视频记录,以检测早期疾病预后的表型(例如,自闭症谱系障碍中的眼跳和轻度认知障碍和阿尔茨海默氏症中的言语缺陷)疾病)。

Argue

By 2024, 60% of the data used for the de­vel­op­ment of AI and an­a­lyt­ics projects will be syn­thet­i­cally gen­er­ated

Gartner

https://blogs.gartner.com/andrew_white/2021/07/24/by-2024-60-of-the-data-used-for-the-development-of-ai-and-analytics-projects-will-be-synthetically-generated/

什么构成真实性,真实性的缺乏将如何塑造我们对现实的看法?科幻小说美国作家菲利普·K·迪克在他的整个文学生涯中提出了类似的问题,特别是在他 1972 年的文章“如何建立一个不会在两天后分崩离析的宇宙”中,他评论了危险的“模糊' 用类似合成的结构代替现实。 就好像他在描述当今技术的困境,迪克写道:“什么是真实的?因为我们不断地被非常复杂的人使用非常复杂的电子机制制造的伪现实轰炸。我不怀疑他们的动机;我不相信他们的力量。他们有很多。它是一种惊人的力量:创造整个宇宙,心灵的宇宙。”

Future

在医疗保健领域,这种力量在于创建真实数据,这些数据可以影响临床医生和医疗保健政策制定者对临床基本事实的看法,并影响人工智能算法的部署,这些算法用于做出影响人类生活的决策。 所取得的进步如此迅速地成熟,以至于我们应该仔细了解如果我们允许“虚假模仿”在医疗保健决策中站稳脚跟,我们会放弃什么控制权。例如,自 COVID-19 大流行开始以来,人们对合成数据的开发产生了浓厚的兴趣,其用例包括 AI 算法的训练流行病学建模和数字接触者医院之间的数据共享。

Future

Thinking

  • Test Case Generation
  • Security
  • Deploy in Development

Thank You!

AIDG

By yoshino-s

AIDG

  • 62