新2手机登录 新2手机登录 新2手机登录

数据稀缺?生成式人工智能正在学习如何创造自己

澎湃新闻记者邵文

“人类一直在努力制造真正智能的机器,也许我们需要让他们自己做,”麻省理工学院评论写道,“人工智能正在学习如何创造自己。”

市销率估值法 vc_市销率估值法 博客_生成率法

“Generative AI”(生成人工智能)是最近人工智能领域的热门话题。福布斯 3 月 23 日发表文章《探索各个领域的大量生成式 AI 用例》,Gartner 总结了 2022 年最有影响力的 5 项技术被列入生成式 AI,Venture Beat 在 3 月 20 日更直接地指出“深度生成模型可以为人工智能提供最有前景的前景”。

那么什么是Generative AI(以下简称“生成AI”),为什么会被给予如此高的期望?

在回答“什么”问题之前,可以先了解生成式 AI 算法希望解决的核心问题:有效数据的稀缺性和采样偏差,这也是机器学习发展的关键瓶颈。

生成式 AI 的突破点在于它可以从现有数据(图像、音频文件、文本)中生成相似的原始数据,比如 Deepfake 经常会产生各种负面用例,也属于生成式 AI。

市销率估值法 vc_市销率估值法 博客_生成率法

IBM 研究员 Matteo Manica 表示:“生成模型可能是目前我们最强大的工具,它获取大量科学数据,并使用它为新材料、药物等的设计和发现提出起点。”研究,在接受采访时说。我们可以创建生成模型来帮助回答我们也不知道从哪里开始的问题,比如如何为未知蛋白质寻找新的抗病毒药物,或者我们是否可以制造大气二氧化碳的催化剂。”

生成式 AI 有几种模型生成率法,最流行的是生成对抗网络 (GAN),它可以在无监督的情况下学习。数据,一个做“鉴别器”的人——不断地试图区分真实数据和原始数据。每次测试后,生成器都会调整参数以创建更有说服力的数据,直到判别器在反复迭代后无法区分真假。

因此,GAN 可以以原作的风格创作可信的新作品,而不是一幅画的影印本。由麻省理工学院 (MIT) 发起的 Knowing Animals 项目创建了杂交动物的逼真图像,展示了这种从头开始创建新数据(称为“合成数据”)的能力。机器学习算法的性能往往与数据量有关。在某些数据稀缺的情况下,使用合成数据可以增加训练集中的数据量(称为数据增强)或改变它。

生成率法_市销率估值法 博客_市销率估值法 vc

Venture Beat 提到的“深度生成模型”不仅是生成模型,而且还利用了深度神经网络。神经网络是一种计算架构,能够随着时间的推移学习新模式——使神经网络“深度”的是模型输入和输出之间的多个隐藏“层”推理的复杂性增加,允许深度神经网络是能够处理具有许多变量的极其复杂的数据集。

比如蛋白质折叠问题——氨基酸残基的长链会折叠成复杂的 3D 结构。错误折叠的蛋白质有可能导致阿尔茨海默病、帕金森病、亨廷顿病和囊性纤维化等疾病。我们需要发现蛋白质的 3D 结构,并找出哪些药物和化合物与各种类型的人体组织相互作用相关,以及如何对药物发现和医学创新至关重要。

市销率估值法 vc_市销率估值法 博客_生成率法

但是发现蛋白质如何折叠是一个非常困难的问题。科学家需要在分析蛋白质之前溶解和结晶蛋白质,单个蛋白质的整个过程可能需要数周或数月。传统的深度学习模型也不足以帮助解决蛋白质折叠问题,因为它们的重点主要是对现有数据集进行分类,而不是生成数据输出。

蛋白质结构预测算法背后的 DeepMind 团队,其模型被称为 AlphaFold,可以仅根据其遗传“密码”预测生成的蛋白质的 3D 形状。通过能够在数小时或数分钟内生成结果,AlphaFold 有可能节省数月的实验室工作,并大大加快几乎所有生物学领域的研究。

但深度生成模型也面临一些明显的技术挑战,例如难以用有限的数据集进行良好的训练,以及确保模型在实际应用中能够产生始终如一的准确输出。还有伦理问题。深度生成模型的决策过程是无法解释的,这可能导致人工智能模型在没有人类知识的情况下产生不合理或不道德的偏见,进而产生不准确或歧视性的输出。

以下是Hello Future的Generative AI:克服数据稀缺的新方法中提到的应用案例汇编:

合成脑磁共振成像

医学是由于数据稀缺而导致数据量稀缺的领域之一——具有异常的医学图像本身并不常见,而且法律限制了患者医疗记录的使用和共享。

2018 年,Nvidia Corp.、Mayo Clinic 和 MGH&BWH 临床数据科学中心的研究人员开发了一种模型,可以生成可用于训练深度学习模型的合成脑肿瘤 MRI。研究团队认为,这些合成图像既是数据增强的补充工具,也是一种有效的匿名化方法。它们以低成本提供多样化的数据,从而提高了肿瘤分割的性能(在 MRI 扫描中区分肿瘤组织与正常脑组织的过程),同时允许不同机构之间的数据共享。

加速药物开发

药理学也可以从这种方法中受益。设计一种新药不仅困难,而且昂贵且耗时:一种药物上市通常需要 12 年以上,平均成本为 10 亿欧元。成本如此之高的一个原因是需要合成数千个分子才能在临床前研究开始之前识别候选化合物。这个过程需要使用多目标优化方法来探索广阔的“化学空间”(几乎无限广阔的所有可能的分子和化合物),因为人工智能系统必须评估这些分子并根据几个关键标准做出决策, 这些标准包括药物的活性、毒性或合成的难易程度。这种优化方法需要大量的训练数据,

Insilico Medicine 创建了 Chemistry42 平台,该平台结合了生成算法和强化学习,可在几天内自动找到具有特定属性的全新分子结构(称为“从头”分子设计)。Insilicon 将该平台与包括肺部疾病在内的多个治疗领域的其他工具集成在一起。2021年,Insilico宣布发现一种具有新治疗靶点(药物作用的身体部位,如蛋白质)的新分子,有望治疗特发性肺纤维化(IPF)。这是世界上第一个完全由人工智能在不到 18 个月内发现和设计的分子,预算仅为传统研究成本的 10%。

据咨询公司 Gartner 称,到 2025 年,超过 30% 的新药和新材料将使用生成人工智能发现。

合成脑补体 MRI

抽样偏差是面部识别技术受到抨击的原因之一。一些面部识别工具存在以下问题:深色皮肤的人比浅肤色的人识别得少,或者女性的识别度低于男性。这些记录在案的偏见通常与培训数据库中某些群体的代表性不足有关,这可能导致对部分人口的歧视。

为避免抽样偏差,人工智能工程师需要捕捉人口多样性的数据集。然而,这些数据集很少,并且由于生物特征数据的敏感性,它们的使用受到限制。

合成数据有助于减少抽样偏差。生成模型一开始仍然需要用真实的面孔进行训练,之后设计者可以根据不同的属性(性别、年龄、肤色等)微调合成数据的生成生成率法,以平衡数据集。

合成数据的另一个好处是它克服了敏感数据的机密性所带来的限制,并降低了干预的风险。生成模型产生的数据虽然是真实的,但仍然是与任何人无关的合成数据。几项研究试图表明合成数据在保护个人隐私的同时可以与真实数据一样有用。

Datagen、Synthesis AI 等公司专门研究合成人脸。在瑞士,由 Idiap 研究所开展的 SAFER 项目由苏黎世大学和 SICPA 参与,旨在使用合成人脸创建一个具有代表性的数据库,用于“道德人脸识别”工具。