苹果采用了一种不同的方法:使用“标准化流”

该行业通常会使用传播或自称模型开发AI传记模型。最近的Apple文章显示,该公司选择了一种“遗忘”流技术来开发相应的模型。如报道,这种“标准化传输”技术是一种生成模型,在学习数学转换并将噪声恢复为图像样本时,将真实数据(例如图像)转换为结构化噪声。它最大的优势是它可以准确计算产生图像的概率的能力。这是通过扩散模型无法完成的事情。此功能使标准化流动对需要高概率的任务具有独特的吸引力。但是,由于高研发成本以及使用相应的技术通常相对含糊且缺乏Detalle的相应技术,因此这种模型并不常见。指的是苹果文档“标准化流程是一种胜任的生成模型”,我们推出了一个新的归一化流技术模型称为TARFLOW(自动变压器 - 转向流)。该模型的核心思想是将“小块”中生成的大图像分开,并在相应的块中生成一系列像素。每个图像的像素的产生取决于先前生成的零件以形成完整的图像。因此,在固定词汇中压缩图像时,可以有效避免质量和刚性性能问题的丧失。当然,TARFLOW在高分辨率图像的产生中仍然存在局限性,这导致了第二项研究:“星流:攀登高分辨率图像合成的潜在归一化流程”。在参考此文档时,Apple提出了一个基于tartflow的扩展版本:Starflow(Trans -Scale自动慢速流)。该模型中最大的改进是它在“潜在空间”中起作用,而不是直接在像素级别生成图像,首先生成一个CO图像的表述,然后通过解码器扩增和恢复。因此,该模型无法预测数百万像素,而是首先处理图像的一般结构并提高了生产效率而不会失去质量,以取代解码器的细节。此外,Starflow还改善了文本指示的处理方式。它没有构建专用的文本编码器,而是可以在设备上直接执行以处理用户语言指令的呼叫(例如小型Google Gemma语言模型)。通过这种方式,模型的模型生成部分可以专注于生成和优化图像的细节。 

Related Posts

Comments are closed.