商汤科技与南洋理工大学联合发布NEO-unify预览版,该架构摒弃传统视觉编码器与变分自编码器,采用端到端原生设计,直接从像素与文本中学习。在图像重建任务中,其性能接近Flux VAE,图像编辑基准得分达3.32分。研究表明,该架构在理解与生成能力上协同提升,数据训练效率优于现有方案。