AI初创公司Inception Labs正式推出基于扩散架构的推理大模型Mercury 2,该模型通过并行处理多个文本块实现高效推理。在NVIDIA Blackwell GPU上,Mercury 2端到端延迟仅1.7秒,显著优于Gemini 3 Flash和Claude Haiku 4.5,生成质量与主流高速模型相当。其输入/输出每百万token定价分别为0.25美元和0.75美元,支持128K上下文、工具调用及JSON输出,适用于语音助手、编码工具等低延迟场景,现已开放早期访问。