テンセントが9月28日、新たな画像生成AIモデル「Hunyuan Image 3.0」を発表した。GitHub、Hugging Face上で公開されている。
テキストと画像を同一モデル内で処理する「ネイティブ・マルチモーダル」構造を採用する点が特徴。パラメーター数は80B(800億)。1トークンあたり13Bのパラメータがアクティブに動作することで、生成精度を維持しながら推論効率を高めている。
旧モデルのHunyuan Image 2.0は、文脈の理解と画像の生成を別々に処理していたため、プロンプトの意図を汲んだ生成に限界があった。Hunyuan Image 3.0ではこれらを同一空間で扱えるため、「犬が走っている」といった短いプロンプトであっても、背景や構図、光の方向まで推定し、より自然な画像を生成できるようになっている。
性能面では、ユーザーによるブラインド評価でスコアを出すLMArenaの結果が注目を集めている。Hunyuan Image 3.0は最新の評価で1167点を獲得し、グーグル「Nano Banana(Gemini 2.5 Flash Image)」の1151点、ByteDance「Seedream 4.0」の1144点を上回り、10月4日時点で首位に立った。特に「意味の整合性」「ディテールの表現」「色調のバランス」で高い評価を得たとされている。