0
大语言模型的应用场景每天都在指数级增长。OpenAI、Anthropic和Google的新图像与视频生成能力,更是大幅加速了这一进程。前沿模型早已超越单纯的文本写作,如今正深度参与各类创意与技术工作流——而这些工作过去需要用户投入大量精力并具备专业知识。
AI辅助UI和UX设计师的工作并不令人意外。真正值得探讨的是,这种辅助能延伸到何种程度?一个真正的设计师能否完全放手,让模型独立完成面向消费者的网站线框图,并得到可直接推进的成果?带着这个问题,我对ChatGPT 5.5、Claude Sonnet 4.6和Gemini 3.1 Pro进行了实测。
测试目标很明确:检验领先的LLM能否匹配甚至超越人类直觉。为保持一致性,我采用了极简方案——与之前的模型基准测试相同。三个模型收到完全一致的提示词:"为体育博彩网站设计一个线框图。"没有额外背景、约束条件或创意方向。为增加评估维度,我追加了一个请求:"基于生成的线框图创建一个HTML页面 mock-up。"
测试遵循标准的零样本(zero-shot)方法。如果模型真的准备好辅助专业设计工作流,理想情况下它们应展现出一定的直觉智能,无需设计师事无巨细地指导每一步——我称之为"手把手教学"。
三个模型的输出采用启发式评估法进行评判。这是评估用户界面的成熟可用性检测方法,Jakob Nielsen的十条可用性启发式原则是该方法的工业黄金标准。不过,将十条原则全部应用于静态HTML页面在方法论上并不合理,因为部分原则预设了实时交互、错误状态和用户流程,而单一mock-up无法呈现。因此我筛选出三条可实质性评估的原则:系统状态可见性、系统与现实世界的匹配度,以及美观简约的设计。
结果分化明显。Gemini 3.1 Pro垫底——它在架构层面理解了任务,左侧体育菜单复刻了真实博彩网站的布局,展现出对通用设计原则的合理掌握。但HTML mock-up暴露了明显短板:内容密度过于稀疏,页面下半部分明显未完成,缺乏关键功能模块。