0
去年,一位视障软件工程师和家人去了偏远山区。风景绝美,家人拍照、回看、分享。他也举起手机,朝着热闹的方向按快门——但完全不知道自己拍到了什么。
回家后,他打开手机上所有AI无障碍工具。全部失效:没网。没信号。没WiFi。他把手机塞回口袋,只能听风声和鸟鸣——那是整片风景里,他唯一能触及的部分。
他不是问"为什么总是这样",而是问"到底怎么才能解决"。PhotoLens由此诞生。
这是一款专为视障和低视力用户打造的Android相册应用,核心卖点极其明确:完全离线、端侧运行、零上传。它用Gemma 4模型配合LiteRT-LM推理框架,在本地生成照片的自然语言描述——不需要网络,不涉及云端,不碰隐私。
现有AI图像描述工具的致命缺陷是云依赖。盲人在偏远地区、飞机上、信号死角,或流量受限时,这些工具集体哑火。用户被迫回到原点:求人帮忙,或干脆放弃。对依赖技术维持日常独立性的群体而言,"有网才能用"是一种结构性失败——而这是可以避免的。
PhotoLens的功能设计围绕真实使用场景:点击照片获取主体、构图、氛围和场景的描述;可开启自动描述模式,浏览时实时生成;支持"思考模式",先展示模型的推理链条再给出结论;利用Gemma 4的函数调用能力,单次推理同时提取图像质量、情感色调和分类标签;描述不准可一键重生成;全程兼容TalkBack屏幕阅读器,不是事后补丁,而是首要设计目标。
技术选型上,Gemma 4的4B参数规模在移动端可控,配合LiteRT-LM的量化优化,让消费级Android设备能流畅运行。关键不是参数最大,而是在"能塞进手机"和"描述质量够用"之间找到平衡点。
这款应用的真正价值在于重新分配控制权。视障用户不必再向他人解释"帮我看看这张照片拍的是什么",不必再因网络条件被踢出数字生活。照片是私人记忆,描述这些记忆的AI也应该留在私人设备里。
开发者用自身困境验证了需求真实性——这是产品叙事里最硬的证据。