@@ -94,6 +94,44 @@ shot on Sony A7III, 35mm lens, shallow depth of field,
9494
9595这个过程和写代码很像:先跑通 MVP,再迭代优化。
9696
97+ ## 视觉理解:AI 也能读懂图片
98+
99+ 多模态不只是“生成图片”。另一类同样重要的能力,是让 AI 识别和理解图片。
100+
101+ 你可以把一张图片发给模型,让它回答:
102+
103+ - 这张图里有什么?
104+ - 这张截图里的报错是什么意思?
105+ - 这张表格或图表表达了什么趋势?
106+ - 这张设计稿里有哪些信息层级和排版问题?
107+
108+ 这类能力通常叫视觉理解(Vision Understanding)或图像理解(Image Understanding)。它让 AI 从只能处理文字,变成可以处理“文字 + 图像”的上下文。
109+
110+ ### 视觉理解适合做什么?
111+
112+ 最常见的场景有几类。
113+
114+ ** 读截图** :把报错截图、产品界面、网页截图发给 AI,让它帮你定位信息、解释界面状态、提出修改建议。
115+
116+ ** 读图表** :把柱状图、折线图、仪表盘截图发给 AI,让它总结趋势,指出异常点,再转成文字报告。
117+
118+ ** 读资料** :把白板照片、手写笔记、PPT 截图发给 AI,让它整理成结构化文本。
119+
120+ ** 读设计** :把海报、封面、UI 设计稿发给 AI,让它检查布局、视觉重点、文案层级和一致性。
121+
122+ 这里的关键不是“AI 会看图”本身,而是它可以把图像内容接入后续推理:先看懂图片,再解释、归纳、改写、生成下一步方案。
123+
124+ ### 视觉理解的限制
125+
126+ 视觉模型很强,但不要把它当成精确测量工具。
127+
128+ - 它可能看错细小文字、数字、小图标。
129+ - 它可能无法准确判断真实尺寸、距离、材质。
130+ - 它对专业图像的理解需要人来复核,比如医学影像、法律证据、工程图纸。
131+ - 它能描述图片内容,但不等于拥有图片来源、版权、拍摄时间等外部事实。
132+
133+ 所以更稳妥的用法是:让 AI 做第一轮观察、整理和解释,再由人确认关键结论。
134+
97135## 动态叙事:视频生成与镜头语言
98136
99137视频生成不是“把图动起来”,而是“把故事拆成镜头”。
@@ -133,8 +171,9 @@ shot on Sony A7III, 35mm lens, shallow depth of field,
1331711 . 用文本 AI 生成创意大纲。
1341722 . 用文本 AI 把大纲扩展成分镜脚本。
1351733 . 用图像 AI 为每个镜头生成参考画面。
136- 4 . 用视频工具把画面串成动态故事板。
137- 5 . 最后进行剪辑与排版。
174+ 4 . 用视觉模型检查参考画面是否符合分镜意图。
175+ 5 . 用视频工具把画面串成动态故事板。
176+ 6 . 最后进行剪辑与排版。
138177
139178每一步都可回退、可修正、可复用。每一步的输出都是下一步的输入。
140179
@@ -157,6 +196,7 @@ shot on Sony A7III, 35mm lens, shallow depth of field,
157196- 多模态创作的重点是精确表达,不是“会用工具”。
158197- 图像生成工具在演进:从复杂参数到结构化控制到一句话生成,但表达的精度要求没变。
159198- 图像生成的要点:明确主体、给参考材料、加约束条件、分步迭代。
199+ - 视觉理解让 AI 可以读取截图、图表、设计稿和资料图片,但关键结论仍然需要人复核。
160200- 视频生成需要镜头语言思维,AI 擅长策划和素材生成,最终把控仍需人工。
161201- 音频生成(音乐、语音合成、语音识别)门槛更低,但可控性也相对较低。
162202- 工作流让多模态创作从单点操作变成可迭代的系统。
@@ -165,7 +205,8 @@ shot on Sony A7III, 35mm lens, shallow depth of field,
165205
1662061 . 找一个图像生成工具,分别用“一句话”和“详细描述”生成同一主题的图,对比结果差异,思考为什么。
1672072 . 选一张你喜欢的图片,尝试用文字精确描述它的内容:包括主体、风格、构图、色调。然后用这个描述让 AI 生成一张类似的图。
168- 3 . 把一个 30 秒短视频的想法拆成 3-5 个镜头,写出每个镜头的景别、运动和内容。
208+ 3 . 找一张复杂截图或图表,让 AI 先描述它看到了什么,再让它总结三个关键结论,检查哪些地方需要人工修正。
209+ 4 . 把一个 30 秒短视频的想法拆成 3-5 个镜头,写出每个镜头的景别、运动和内容。
169210
170211## 延伸阅读
171212
0 commit comments