IntroToProgramming
diff --git a/‎docs/.vitepress/config.js‎
Lines changed: 4 additions & 1 deletion b/‎docs/.vitepress/config.js‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎docs/agentic-ai/index.md‎
Lines changed: 1 addition & 1 deletion b/‎docs/agentic-ai/index.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/agentic-ai/intro.md‎
Lines changed: 9 additions & 8 deletions b/‎docs/agentic-ai/intro.md‎
Lines changed: 9 additions & 8 deletions
diff --git a/‎docs/agentic-ai/multimodal-creativity.md‎
Lines changed: 44 additions & 3 deletions b/‎docs/agentic-ai/multimodal-creativity.md‎
Lines changed: 44 additions & 3 deletions
@@ -68,7 +68,10 @@ module.exports = {
               text: "多模态创作能力",
               link: "/agentic-ai/multimodal-creativity",
             },
-            { text: "逻辑与推理", link: "/agentic-ai/reasoning-logic" },
+            {
+              text: "高级 Prompting 与推理增强",
+              link: "/agentic-ai/reasoning-logic",
+            },
             { text: "AI Coding 实践", link: "/agentic-ai/ai-coding" },
             { text: "Agent 机制与构建", link: "/agentic-ai/agentic-system" },
             { text: "Agent 实践与治理", link: "/agentic-ai/agent-practice" },
 
@@ -2,7 +2,7 @@
 layout: home
 hero:
   name: Agentic AI 入门指南
-  text: 从对话到 Agents
+  text: 从对话到 Agent
   tagline: 使用 Agentic AI 自动化你的一切
   image:
     src: /agentic-ai.png
 
@@ -1,4 +1,4 @@
-# Agentic AI：从对话到行动
+# Agentic AI：从对话到 Agent
 
 2022 年末，ChatGPT 让很多人第一次直观感受到 AI 的能力。紧接着，新名词一波接一波：Prompt Engineering、Agent、RAG、CoT、MCP……
 
@@ -88,15 +88,16 @@ Agent 也是一样。上下文变长、模型推理变强、工具调用更稳
 
 ### 第二部分：多模态创作能力（Multimodal Creativity）
 * 升级对齐定律：底层模型升级如何降低技巧门槛。
-* 视觉创作：图像生成的基本技能与思维方式。
+* 视觉创作与理解：图像生成、截图分析、图表解读与设计反馈。
 * 动态叙事：视频生成与镜头语言。
 * 工作流整合：从文本到多媒体的创作链路。
 
-### 第三部分：逻辑与推理（Reasoning & Logic）
-* 深度思考：用 Chain of Thought 拆解多步骤问题。
-* 准确性控制：上下文管理与幻觉识别。
-* 信息管理：长文档与知识库应用。
-* 常见陷阱：确认偏误、盲目信任等思维层面的反模式。
+### 第三部分：高级 Prompting 与推理增强（Advanced Prompting & Reasoning）
+* Chain-of-thought：把复杂问题拆成可检查的假设、依据和结论。
+* ReAct：让 AI 在推理、行动和观察之间循环推进任务。
+* RAG：先检索外部知识，再基于资料生成回答。
+* 模型原生推理：理解强推理模型如何改变提示词写法。
+* 准确性控制：幻觉、确认偏误和高风险节点的验证方法。
 
 --- *（以下章节面向开发者与进阶创造者）* ---
 
@@ -124,7 +125,7 @@ Agent 也是一样。上下文变长、模型推理变强、工具调用更稳
 * M×N Gateway：企业级 Agent 集成的概念。
 
 ### 技术附录
-* API 调用与 Function Calling：用 JavaScript 调用 LLM、Embedding、Image API。
+* API 调用与 Function Calling：用 JavaScript 调用 LLM、Embedding、Image、Audio API。
 * RAG 技术详解：向量嵌入、HNSW 索引、混合搜索策略。
 
 ## 小结
 
@@ -94,6 +94,44 @@ shot on Sony A7III, 35mm lens, shallow depth of field,
 
 这个过程和写代码很像：先跑通 MVP，再迭代优化。
 
+## 视觉理解：AI 也能读懂图片
+
+多模态不只是“生成图片”。另一类同样重要的能力，是让 AI 识别和理解图片。
+
+你可以把一张图片发给模型，让它回答：
+
+- 这张图里有什么？
+- 这张截图里的报错是什么意思？
+- 这张表格或图表表达了什么趋势？
+- 这张设计稿里有哪些信息层级和排版问题？
+
+这类能力通常叫视觉理解（Vision Understanding）或图像理解（Image Understanding）。它让 AI 从只能处理文字，变成可以处理“文字 + 图像”的上下文。
+
+### 视觉理解适合做什么？
+
+最常见的场景有几类。
+
+**读截图**：把报错截图、产品界面、网页截图发给 AI，让它帮你定位信息、解释界面状态、提出修改建议。
+
+**读图表**：把柱状图、折线图、仪表盘截图发给 AI，让它总结趋势，指出异常点，再转成文字报告。
+
+**读资料**：把白板照片、手写笔记、PPT 截图发给 AI，让它整理成结构化文本。
+
+**读设计**：把海报、封面、UI 设计稿发给 AI，让它检查布局、视觉重点、文案层级和一致性。
+
+这里的关键不是“AI 会看图”本身，而是它可以把图像内容接入后续推理：先看懂图片，再解释、归纳、改写、生成下一步方案。
+
+### 视觉理解的限制
+
+视觉模型很强，但不要把它当成精确测量工具。
+
+- 它可能看错细小文字、数字、小图标。
+- 它可能无法准确判断真实尺寸、距离、材质。
+- 它对专业图像的理解需要人来复核，比如医学影像、法律证据、工程图纸。
+- 它能描述图片内容，但不等于拥有图片来源、版权、拍摄时间等外部事实。
+
+所以更稳妥的用法是：让 AI 做第一轮观察、整理和解释，再由人确认关键结论。
+
 ## 动态叙事：视频生成与镜头语言
 
 视频生成不是“把图动起来”，而是“把故事拆成镜头”。
@@ -133,8 +171,9 @@ shot on Sony A7III, 35mm lens, shallow depth of field,
 1. 用文本 AI 生成创意大纲。
 2. 用文本 AI 把大纲扩展成分镜脚本。
 3. 用图像 AI 为每个镜头生成参考画面。
-4. 用视频工具把画面串成动态故事板。
-5. 最后进行剪辑与排版。
+4. 用视觉模型检查参考画面是否符合分镜意图。
+5. 用视频工具把画面串成动态故事板。
+6. 最后进行剪辑与排版。
 
 每一步都可回退、可修正、可复用。每一步的输出都是下一步的输入。
 
@@ -157,6 +196,7 @@ shot on Sony A7III, 35mm lens, shallow depth of field,
 - 多模态创作的重点是精确表达，不是“会用工具”。
 - 图像生成工具在演进：从复杂参数到结构化控制到一句话生成，但表达的精度要求没变。
 - 图像生成的要点：明确主体、给参考材料、加约束条件、分步迭代。
+- 视觉理解让 AI 可以读取截图、图表、设计稿和资料图片，但关键结论仍然需要人复核。
 - 视频生成需要镜头语言思维，AI 擅长策划和素材生成，最终把控仍需人工。
 - 音频生成（音乐、语音合成、语音识别）门槛更低，但可控性也相对较低。
 - 工作流让多模态创作从单点操作变成可迭代的系统。
@@ -165,7 +205,8 @@ shot on Sony A7III, 35mm lens, shallow depth of field,
 
 1. 找一个图像生成工具，分别用“一句话”和“详细描述”生成同一主题的图，对比结果差异，思考为什么。
 2. 选一张你喜欢的图片，尝试用文字精确描述它的内容：包括主体、风格、构图、色调。然后用这个描述让 AI 生成一张类似的图。
-3. 把一个 30 秒短视频的想法拆成 3-5 个镜头，写出每个镜头的景别、运动和内容。
+3. 找一张复杂截图或图表，让 AI 先描述它看到了什么，再让它总结三个关键结论，检查哪些地方需要人工修正。
+4. 把一个 30 秒短视频的想法拆成 3-5 个镜头，写出每个镜头的景别、运动和内容。
 
 ## 延伸阅读