Files
maths-cs-ai-compendium-zh/images/unified_vision_language_tokens.svg
T
flykhan 2536c937e3 feat: 完整中文翻译 maths-cs-ai-compendium(数学·计算机科学·AI 知识大全)
翻译自英文原版 maths-cs-ai-compendium,共 20 章全部完成。

第01章 向量 | 第02章 矩阵 | 第03章 微积分
第04章 统计学 | 第05章 概率论 | 第06章 机器学习
第07章 计算语言学 | 第08章 计算机视觉 | 第09章 音频与语音
第10章 多模态学习 | 第11章 自主系统 | 第12章 图神经网络
第13章 计算与操作系统 | 第14章 数据结构与算法
第15章 生产级软件工程 | 第16章 SIMD与GPU编程
第17章 AI推理 | 第18章 ML系统设计
第19章 应用人工智能 | 第20章 前沿人工智能

翻译说明:
- 所有数学公式 $...$ / $$...$$、代码块、图片引用完整保留
- mkdocs.yml 配置中文导航 + language: zh
- README.md 已翻译为中文(兼 docs/index.md)
- docs/ 目录包含指向各章文件的 symlink
- 约 29,000 行中文内容,排除 .cache/ 构建缓存
2026-05-03 10:23:20 +08:00

100 lines
6.1 KiB
XML

<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 800 250" width="800" height="250" font-family="Arial, sans-serif">
<!-- Title -->
<text x="400" y="22" text-anchor="middle" font-size="14" font-weight="bold" fill="#333">Unified Vision-Language Token Sequence</text>
<defs>
<marker id="uArr" markerWidth="8" markerHeight="6" refX="8" refY="3" orient="auto">
<path d="M0,0 L8,3 L0,6 Z" fill="#666"/>
</marker>
</defs>
<!-- Token sequence -->
<g transform="translate(30, 50)">
<!-- Text tokens (red) -->
<rect x="0" y="0" width="44" height="36" rx="4" fill="#e74c3c" fill-opacity="0.15" stroke="#e74c3c" stroke-width="1.2"/>
<text x="22" y="22" text-anchor="middle" font-size="10" font-weight="bold" fill="#e74c3c">The</text>
<rect x="50" y="0" width="44" height="36" rx="4" fill="#e74c3c" fill-opacity="0.15" stroke="#e74c3c" stroke-width="1.2"/>
<text x="72" y="22" text-anchor="middle" font-size="10" font-weight="bold" fill="#e74c3c">cat</text>
<rect x="100" y="0" width="44" height="36" rx="4" fill="#e74c3c" fill-opacity="0.15" stroke="#e74c3c" stroke-width="1.2"/>
<text x="122" y="22" text-anchor="middle" font-size="10" font-weight="bold" fill="#e74c3c">is</text>
<!-- Separator bracket -->
<text x="156" y="22" text-anchor="middle" font-size="12" fill="#ccc">[</text>
<!-- Image tokens (blue) -->
<rect x="166" y="0" width="44" height="36" rx="4" fill="#3498db" fill-opacity="0.15" stroke="#3498db" stroke-width="1.2"/>
<text x="188" y="22" text-anchor="middle" font-size="10" font-weight="bold" fill="#3498db">42</text>
<rect x="216" y="0" width="44" height="36" rx="4" fill="#3498db" fill-opacity="0.15" stroke="#3498db" stroke-width="1.2"/>
<text x="238" y="22" text-anchor="middle" font-size="10" font-weight="bold" fill="#3498db">7</text>
<rect x="266" y="0" width="44" height="36" rx="4" fill="#3498db" fill-opacity="0.15" stroke="#3498db" stroke-width="1.2"/>
<text x="288" y="22" text-anchor="middle" font-size="10" font-weight="bold" fill="#3498db">156</text>
<rect x="316" y="0" width="44" height="36" rx="4" fill="#3498db" fill-opacity="0.15" stroke="#3498db" stroke-width="1.2"/>
<text x="338" y="22" text-anchor="middle" font-size="10" font-weight="bold" fill="#3498db">89</text>
<rect x="366" y="0" width="44" height="36" rx="4" fill="#3498db" fill-opacity="0.15" stroke="#3498db" stroke-width="1.2"/>
<text x="388" y="22" text-anchor="middle" font-size="10" font-weight="bold" fill="#3498db">3</text>
<rect x="416" y="0" width="44" height="36" rx="4" fill="#3498db" fill-opacity="0.15" stroke="#3498db" stroke-width="1.2"/>
<text x="438" y="22" text-anchor="middle" font-size="10" font-weight="bold" fill="#3498db">211</text>
<!-- Separator bracket -->
<text x="472" y="22" text-anchor="middle" font-size="12" fill="#ccc">]</text>
<!-- More text tokens (red) -->
<rect x="482" y="0" width="64" height="36" rx="4" fill="#e74c3c" fill-opacity="0.15" stroke="#e74c3c" stroke-width="1.2"/>
<text x="514" y="22" text-anchor="middle" font-size="10" font-weight="bold" fill="#e74c3c">sitting</text>
<rect x="552" y="0" width="44" height="36" rx="4" fill="#e74c3c" fill-opacity="0.15" stroke="#e74c3c" stroke-width="1.2"/>
<text x="574" y="22" text-anchor="middle" font-size="10" font-weight="bold" fill="#e74c3c">on</text>
<rect x="602" y="0" width="44" height="36" rx="4" fill="#3498db" fill-opacity="0.15" stroke="#3498db" stroke-width="1.2"/>
<text x="624" y="22" text-anchor="middle" font-size="10" font-weight="bold" fill="#3498db">64</text>
<text x="658" y="22" font-size="14" fill="#999">...</text>
<!-- Labels above -->
<text x="72" y="-8" text-anchor="middle" font-size="9" fill="#e74c3c">text tokens</text>
<line x1="0" y1="-4" x2="144" y2="-4" stroke="#e74c3c" stroke-width="0.5" stroke-dasharray="2,2"/>
<text x="310" y="-8" text-anchor="middle" font-size="9" fill="#3498db">image tokens</text>
<line x1="166" y1="-4" x2="460" y2="-4" stroke="#3498db" stroke-width="0.5" stroke-dasharray="2,2"/>
<text x="548" y="-8" text-anchor="middle" font-size="9" fill="#e74c3c">text tokens</text>
<line x1="482" y1="-4" x2="596" y2="-4" stroke="#e74c3c" stroke-width="0.5" stroke-dasharray="2,2"/>
</g>
<!-- Arrows flowing down to Transformer -->
<!-- Multiple arrows from token sequence to transformer -->
<line x1="100" y1="92" x2="100" y2="128" stroke="#ccc" stroke-width="1"/>
<line x1="200" y1="92" x2="200" y2="128" stroke="#ccc" stroke-width="1"/>
<line x1="300" y1="92" x2="300" y2="128" stroke="#ccc" stroke-width="1"/>
<line x1="400" y1="92" x2="400" y2="128" stroke="#ccc" stroke-width="1"/>
<line x1="500" y1="92" x2="500" y2="128" stroke="#ccc" stroke-width="1"/>
<line x1="600" y1="92" x2="600" y2="128" stroke="#ccc" stroke-width="1"/>
<line x1="700" y1="92" x2="700" y2="128" stroke="#ccc" stroke-width="1"/>
<!-- Big downward arrow -->
<path d="M400,92 L400,125" fill="none" stroke="#666" stroke-width="2" marker-end="url(#uArr)"/>
<!-- Transformer box -->
<rect x="170" y="132" width="460" height="60" rx="8" fill="#9b59b6" fill-opacity="0.1" stroke="#9b59b6" stroke-width="1.5"/>
<text x="400" y="160" text-anchor="middle" font-size="14" font-weight="bold" fill="#9b59b6">Transformer</text>
<text x="400" y="178" text-anchor="middle" font-size="9" fill="#666">shared self-attention over all token types</text>
<!-- Uniform treatment annotation -->
<rect x="190" y="204" width="420" height="28" rx="6" fill="#333" fill-opacity="0.04" stroke="#ccc" stroke-width="0.8"/>
<text x="400" y="222" text-anchor="middle" font-size="10" fill="#333">All tokens (text + image) are processed uniformly in a single sequence</text>
<!-- Legend -->
<g transform="translate(250, 238)">
<rect x="0" y="0" width="14" height="10" rx="2" fill="#e74c3c" fill-opacity="0.15" stroke="#e74c3c" stroke-width="1"/>
<text x="20" y="9" font-size="9" fill="#666">Text token (from tokeniser)</text>
<rect x="170" y="0" width="14" height="10" rx="2" fill="#3498db" fill-opacity="0.15" stroke="#3498db" stroke-width="1"/>
<text x="190" y="9" font-size="9" fill="#666">Image token (from VQ encoder)</text>
</g>
</svg>