2536c937e3
翻译自英文原版 maths-cs-ai-compendium,共 20 章全部完成。 第01章 向量 | 第02章 矩阵 | 第03章 微积分 第04章 统计学 | 第05章 概率论 | 第06章 机器学习 第07章 计算语言学 | 第08章 计算机视觉 | 第09章 音频与语音 第10章 多模态学习 | 第11章 自主系统 | 第12章 图神经网络 第13章 计算与操作系统 | 第14章 数据结构与算法 第15章 生产级软件工程 | 第16章 SIMD与GPU编程 第17章 AI推理 | 第18章 ML系统设计 第19章 应用人工智能 | 第20章 前沿人工智能 翻译说明: - 所有数学公式 $...$ / $$...$$、代码块、图片引用完整保留 - mkdocs.yml 配置中文导航 + language: zh - README.md 已翻译为中文(兼 docs/index.md) - docs/ 目录包含指向各章文件的 symlink - 约 29,000 行中文内容,排除 .cache/ 构建缓存
50 lines
4.1 KiB
XML
50 lines
4.1 KiB
XML
<svg width="700" height="260" xmlns="http://www.w3.org/2000/svg">
|
|
<text x="350" y="22" fill="#333" font-size="14" font-weight="bold" text-anchor="middle">Tokenisation Strategies for "unhappiness"</text>
|
|
|
|
<!-- Word-level -->
|
|
<text x="30" y="72" fill="#e74c3c" font-size="12" font-weight="bold">Word:</text>
|
|
<rect x="120" y="52" width="150" height="32" rx="6" fill="#e74c3c" opacity="0.12" stroke="#e74c3c" stroke-width="1.5"/>
|
|
<text x="195" y="73" fill="#e74c3c" font-size="13" text-anchor="middle">unhappiness</text>
|
|
<text x="400" y="72" fill="#666" font-size="10">1 token — compact, but rare words get unknown token</text>
|
|
|
|
<!-- Character-level -->
|
|
<text x="30" y="137" fill="#3498db" font-size="12" font-weight="bold">Character:</text>
|
|
<g>
|
|
<rect x="120" y="117" width="28" height="32" rx="4" fill="#3498db" opacity="0.12" stroke="#3498db" stroke-width="1"/>
|
|
<text x="134" y="138" fill="#3498db" font-size="12" text-anchor="middle">u</text>
|
|
<rect x="152" y="117" width="28" height="32" rx="4" fill="#3498db" opacity="0.12" stroke="#3498db" stroke-width="1"/>
|
|
<text x="166" y="138" fill="#3498db" font-size="12" text-anchor="middle">n</text>
|
|
<rect x="184" y="117" width="28" height="32" rx="4" fill="#3498db" opacity="0.12" stroke="#3498db" stroke-width="1"/>
|
|
<text x="198" y="138" fill="#3498db" font-size="12" text-anchor="middle">h</text>
|
|
<rect x="216" y="117" width="28" height="32" rx="4" fill="#3498db" opacity="0.12" stroke="#3498db" stroke-width="1"/>
|
|
<text x="230" y="138" fill="#3498db" font-size="12" text-anchor="middle">a</text>
|
|
<rect x="248" y="117" width="28" height="32" rx="4" fill="#3498db" opacity="0.12" stroke="#3498db" stroke-width="1"/>
|
|
<text x="262" y="138" fill="#3498db" font-size="12" text-anchor="middle">p</text>
|
|
<rect x="280" y="117" width="28" height="32" rx="4" fill="#3498db" opacity="0.12" stroke="#3498db" stroke-width="1"/>
|
|
<text x="294" y="138" fill="#3498db" font-size="12" text-anchor="middle">p</text>
|
|
<rect x="312" y="117" width="28" height="32" rx="4" fill="#3498db" opacity="0.12" stroke="#3498db" stroke-width="1"/>
|
|
<text x="326" y="138" fill="#3498db" font-size="12" text-anchor="middle">i</text>
|
|
<rect x="344" y="117" width="28" height="32" rx="4" fill="#3498db" opacity="0.12" stroke="#3498db" stroke-width="1"/>
|
|
<text x="358" y="138" fill="#3498db" font-size="12" text-anchor="middle">n</text>
|
|
<rect x="376" y="117" width="28" height="32" rx="4" fill="#3498db" opacity="0.12" stroke="#3498db" stroke-width="1"/>
|
|
<text x="390" y="138" fill="#3498db" font-size="12" text-anchor="middle">e</text>
|
|
<rect x="408" y="117" width="28" height="32" rx="4" fill="#3498db" opacity="0.12" stroke="#3498db" stroke-width="1"/>
|
|
<text x="422" y="138" fill="#3498db" font-size="12" text-anchor="middle">s</text>
|
|
<rect x="440" y="117" width="28" height="32" rx="4" fill="#3498db" opacity="0.12" stroke="#3498db" stroke-width="1"/>
|
|
<text x="454" y="138" fill="#3498db" font-size="12" text-anchor="middle">s</text>
|
|
</g>
|
|
<text x="510" y="137" fill="#666" font-size="10">11 tokens — no unknowns, but very long</text>
|
|
|
|
<!-- Subword (BPE) -->
|
|
<text x="30" y="207" fill="#27ae60" font-size="12" font-weight="bold">Subword:</text>
|
|
<rect x="120" y="187" width="55" height="32" rx="6" fill="#27ae60" opacity="0.12" stroke="#27ae60" stroke-width="1.5"/>
|
|
<text x="147" y="208" fill="#27ae60" font-size="13" text-anchor="middle">un</text>
|
|
<rect x="185" y="187" width="80" height="32" rx="6" fill="#27ae60" opacity="0.12" stroke="#27ae60" stroke-width="1.5"/>
|
|
<text x="225" y="208" fill="#27ae60" font-size="13" text-anchor="middle">happi</text>
|
|
<rect x="275" y="187" width="65" height="32" rx="6" fill="#27ae60" opacity="0.12" stroke="#27ae60" stroke-width="1.5"/>
|
|
<text x="307" y="208" fill="#27ae60" font-size="13" text-anchor="middle">ness</text>
|
|
<text x="400" y="207" fill="#666" font-size="10">3 tokens — best of both: compact and open vocab</text>
|
|
|
|
<!-- Bottom note -->
|
|
<text x="350" y="250" fill="#666" font-size="10" text-anchor="middle">Subword tokenisation (BPE) approximates morphological analysis from data</text>
|
|
</svg> |