NLLB与SentencePiece在MoeTranslate中的技术实现
发表于|更新于|面试准备
|浏览量:
公告
This is my Blog
目录
- 1. 目录
- 2. 1. 技术栈总览
- 3. 2. NLLB模型背景知识
- 4. 3. SentencePiece分词器原理
- 5. 4. 系统架构与完整翻译流程
- 6. 5. JNI桥接机制详解
- 7. 6. 分词(Tokenization)实现详解
- 8. 7. ONNX Runtime推理引擎详解
- 9. 8. 自回归解码与KV-Cache优化详解
- 10. 9. 解码(Detokenization)实现详解
- 11. 10. 工程优化与设计考量
- 12. 11. 面试高频问题与回答建议
- 12.1. Q1: 为什么选择在端侧部署NLLB模型,而不是调用云端API?
- 12.2. Q2: 什么是SentencePiece?为什么NLLB需要它?
- 12.3. Q3: 解释一下JNI在项目中的作用和工作原理
- 12.4. Q4: 什么是KV-Cache?为什么要使用它?
- 12.5. Q5: Token ID为什么需要做偏移校正?
- 12.6. Q6: 为什么模型被拆分为4个ONNX文件?
- 12.7. Q7: Greedy Search和Beam Search有什么区别?为什么选择Greedy Search?
- 12.8. Q8: 整个翻译过程的性能瓶颈在哪里?
- 12.9. Q9: 翻译长文本时是怎么处理的?
- 12.10. Q10: 如果让你优化这个端侧翻译系统,你会从哪些方面入手?