要为 HelloWorld 翻译软件创建术语库,先明确覆盖语言与语域,制定统一条目格式(原文、译文、词性、语域、上下文、权重、来源等),通过爬取语料、人工编辑和专家审核建立初稿,使用双向对齐与示例句验证,配合版本控制、权限管理和质量指标(一致率、使用频次、审校通过率)实现持续迭代。把制度、工具和人组织起来,术语库才能既实用又可维护。
为什么需要专门的术语库

先把它想象成厨房里的调味罐:通用词像盐和油,专业术语像各种香料。翻译软件如果没有稳定的术语表,不同文本、不同译者会出现口径不一的译法,特别是跨语种、跨行业时更容易翻车。术语库的价值在于把这些“香料”统一起来,让翻译风格和专业性保持一致,提高效率、降低误译风险。
术语库的基本构成(就像一张卡片)
每个术语要像身份证一样清晰,谁都能读懂它代表什么、什么时候用。下面是推荐的字段与含义:
| 字段 | 说明 |
| 原文(source term) | 源语言词或短语,精确写法 |
| 目标译文(target term) | 标准译法或若干候选译法 |
| 词性 / 术语类型 | 名词、动词、专有名词、品牌、缩写等 |
| 语域 / 适用场景 | 法律、医疗、IT、营销、用户界面等 |
| 上下文示例 | 至少一两个原句与对应译句 |
| 来源与证据 | 出处(手册、标准、客户要求)与审校记录 |
| 优先级 / 权重 | 高频/低频,是否强制应用 |
| 状态与版本 | 草稿/批准/废弃与版本号 |
| 责任人 / 审核人 | 谁提交、谁批准、最后更新时间 |
构建流程:像盖房子一样分阶段来做
把复杂任务拆成几层,先打地基再搭框架,最后装修。
1. 明确范围与优先级
- 确定覆盖的语言对(如中英、中日等)和业务领域(产品说明、UI、技术文档)。
- 先做 MVP:挑最常用的 500–2000 个术语,快速上线验证价值。
2. 数据采集:哪里来术语
- 内部资源:产品手册、FAQ、已有翻译记忆库(TM)、客户术语表。
- 外部资源:行业标准、学术论文、权威词典、翻译社区。
- 自动抓取:基于关键字和并行语料的自动抽取,但务必人工复核。
3. 标准化条目格式
统一格式可以让术语在机器和人工之间无缝流转。建议采用可导出的通用格式(CSV/TSV、TBX、TMX),并明确每列含义。
4. 人工审校与专家复核
- 机器先做初稿,语言专家与行业专家做复核,必要时与产品团队确认。
- 建立审校流程:提交 → 初审 → 专家审核 → 批准上链。
5. 版本管理与发布策略
像代码一样管理术语:每次变更都要有记录,能够回滚。发布可以分为“测试环境”和“生产环境”。
实现细节:工具、格式与集成
这里讲点“手艺”层面的东西,方便落地实施。
推荐的文件格式
- TBX(TermBase eXchange):标准术语交换格式,适合跨系统导入导出。
- CSV/TSV:简单、通用,适合快速迭代和人工编辑。
- TMX:更多用于翻译记忆,但可与术语库配合使用。
技术栈与存储
- 轻量级:SQLite 或 JSON 存储用于本地原型与小团队。
- 生产级:关系型数据库(PostgreSQL)或 NoSQL(MongoDB)配合全文检索(Elasticsearch)。
- API 层:RESTful 或 gRPC 提供检索、更新与权限控制接口,方便与翻译引擎和 CAT 工具对接。
与翻译引擎的集成
- 预处理:在机器翻译前进行术语替换或加权,确保核心术语优先输出。
- 后处理:对译文进行术语一致性检查并替换不一致译法。
- 双向确认:MT 输出反馈到术语库,记录新术语候选并交由人工审核。
质量控制与评估指标(不能光靠感觉)
要有量化指标,就像体检一样定期检验术语库是否健康。
- 术语一致率:候选翻译中使用术语库条目的比例。
- 审校通过率:新增条目被专家批准的百分比。
- 命中率:在实际翻译项目中被调用的术语比例和频次。
- 误用/纠错次数:被反馈为错误或不当使用的情况。
- 覆盖率:术语库对目标语料(例如产品手册)的覆盖百分比。
治理与权限(谁能改、怎么改)
没有治理,术语库会变成杂物间。简单明确的角色与流程能节省很多争论时间。
- 角色示例:贡献者(提交候选)、语言审校(语言专家)、领域审校(行业专家)、管理员(发布与权限)。
- 每次变更需记录责任人、变更理由与时间,保留评论与审查历史。
示例条目(实际长什么样)
下面是几个简短示例,模仿真实库存卡片。
| 原文 | 译文 | 词性 | 语域 | 示例句 |
| rollback | 回滚 | 动词/名词 | IT/数据库 | After the failed update, we had to perform a rollback. → 在更新失败后,我们执行了回滚。 |
| onboarding | 入职引导;项目接入 | 名词 | HR / SaaS | New hire onboarding takes two weeks. → 新员工入职引导为期两周。 |
| API | 应用程序接口(API) | 缩写/专有名词 | 通用 | Integrate with the public API. → 与公共应用程序接口集成。 |
常见问题与实用建议(像朋友聊家常)
问:术语库越大越好吗?
不一定。质量比数量重要。一个包含大量未经验证的候选译法的“大库”,反而会降低一致性。先做小而精的核心术语表,随着项目需求再扩展。
问:自动化能取代人工吗?
目前还不能完全替代。机器在抽取、初步对齐、统计频次方面能节省大量人力,但语义歧义、行业约定与风格偏好需要人来把关。把机器当成“学徒”,人工是“师傅”。
问:如何处理多种译法并存?
- 记录候选译法并注明适用场景与偏好(如“首选”、“可选”)。
- 提供示例句,帮助选择最自然的译法。
- 采用权重和投票机制决定默认译法。
维护与长期运营(别把它当一次性工程)
术语库是个活的东西,需要定期“喂养”。制定周期性的审查计划(如季度回顾),建立反馈渠道(译者、客户、客服),并把新学到的用法纳入候选清单。
自动收集反馈的办法
- 在翻译平台加入“建议术语”按钮,直接把候选词条推入工作流。
- 自动统计译者替换术语的情况,作为候选新增依据。
- 从用户支持对话中抽取高频命名实体与专业词汇。
落地的心态与小技巧(别太完美主义)
刚开始不要追求完美。把术语库当成“最小可用产品”,先解决最痛的问题。常见的小技巧:
- 设定“每日 5 条术语”目标,团队每日积累并审校,半年就有 900 条左右的高质量词条。
- 优先抓取 UI、错误提示、合同等高重复且影响大的文本。
- 把术语库与翻译记忆(TM)结合使用,形成协同增益。
结语(随口想的)
搭建术语库其实不复杂,但需要持续的制度和习惯:明确格式、来源可靠、人工和自动结合、版本与权限清晰、指标常态化。你会发现,术语库越做越像公司的知识资产,慢慢就不会再因为一句翻译而大家争论半天了,工作也轻松多了。
相关文章
了解更多相关内容
要实现图文混排翻译,先用 OCR 提取图片中的文本并纠错,确认文本段落与排版结构;再进行逐句翻译,建立术语表与翻译记忆库以确保术语一致;最后将翻译文本嵌入原图布局,处理字体、字号、颜色与对比度,确保可读性与语境自然传达。
一、图文混排翻译的挑战与机理 图文混排翻...
阅读更多 →