联系人:
所在地:
汉维哈柯文电子辞典软件研发课题来源于国家工业和信息化部制定的“2009年度国家电子信息产业发展基金项目—维哈柯语言文字软件开发及产业化”之“维哈柯文辅助翻译与电子辞典软件”项目。该项目旨在响应国家和新疆维吾尔自治区政府有关加强少数民族地区语言文化建设的政策,推广维哈柯文多语种的信息处理技术在各行业的应用,实现少数民族地区政务公开化,以及远程教育的多语种化。项目由国网新疆电力公司信息通信公司和新疆信息产业有限责任公司合作完成开发及推广工作。 汉维哈柯文辅助翻译系统项目是开发支持基于实例、词典、统计和记忆库的翻译辅助翻译软件,是完善维哈柯文信息处理标准及技术支撑体系,形成维哈柯文信息处理技术持续创新,相关软件产业化和应用互动发展的基本局面. 系统采用C/S架构实现,采用WCF服务框架实现业务功能的服务封装和服务端与客户端的通信,采用Dot Net Framework4.0框架作为开发和运行环境,基于Visual Studio 2010开发工具,采用 C# 语言、WPF技术和微软MEF模型来实现,通过数据库连接池的方式实现服务端和数据库的数据访问,数据模型采用实体框架机制实现。 系统提供的服务包括语料库管理服务、文件上传和下载服务、文件检索服务、机器翻译服务、词典查询服务、系统管理服务,数据库接口提供了数据传输过程中的信息加密、解密服务,文件读写服务等。客户端核心辅助翻译功能,包括项目管理、辅助翻译、编码转换、词典查询、语料库管理和系统升级。? 项目的汉维哈柯句子/词语对齐语料库已建设45万(每种语言15万条)条,辅助翻译平均翻译匹配度67%。在政府文献、新闻、法律等领域平均翻译匹配度90%以上,超过合同规定的平均单句辅助翻译匹配度达到60%的指标。 汉维哈柯文辅助翻译系统的关键技术: 1 基于WCF服务框架实现业务功能的服务封装和服务端与客户端的通信, 2 采用WPF技术实现界面组件的快速开发; 3 采用微软MEF插件编程框架,实现应用系统的可扩展性; 4 采用符合本地化行业标准协会(LISA)支持的Translation Memory eXchange (TMX)标准,定义多语种记忆库文件格式,实现与其他符合该标准的记忆库的兼容; 5 实现各种非标准编码与标准Unicode编码的双向转换,减少因编码不兼容而重新录入文字的工作量; 6 基于汉语和维吾尔语、哈萨克语、柯尔克孜语之间的双向翻译技术; 7 基于机器翻译引擎核心组件的语言分析组件、机器学习组件、翻译单元提取组件和翻译组件; 8 基于统计、基于实例、基于记忆库、基于词典的多策略机器翻译方式; 9 针对多种文本文档兼容的问题,包括word2003和2007文档、txt文件等常见文本文档的兼容。 汉维哈柯文辅助翻译系统的创新点: 1.提出并实现了一种改进的维吾尔语相似度计算方法: 系统实现的基于实例的机器翻译过程中,提出并实现了一种改进的维吾尔语相似度计算方法。该方法针对维吾尔语单词词频特征和黏着性语言的特点,通过对单词赋权值和词干提取技术,从而消除较长句子或组成词频低的句子相似度计算结果与实际相似度偏差较大的问题。在此基础上,提出并实现了维吾尔语句子简单结构相似度计算方法、对维吾尔语相似句子进行粗选方法、基于词的维吾尔语句子相似度计算方法,维吾尔语综合相似度计算方法。 该方法也可应用于维吾尔语文本分类、维吾尔语问答、维吾尔语摘要自动生成、维吾尔语搜索引擎等系统。 2.加密的维吾尔语倒排索引文件生成工具及其方法: 系统实现的基于实例的机器翻译过程中,提出并实现了维吾尔语倒排索引方法,方法中包含如下过程:维吾尔语倒排索引的创建、输出维吾尔语倒排索引文件、检查维吾尔语倒排索引的准确性、对维吾尔语倒排索引进行加密以及检查加密语解密的准确性。 基于此方法原理研发的维吾尔语倒排索引生成工具,解决了通用工具以及方法对维吾尔语排序效率低,甚至导致维吾尔语倒排索引存储空间的无限扩大问题。该工具及其方法也可用于维吾尔语文本分类、维吾尔语问答、维吾尔语搜索引擎等系统。 3.基于WCF的维汉词典机器翻译服务: 提出并实现了基于WCF的维汉词典机器翻译服务,该方法具有良好的互操作性、易扩展性和安全性等特点。现有成熟的维汉词典,具有的丰富的单词翻译资源,为了在机器翻译中实现基于词典的翻译服务,系统利用微软的WCF技术框架,将基于维汉词典的机器翻译包装为 WCF 服务,在汉维哈柯文辅助翻译系统上实际应用,能够提供针对单词、短语的快速翻译效果。 4.首次提出支持汉维哈柯文辅助翻译及多语种操作界面的辅助翻译系统: 借鉴现有汉语、英语的翻译技术和汉语、维吾尔语的语言分析技术,在汉语、哈萨克语和汉语、柯尔克孜语的语言分析技术和机器翻译技术领域做了深入研究,通过汉维哈柯双语语料库的建立,实现了具有双向翻译功能,集成汉语、维吾尔语、哈萨克语、柯尔克孜语的多语种辅助翻译软件,满足了本地用户对集成化的多语种翻译功能的需求。 为满足少数民族用户在界面语言和操作习惯上的实际需求,辅助翻译系统采用语言包的方式支持多语种(汉、维、哈、柯、英)用户界面:从界面语言、界面习惯(从左向右、从右向左显示和排版)、辅助翻译等方面全面提供多语言支持,便于用户根据习惯进行操作,并可灵活切换界面语言。 5.基于多策略的翻译模式: 影响辅助翻译系统推广应用的重要因素是:机器翻译的准确率较低,远远无法满足用户的实际需求。系统在设计上综合考虑基于统计、基于实例、基于记忆库、基于词典的机器翻译方式,以及自动翻译和交互式辅助翻译两种工作模式,通过多种翻译策略提高机器翻译的准确率。 6.实现一对多的翻译功能: 根据新疆地区的实际需求,需要将汉语文本翻译成维吾尔语、哈萨克语和柯尔克孜语等多个语种文本,在系统的辅助翻译功能中,提供了一对多的翻译模式,即将一种源语言翻译为多种其他语言的功能,用户通过设置语种,即可实现一个语种的同一个文本同时翻译为多个语种的文本,具有较高的实用价值。 7.基于翻译工程的项目管理: 系统实现了针对超大文本的基于翻译工程的项目管理功能,包括项目创建、任务分配、用户管理、项目文档管理、翻译文档审核、辅助翻译等功能。项目当中源语言和目标语言是一对多的关系,用户可以在一个项目中将源语言文档翻译成多个目标语言的译文。针对多种文本文档兼容的问题,课题组实现word2003和2007文档、txt文件等常见文本文档的兼容,利用XML标记文本中间格式,在对翻译文档的拆分、注释、合并过程中不损环原文格式,保持译前原排版格式,最大限度地降低排版工作量。