联系人:
所在地:
1、本项目研发背景 目前市场上,像谷歌在线翻译那样的基于数据驱动的统计机器翻译输出译文尽管词汇搭配覆盖面宽,可读性好,但是由于受到统计模型算法限制和数据稀疏影响,生成译文存在远距离句法调序和丢失原文重要信息等问题;而市场上主流的基于语言学知识的传统多引擎机器翻译,虽然生成译文句法结构较好,但是由于缺乏足够的细粒度知识,译文生硬,可读性较差。另外,以上两种机器翻译产品都是基于平行语料库开发的,由于受到平行语料库翻译腔的影响,用这样的语料训练的翻译系统,其输出译文不可避免地包含有扭斜的语言模型,同样也影响到产品的质量。 针对目前机器翻译产品存在的上述问题,本申报项目“基于可比语料库的英汉科技情报混合机器翻译平台”是在我公司发明专利“基于语言知识库的机器翻译方法和装置”的设计思想指导下,在国内创新性地采用了混合机器翻译(HMT)引擎的设计思想,充分利用以上两种不同机器翻译策略的各自优点,通过系统优势互补,大幅度提高系统性能。同时,为克服平行语料存在的固有的扭斜语言模型,最大限度地提高输出译文质量,本项目还进一步创新性地采用了我公司提出的基于三元组可比语料库语言自动剖析方法的本族语言模型挖掘技术,利用这种技术构建的本族语言词库和翻译模板库有效地改进了机器翻译质量。 2、与当前国内外同类产品技术的综合比较,达到的主要技术指标 当前国内外从事同类产品研发的代表性单位包括国内的华建机器翻译公司和国外的谷歌(Google)公司。华建系统采用的是单一的基于规则系统的传统多引擎机器翻译,而谷歌公司采用的是单一的统计机器翻译引擎。正如前面所述,无论基于规则的传统多引擎机器翻译引擎,还是单一的统计机器翻译引擎,由于分别受到知识颗粒度和统计模型算法的制约,机器翻译输出译文的可读性无法满足高端用户的使用需求。在本项目产品研发中,我公司创新性地把基于语言知识库的机器翻译发明专利,混合机器翻译引擎设计以及从可比语料库挖掘本族语言模型这三项科技创新有机融合,有效地提高了机器翻译可读性,使得本项目产品的综合技术指标有较大幅度提高。本项目产品与市场产品相比,其主要技术指标-系统输出译文准确度提高了约20个百分点,达到80﹪ 以上,从而填补了我国高端英汉机器翻译的技术和市场空白。最近,我公司委托国家权威评测机构-中国软件评测中心(CSTC)对本项目“基于可比语料库的英汉科技情报混合机器翻译平台”的主要技术指标进行了测试,测试结果如下: 1)信息技术领域文本英译汉译文平均准确度为84.5﹪ 2)信息技术领域文本英译汉译文平均流利度为78.4﹪ 3)数据资源平均准确率为98.8﹪ 4)翻译速度20万字/小时 5)最大提高工作效率约1倍 以上评测的测试条件和测试结果详见本申报书附件-测试报告。 3、 本项目所获取的知识产权情况 本项目所获得的知识产权包括发明专利和计算机软件著作权登记两个部分。在专利保护方面,本项目所采用的发明专利《基于语言知识库的机器翻译方法和装置》已于2008年11月28日获国家知识产权局《发明专利证书,证书号:第445283号。在计算机软件著作权保护方面,依据本项目的核心技术所开发的软件产品已经取得《赛迪多用户英汉自动翻译系统》等6件计算机软件著作权登记证书。