[00003201]一种机器翻译中翻译单元表的抽取方法
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201310439927.0
交易方式:
完全转让
许可转让
技术入股
联系人:
许尔杰
进入空间
所在地:
江苏南京市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明提出了一种机器翻译中翻译单元表的抽取方法,本发明运行于Hadoop并行计算平台上,包括以下步骤:根据输入的双语对齐语料和词对齐文件,选择想要抽取的内容,并对相关信息进行合并;根据需要选择是否平滑和平滑方法,进行相应的平滑计数和合并;计算相应概率,输出最终结果文件。对比现有的集中式抽取方法,能大大加快程序运行时间;同时通过在计算概率的过程中可以选择性加入多项平滑技术,能够处理在训练数据集中由于数据稀疏和经验分布带来的过拟合现象,使得其中的概率更符合真实世界的情况,在实际情况中也能提高计算机机器翻译系统的性能。