make的短语加翻译

2024-12-24 版权声明 我要投稿

make的短语加翻译(共5篇)

make的短语加翻译 篇1

make a decision 作决定;

make for 导致;有助于;走向;

make of 了解;用…制造;

make it possible 使它变成可能;

make in 加入,进入;干涉别人;

make a living 谋生,维持生活;

make life 求活;创造人生;有意义的活;

make an appointment 约会,预约;

make a mistake 犯错误;

make contribution 贡献;

make decision 作决定;下决心;

make的短语加翻译 篇2

统计机器翻译方法自上世纪90年代以来, 发展十分迅速, 取得了很大的进步, 使其逐渐成为机器翻译领域中的研究热点。统计方法的最大优点就在于无需人工编写规则, 利用语料库直接训练得到机器翻译系统, 且译文质量好。基于短语的统计机器翻译方法, 由于可以更好地把握局部上下文依赖关系, 在性能上优于基于词的统计机器翻译方法。相对于基于句法的统计机器翻译, 基于短语的具有很好的通用性, 且搜索空间比较小。

基于短语的方法将任意连续的字符串都看作短语, 从词对齐的双语语料库中自动学习双语短语, 以短语为单位进行翻译。然而, 通常认为, 如果短语表中一个短语和另一个包含该短语的较长的短语出现次数相同的话, 那么这个短的短语则很有可能是对翻译无用的信息, 甚至可能降低翻译质量。此外, 传统的基于短语的统计机器翻译并没有考虑短语的可靠度, 而是认为一个句子的所有短语切分都是等概率的, 这显然不符合语言学规律。针对这两个问题, 本文分别使用了C-value和粘结度的方法对短语表进行了过滤, 减小了搜索空间, 并且提高了翻译质量。

1 基于短语的统计机器翻译

基于短语的统计机器可以描述为这样的一个过程。将源语言f1J切分为J个短语 (连续的单词序列称为短语) , 即f1J=f1, …, fj, …, fJ, 然后从将每个短语翻译成目标语言短语ei, 从而生成目标语言句子e1Ι=e1, …, ei, …, eI。在所有可能的候选翻译中, 找出概率最高的句子:

e^1Ι=argmaxe1Ι{Ρr (e1Ι|f1J) } (1)

本文的基准系统采用MOSES开源软件, 使用对数线性模型计算候选翻译项的概率, 该模型是Och在ACL2002会议上提出来的[3]。不同于以往的噪声通道模型, 对数线性模型是一种直接翻译模型, 直接对概率e1Ι|f1J进行建模:

pr (e1Ι|f1J) =pλ1Μ (e1Ι|f1J) =exp[m=1Μλmhm (e1Ι, f1J) ]e1Ιexp[m=1Μλmhm (e1Ι, f1J) ] (2)

其中, hm (e1Ι, f1J) 是一组特征函数, m=1, 2, …, M。对于每个特征函数, 存在相应的模型参数λm。公式 (2) 的分母在搜索过程中是常量, 不需要考虑, 因此可以将上面两个式子优化为如下判定准则:

e^1Ι=argmaxe1Ι{m=1Μλmhm (e1Ι, f1J) } (3)

特征函数包括短语翻译概率p (e˜|f) p (f |e) , 词汇化短语翻译概率lex (e˜|f) lex (f|e) , 目标语言模型lm (e1Ι) , 扭曲模型pD (e, f) 。

系统包括训练和解码两大模块, 训练模块利用GIZA++进行双向训练获得词对齐文件, 然后抽取短语获得短语概率表, 并使用SRILM训练语言模型。解码模块对输入的句子进行短语划分, 然后根据已有的短语表搜索它们的最优组合。系统结构如图1所示。

训练模块是基于短语的统计机器翻译中很重要的部分, 短语表质量直接影响了解码时的搜索空间和时间效率, 也关系到最终的翻译质量。因此本文将对短语表的构造做出改进, 过滤大量的冗余信息, 提高短语表准确率。

2 短语表过滤

传统的基于短语的统计机器翻译, 通过双向词对齐, 抽取出双语短语并计算概率, 进而构造出短语表。这种方法是将任意连续的单词看作短语, 并没有考虑短语的合理性。本文通过统计分析, 对短语的合理性进行评分, 从而对短语表进行有效的过滤。

2.1 C-value

C-value是Frantzi和Ananiadou提出的术语抽取方法[2], 其综合了语言学和统计的信息, 并着重强调统计部分。本文将C-value用于过滤短语表, 是基于这样一个思想:如果一个短语经常在更长的短语中出现而很少单独存在, 那么这个短语有可能频率很高但并不是对翻译有很大贡献的短语;如果一个短语经常在多个更长的短语中出现, 那么这个短语就是对翻译很有贡献的信息;如果一个长短语和它的子短语拥有相同的词频, 那么长短语更有可能对翻译有贡献。

与Frantzi和Ananiadou类似, 本文使用四个因素 (L, F, S, N) 来计算C-value, 从而判定一个短语是不是关键短语:

给定一个单语语料和短语表, 可以通过算法1得到一个过滤后的短语表。ε是给定的C-value阈值。候选短语的长度限制为l, l与短语表中的最大长度相等。

2.2 粘结度

粘结度在一定程度上反映了这个词序列出现的概率, 所以可以用粘结度来衡量这个词序列是不是一个合理的语块[7]。

公式 (4) 是长度为k的短语的粘结度。MI (w1, w2, …, wk) 表明词序列w1, w2, …, wk的互信息, P (w1, w2, …, wk) 表明词序列w1, w2, …, wk出现的概率, β是一个位于0与1之间的一个系数 (本文取β=0.5) 。公式 (6) 中的Dk是标准化处理之后的粘结度。

3 实验结果及分析

在本文的实验中, 训练语料为120 000句中英文双语对齐的句子, 测试语料为141句。本文采用GIZA++进行词对齐, 并使用grow-diag-final方法抽取短语, 基准系统采用MOSES开源软件。评价方法采用的是现在流行的机器翻译评价方法, 即BLEU算法。

实验中, 本文分别采用C-value和短语粘结度的方法对源语言进行过滤, 也将它们作为特征分别加入翻译模型, 并将翻译结果与基准系统进行比较。

3.1 根据C-value对短语表进行过滤

首先不考虑短语长度, 根据源语言的C-value对整个短语表进行了过滤, 结果如表1所示。

从表1中可以看出, BLEU评价最大可以比基准系统提高0.02, 而此时短语表只有原来的78%。并且当短语表缩减为原来的51%时, BLEU评价仍然比基准系统略有提高。

此外, 由于短语表里的短语长度为2到7个单词, 本文尝试将不同长度的短语分别进行过滤, 每个长度取不同的阈值。表2显示的是在BLEU评价最好的情况下, 各个长度的短语的阈值, 这时BLEU评价为0.4072, 短语表缩减至49%。

根据表2可以看出, 相对于长度较短的短语, 长短语的阈值更大, 由此可知, 长度短的短语过滤得更少, 对翻译的贡献更大。

表3是几个短语的C-value的例子, 很好地说明了C-value的作用。

“德耳塔 航空”的 (L, F, S, N) 为 (2, 1, 1, 19) , 计算得出C-value为0.947368, “德耳塔 航空 公司”的 (L, F, S, N) 为 (3, 1, 1, 14) , 计算得出C-value为1.85714。可以看到, “德耳塔 航空”和“德耳塔 航空 公司”的F (p) 都为1, 即两者出现的频率相同, 因此可以得出, “德耳塔 航空 公司”比“德耳塔 航空”对翻译更有贡献。而“九 个”的 (L, F, S, N) 为 (2, 5, 5, 63) , 包含该短语的长短语个数为63, 表示它经常在比它长的短语里出现, 如“九 个 街区”和“九 个 人”, 因此它的C-value值比较大。

3.2 根据粘结度对短语表进行过滤

本文使用和C-value一样的方法, 通过源语言的粘结度, 对短语表进行过滤, 结果见表4。

此外, 本文也对不同长度的短语分别进行过滤, 表5显示的是最好的结果, 此时短语表缩减至47.5%, 同时BLEU评价提高至0.4174。

可以看出, 这种方法比表4显示的结果好很多。由此可知, 对于不同长度的短语, 它们的粘结度无法准确地反映短语的合理性。

表6是几个短语的粘结度的例子。

可以看到“我 的”的粘结度要比“的 行李”和“的 形势”都高, “接受 检查”比“行李 接受”高, 这表示计算结果符合语言学规则。

3.3 将C-value和粘结度作为特征加入翻译模型

本文计算源语言和目标语言短语的C-value和粘结度, 作为特征加入翻译模型中, 并使用最小错误法训练模型参数[5], 结果见表7。可以看出, 这种方法比直接过滤短语表略有提高。

4 结 论

本文有效地运用了两种方法, 对短语表进行了缩减, 均取得显著效果, 并在缩减短语表的同时, 提高了翻译质量。实验显示, 使用C-value将短语表缩减至78%时, 翻译结果的BLEU评价可以提高0.02, 使用粘结度可以使短语表最小缩减至47.5%, 翻译结果的BLEU评价可以提高0.0158。此外本文分别将两种方法作为特征加入翻译模型, 均取得显著效果。

但是使用粘结度过滤短语表的方法仍然不够完善, 粘结度的过滤只能局限于相同长度的短语, 对于不同长度的短语, 其粘结度并不能很好地反应短语的合理性。在今后的工作中, 我们将会改善粘结度的计算方法, 使翻译结果得到更好的效果。

摘要:大多数基于短语的统计机器翻译系统将任意连续的词串看作短语, 并没有考虑短语的合理性。使用了C-value以及短语粘结度两种方法, 有效地对短语表进行过滤, 减小了搜索空间, 同时还提高了翻译质量。实验表明, 在翻译结果的BLEU评价提高0.02的情况下, 短语表可以缩减为原来的78%。并且当短语表缩减为原来的47.5%时, BLEU评价仍提高了0.0158。

关键词:统计机器翻译,短语表过滤,C-value,短语粘结度

参考文献

[1]Brown P F.The Mathematics of Statistical Machine Translation:Param-eter Estimation[J].Computational Linguistics, 1993, 19 (2) :263-311.

[2]Frantzi K, Ananiadou S, Tsuji J.The C-value/NC-value Method of Au-tomatic Recognition for Multi-Word Terms[C]//Proceedings of theSecond European Conference on Research and Advanced Technologyfor Digital Libraries.Springer-Verlag, 1998.

[3]Franz Josef Och, Hermann Ney.Discriminative Training and MaximumEntropy Models for Statistical Machine Translation[C].ACL, 2002.

[4]赵铁军.机器翻译原理[M].哈尔滨:哈尔滨工业大学出版社, 2000.

[5]Franz Josef Och.Minimum Error Rate Training for Statistical MachineTranslation[C]//Proceedings of the 41st Annual Meeting of the Asso-ciation for Computational Linguistics (ACL) , Japan, Sapporo, July 2003.

[6]Cenugopal A, Vogel S, Vaibel A.Effective phrase translation extractionfrom alignment models[C]//Proceedings of the 1st Annual Meeting ofthe Association of Computational Linguistics (ACL) , 2003.

n加prep加n的短语 篇3

为了纪念这位主教,教堂里正在举行守夜祈祷。

He founded the charity in memory of his late wife.

他创办了这一慈善事业以纪念他已故的妻子。

We stood up in order to get a better view.

我们站起身来以便看得更清楚。

I go swimming every day in order to keep fit.

我每天游泳以保持健康。

Entries which are not in accordance with the rules will be disqualified.

不符合规定的参赛作品将被取消资格。

We should make decisions in accordance with specific conditions.

纪念的英文短语翻译 篇4

One of my earliest memories is of playing in the garden.

我记忆中最早的`事情之一是在花园里玩耍。

recall

一、含义:

n. 回忆;取消;召回

vt. 召回;恢复;回想起;唤起;与 ... 相似

二、用法

recall的基本意思是“想起”,一般指通过有意识地努力去“回忆”“回想”,主语一般是人,有时也可以是物。引申可指“召回”“撤销”。

recall既可用作不及物动词,也可用作及物动词。用作及物动词时,可接名词、代词、带疑问词的动词不定式、动名词或that/wh-从句作宾语。

Do you have any recall of that meeting?

make的短语加翻译 篇5

介词在英语中起着非常重要的作用, 认知语言学家John Taylor[1]认为, 英语属于介词中心语言, 介词含有很丰富的信息量。鉴于介词在英语中的重要性, 一直以来都是研究的热点。在机器翻译中, 主要研究介词短语的附着问题。根据传统语法, 介词短语附着问题被看成二元问题, 即介词短语附着在其前的名词或是动词上。本文基于韩礼德的系统功能语法将介词短语的附着问题化为三元问题。

2 介词短语的定义

根据系统功能语法, 介词短语由介词加上其后的名词性词组构成[2]。介词的形式包括四种:一, 简单介词, 由一个单词构成, 如at。二, 复合介词, 由两个介词组成, 如as for。三, 介词词组, 由一个或两个介词与一个或几个其他词类构成的词组, 如according to。四, 分词介词, 由某些动词的现在分词构成, 如regarding。系统功能语法下, 名词性词组包括名词性词、数词、限定词和副词, 名词性词包括名词和形容词, 其中名词又包括普通名词、专有名词和代词。传统语法中, 介词+V-ing结构被看成是介词短语, 但根据系统功能语法, 介词+V-ing结构是非限定小句[3], 不是介词短语。

3 介词短语附着

在机器翻译中, 由于介词短语的附着最能引起句法分析的歧义, 因此一直是研究热点。本文对介词短语附着的研究是基于韩礼德的系统功能语法。与基于形式的的传统语法不同, 系统功能语法是基于语义的语法, 因此本文是从语义、意义而不是从句法角度进行句法分析。传统语法将介词短语的附着看成是二元的问题, 即介词短语附着在其前的名词或是动词上。事实上, 二元的介词短语附着并不能很好的消除介词短语句法功能的歧义。例如

1.He likes the book on the table.

2.He finds the book on the table.

3.He puts the book on the table.

根据形式语法, 句子1中的on the table附着在其前的名词book上, 译为“桌子上的…”;句子2, 3中的on the table附着在动词上, 但是却无法给出一个固定的翻译模式。事实上, 句子2, 3中的介词短语的功能有所不同, 从而导致其翻译模式也不一样。然而, 从系统功能语法角度能很好的解决这一问题。系统功能语法将句子的功能成分分成参与者、过程和环境。由此, 句子2中的介词短语是环境, 作状语, 翻译为“在桌子上”, 而句3中的介词on是动词put要求的, 属于过程的一部分, 其作用是引入句子的另一个参与者, 介词后的the table即是参与者。结构为“…put…on…”译为“…把…放到…上”, 这一结构要求有三个参与者。

由此可见, 传统语法对介词短语附着问题的二分法:附着在名词或在动词上, 无法在面向翻译层面消解歧义, 也就不能保证翻译的准确性。而基于系统功能句法的三元介词短语附着有助于翻译。

介词短语作状语[AD]。The green beans can be shipped[AD in bulk].in bulk做句子的状语。

介词短语作后置定语 (PM) 。We have received the letters giving full details[PM of this claim].of this claim作后置定语。

介词作为过程的一部分 (POP) 。Please inform me[RP of]your lowest price CIF London.介词of是受动词inform的要求, 是过程的一部分, 将句子的另一个参与者your lowest price CIF London引入到主过程中。

4 三元的介词短语附着的分布情况

为了研究三元的介词短语附着分布情况, 首先需要选定语料库, 其次要标注出这些功能, 最后统计这些功能的分布情况。本研究自建了一个商务英语双语语料库, 包括10, 059个英文句子, 共有198, 050个标记。语料来自于9个商务出版书籍以及7个网址, 涵盖了14个商务情景:询价及回复, 报价, 还价, 订购, 签约, 包装, 装运, 支付, 索赔, 保险, 运输, 代理, 建立业务, 和销售。介词短语的句法功能标注过程采用半自动的标注, 即包括人工标注、自动标注和人工检查三部分。首先对2500个英文句子进行人工介词短语功能标注, 标注后的句子作为训练语料, 机器学习后再自动标注2500个英文句子, 人工检查并改正这些句子的标注, 之后将标注过的5000句作为训练语料, 自动标注余下的句子, 再人工检查并改正, 以此完成所有英文句子的介词短语句法功能标注。对语料库中三种功能分布情况进行统计, 结果如表1所示。

由此可见, 作为过程一部分的介词在语料库中也大量存在, 这就表明有必要区别出这种功能, 以便更好的为翻译服务。

5 结论

基于系统功能语法对介词短语附着问题进行三元分析, 为机器翻译研究提供一种新的选择。本研究对于介词短语句法功能的标注是半自动实现的, 这表明基于系统功能语法提出的三分法具有机器可实现性。相对于传统的句法功能二分法, 本文的研究是一个很大的提高。今后的研究可以采用其它领域或更大规模的语料, 将这一研究成果应用到机器翻译中。

参考文献

[1]TAYLOR J.Ten Lectures on Applied Cognitive Linguistics[M].Beijing:Foreign Language Teaching and Research Press, 2007.161.

[2]HALLIDAY M A K.An Introduction to Functional Grammar[M].Beijing:Foreign Language Teaching and Research press, 2008.361.

上一篇:离职公告函下一篇:艺术史