介绍

原文作者是Trang,译者是sadhen。对于想在Tatoeba上认真翻译的朋友,本文是必读材料。如果你还没有阅读过Quick Start Guide,请先读读完再读本文。

1. 了解这个项目的前世今生

  • 以后我会写一个更加详细的介绍,但是,首先你应该了解这些基本事实。 2006年,我启动了这个项目。最初的动力来源于学习语言的激情和找不到足够在线词典时的沮丧。

  • 这个项目专注于句子,我始终坚持专注于句子。原因是当时我觉得例句是(现在还是)稀缺资源。如果你打算贡献句子,请添加完整的句子

  • 实际上,有一段时间只有我一个人在为这个项目忙碌。直到三年后,在2009年,开始有其它人(都是计算机科学专业的学生)帮我写代码并实现了一些功能。

  • Tatoeba不是一个商业性项目。我们不是一个公司,我们不会从这些劳动中获得报酬。这只是我们在闲暇时的一些劳动。

  • 说实话,我们不排除有一天成立一家公司的可能性,但是那样的事只能在我们找到了一个创新,协调且道德的商业模式之后(是的,得有好运)。像让广告满天飞并带动大量的流量或者强迫用户付费查询数据这样的事,是绝对不在考虑之中的。

2. 理解语料库的结构

这是很有技术含量的一个部分,我希望对任何人我都能解释清楚。

语料库的结构不是一个表而是图。什么意思呢?假设你要取出语料库的一部分并写在纸上。你一定会做与这类似的事:

**英语** **法语** **西班牙语**
My name is Trang. Je m'appelle Trang. Me llamo Trang.
How are you? Comment vas-tu? ¿Cómo estás?
... ... ...

这是一个结构。其中包含了: 同一行上的是意思相同的句子,同一列上的是同一种语言的句子。任何人第一次都会这样想,但这不是语料库的结构。

真实的结构是这样的:

Schema of a graph of sentences in English, French and Spanish

这是一个结构。其中包含节点:每一个节点表示一个句子,每一条边表示两个句子相互联系。当两个句子连在了一起,表明它们有相同的含义。

你贡献句子的方式和这些结构都非常不同。很重要的一条规则是,对于一个特定的句子你可以提供同一种语言的多个翻译。你认为用两种方法都可以翻译一个句子,而你没办法从中选出一个更好的,这时该怎么办呢?把两句都加进去吧!

其它的规则如下所示。

3. 不要管别人的翻译

你在翻译句子的时候,实际上是在添加句子 (一个节点)和为原始的句子和你翻译的句子添加链接 (一条边) 。所以你只需要确保你给“主句”(最上面,字号略大的一句)添加了正确的翻译。

具体地说,假设你想为一个英语句子添加一句西班牙语翻译:

How are you?

=> Comment vas-tu?

你可以添加 "¿Cómo estás?" (随意)也可以添加"¿Cómo está usted?" (正式)。或者你可以两句都添加(因为你可以为同一个句子添加两种不同的翻译)。 如果你懂法语, 即使法语的翻译很随意,这也没关系 , 你唯一要确保的是你的翻译是英语原句的正确翻译。正确的翻译意味着如果某人想把你的句子翻译成英语,那么"How are you?"是其中的一种可能。

4. 不要逐字翻译

我们对那些听起来像是机器人写的句子不感兴趣。我们需要那些人们在生活中会说出来的句子。我们知道翻译是一件很困难的事。但是如果你把句子翻译成你的母语,即使只是一个句子,你也一定要都重读几遍你的翻译,并且问问自己,在现实生活中你周围的人会不会这样说。你可以用评论标明直译的句子。

如果你不是在将句子翻译成你的母语,不地道的句子是可以被原谅的。但是这样的话,请确保你能找到一个以该语言为母语的人检查你的句子,以便在最短的时间内纠正你可能会犯的错误。

关键在于理解Tatoeba不仅仅是在提供翻译,也是在搜集一门语言的句子。你也可以只在Tatoeba上添加句子而不翻译它们。如果我们从中取出所有意大利语,我们希望每一句都能代表这门语言。

句子是一个基本的层面。句子之间的联系是另一个层面。但是没有那些联系,语料库也是有意义的。

5. 不要去编辑本身是正确的句子

就像我在上面提到的那样,也可以只在Tatoeba上添加句子而不翻译它们。相应的,在你修改一个句子之前,不要去管它的翻译,只看这一句并问你自己“这个句子有任何拼写或语法错误吗?听起来很古怪吗?". 如果回答是"不", 那么不要去改变它, 放着就好!

我这样说是因为你也许会去编辑一个句子以使得它的意思能和其它句子相匹配。

这可能是因为你想把一个句子变成一个更加“直接”的翻译。但这不是一个好主意。显然,如果我们不希望你逐字翻译(参见规则4),我们也不希望你把一个句子改成直译。

也可能是因为这个句子根本和其它句子不匹配。举个例子:

My name is Trang.

=> Je m'appelle Trang.

=> Vamos a la playa.

你会注意到那句西班牙语的句子(意思是"我们去海滩吧")和英语句子一点关系都没有。

或许你的西班牙语说的不好,所以你没有足够的信心去修改西班牙语句子而是去改变英语句子。问题是: 那句法语句子会怎样呢?结果,它就不再是英语句子的正确翻译了……

或许你的母语正好是西班牙语,并且你决定去修改这句西班牙语句子。在这个特例上,这还是能够接受的,因为这句西班牙语句子还没有和任何其它句子联系起来。但是如果有人把这句西班牙语的句子翻译成了意大利语, "修正"这句西班牙语句子会造成与意大利语句子的冲突。

还有一个问题你或许没有想过:当你在改变一个句子意思的时候,实际上,很有可能你是在减少相应语言的在Tatoeba上已有的单词。比如要是目前只有这句西班牙语的句子是用到了“playa”呢?

所以在这种情况下,最好的办法是添加一句新的西班牙语翻译 (Me llamo Trang) 并“取消”当前翻译与原句的联系。注意: 不是所有贡献者都能取消联系。只有“高级贡献者”可以。你可以写一条评论要求取消两个句子之间的联系。

6. 不要改变一个句子的语言

如果一个句子的语言标志不正确 (比如是日语句子却标志成中文),那么理所当然,你可以更改那个标志。我说的"不要改变一个句子的语言"是这个意思, 即你不应该根据标志把这句日语句子改成意思相同的中文句子(当然这个规则对其它语言也适用)。这种事情不会经常发生,但是如果你确实碰到了这样的情况,请不要改变那个句子的语言。

问题在于和句子相关的一些数据是针对特定的语言的。比如说评论:用户可以在句子上评论,但是评论只对特定的语言才有用。

当前,这主要是那些有一些注释的日语句子的问题。因为对普通的用户没用,这些注释没有显示给他们看。如果你把一个日语句子改成了英语句子,那么对应的注释就失效了。

7. 确保评论要评论的句子

你发表的评论只和当前的主句有关,所以请你确保你的评论发表在了你所希望的句子下面。下面是一个典型错误,比如你想指出一个拼写错误,像这样:

My name is Trang.

=> Je m'appel Trang.

=> Me llamo Trang.

你可以看到法语的句子是错的。应该是"appelle"而不是"appel"。如果你直接把你的评论发表在这儿,它将和英语句子联系在一起(因为英文原句是在最上面,所以它是主句)。这不是你想要的。正确的方法是先点击那句法语句子。之后会变成这样:

Je m'appel Trang.

=> My name is Trang.

=> Me llamo Trang.

然后你才可以发表你的评论。

当你要指出一句翻译的错误,你的评论就涉及到了两个句子,那么你应该把评论发表在什么地方呢?理论上,对于这种情况,应该是评论这两个句子的链接。但我们没有实现这样的功能,我们只能在一个句子上评论 。所以要把评论发表在什么地方是你的自由。只要你牢记你的评论针对的是主句。

8. 不要添加来自受版权保护的内容的句子

我们以Creative Commons Attribution(或 CC-BY)许可证授权发布。允许任何人以任何方式使用我们的数据,只要在他们的产品中保留Tatoeba的署名。

作为一个贡献者,你已经同意了用户条款 (当然,你肯定没有读过), 所以你的贡献也是以CC-BY许可证协议发布的。这意味着我们能以任何方式使用你的数据,只要我们保留你的署名。所以我们正在Tatoeba上使用你的数据,并且我们通过历史记录和状态来保留你的署名。

但是以CC-BY许可证协议提供你的数据也意味着你也对所提供的数据负有一定的责任。如果数据的源头没有明确指出你可以重新使用它的数据, 你必须得知道在法律意义上你不能那样做。一个典型的例子是,你不能(在法律意义上)从一本课本上拷贝所有句子并添加到Tatoeba 上。

不要担心,即使你已经添加了几句从教科书上摘得的句子,你(和我们)并不会为此而蹲监狱或者债务缠身。但是法律禁止我们窃取别人的劳动果实并不经过他们的同意就使用。贡献句子和翻译是一项工作,所以请注意你的句子的源头。最好是,自己想出自己的句子或者从公共领域的书籍上摘取句子。

如果你已经添加或者看到别的句子是从受版权保护的内容上拷贝过来的,更改其中的一些单词,这样就不是一样的句子了。或者,去和作者协商并说服他们以知识共享署名许可协议发布他们的作品,以便我们可以重复使用。

我不再想争辩这一切是否有意义(显然,我相信这能有多大意义),但是如果每个人都能做到,这将对我们帮助很大,至少我们不会被起诉。

9. 不要在句子中添加注释

我们需要的是尽可能原始的句子,所以请不要在句子中添加注释。例如我们不希望有这样的句子:

I (female) am happy.

It's raining cats and dogs. (idiom)

I like her/him.

对于一二两句,如果你想指明一个句子是谚语或者说话的人是女性等等,请直接评论该句(如果你是高级编辑者,你还可以使用标签),但是请不要直接在句子中添加这些信息。

对于第三个句子,你可以把单个句子分割成两个。记住,你可以提供同一种语言的多个翻译。所以这样是完全可行的:

Je l'aime bien. => I like her. => I like him.

为什么我们不希望有注释呢?理由有很多。 比如说,有人想用我们的数据改进自然语言处理系统,注释会给他们造成很多麻烦。 你的翻译也会被翻译成其它的语言,像这种可以二选一的句子(比如"him/her")会给其它的贡献者带来困难。 如果我们想为句子录制发音的话,我们需要准确地录制,并且不会录制注释。

10. 给我们反馈

我们知道Tatoeba并不完美,所以不要犹豫,告诉我们你觉得还缺什么(请先确认有没有人已经在留言板上讨论过了)如果你看到本文的任何拼写错误,觉得有些解释还不够清楚,或者发现了系统的漏洞,也请告诉我们。

我们也知道Tatoeba是一个很酷的项目,所以毫无顾忌告诉我们你也喜欢它:P

11. 如果你能写代码实现一些功能,不要等着我们去实现

一如我们欢迎反馈,我们也欢迎更加主动的参与。还有太多太多我们要做的事。我们并不能把一切都做好。

例如,我们发布的是整个语料库,但是大多数人都不需要所有语言的所有句子。你也许只需要英语和西班牙语的句子。请你自己编程写一个工具,从我们提供的文件中抽取出你需要的东西,而不是要求和等待我们去提供只包含英语和西班牙语的文件。(如果你这样做了,请告诉我们)

其实有很多你自己能够做到且不需要等我们去做的事情,以上只是假定你是一个程序员而举的一个例子。当然,也请你告诉我们以便我们不用去做你已经计划要做的事。

你也应当知道我们的系统实际上是开源的 (基于AGPL许可证),但是我们并不“强调”这个方面,因为:

  1. 代码还没有达到我自己要求的优雅的标准... 当我阅读代码时,仍然有太多让我畏缩的部分。

  2. 我们仍没有想出一个处理和组织声音的方法,而且我实在没有时间管理更多的人。然而如果你喜欢这个项目,并且真的非常希望加入开发团队,那么请尽管联系我们 =)

12. 在你的个人资料中指明你的母语和所了解的语言

你可以点击你的用户名(在顶端的菜单栏上)来编辑你的个人资料。

既然Tatoeba和语言相关,让其它贡献者知道你能说什么语言和你说这门语言到怎样的程度就会很有帮助。我们没有提供一个特定的“语言栏”,所以你可以把它写在你的个人资料中。

并且请建议其它用户标明他们的语言(如果他们还没有这样做的话), 尤其是他们已经开始贡献句子。

13. 鼓励并引导新的贡献者(乃至老手)

对于Tatoeba这样的网站,社区是至关重要的。没有强大的社区支持,我们什么都没法做到。但是我们如何才能建立一个强大的社区呢?其中一件事情就是不要让新用户觉得迷失和孤立。

一方面,这依赖于这个系统本身。应该把它设计成不仅仅是让用户能够交流,而且是鼓励用户之间的互相交流。Tatoeba并不擅长于此,但是至少可以满足你的最小需求(私信,留言板,评论)。

另一方面,这依赖于社区本身。必须得有社区成员为建设强大社区而努力。如果有人问了一个你能回答的问题,请不要犹豫,去帮助他。如果你发现有人在犯错,请不要犹豫,告诉他们怎样才是正确的做法。如果你注意到有人做出了重大的贡献,不要犹豫,请为他们的工作发送“祝贺”或者“感谢”的信息给他们(私信或者写在留言板上)。

更一般地说,如果你有任何能使Tatoeba更加受社会欢迎的想法,那么想办法实现它吧!

14. 传播爱

最后但并非最不重要的:你喜爱这个项目,我们也喜爱这个项目,我们都希望这个项目能成为最伟大的语言工具,所以让更多的人加入这征程吧!

最后,希望任何能阅读能写作的人都能参与其中。也没必要通晓各国语言,只要你能够找到错误并纠正或者指出他们,这就已经是很大的帮助了。更多的人参与进来,我们就能改正更多的错误,也就能提供更多人们能够信赖的句子。这样以后每个人都能够更快乐地生活。