为什么拼写检查那么好,语法检查那么坏

电脑,检查标志"width=
编写软件检查拼写要比检查语法容易得多。bubaone /盖蒂图片社

在机器人领域有句老话:人类在5岁以后学会的任何事情都很容易教会机器。我们5岁之前学的东西都不容易。机器学习的不成文法则也许可以解释为什么有些计算机可以击败世界上最好的国际象棋和围棋大师,但我们还没有造出一个能像人类一样走路的机器人。)别想告诉我那件事阿西莫像人一样走路。)

这可能也解释了为什么你电脑上的拼写检查程序工作得如此出色,但是语法检验员没有。我们只有到了上学的18新利最新登入年龄才开始学习拼写,但语言发展的基础可以在很小的时候就开始了子宫

广告

推理和语境

拼写是一项有限的任务,答案是正确的还是错误的。另一方面,英语语法包含了几乎无限多的可能性,语法正确与否在很大程度上取决于上下文和推理等微妙的线索。

这就是为什么某些英语句子对自动语法检查器来说是件令人头疼的事情。莱斯·佩雷尔曼(Les Perelman)是麻省理工学院(MIT)退休教授,曾任本科教育副院长,负责该大学的写作项目。他给了我这样一个例子:“车是约翰停的。”

广告

我使用的微软Word (Word for Mac 2011)已经过时了,它的程序可以识别和纠正被动语态,而被动语态在大多数语法圈子里是不允许的。当我在Word中输入这句话时,程序会尽职地用绿色下划线标出,并提示:“约翰把车停好了。”如果是约翰把车停了,那还好,但如果我的意思是车实际上停在约翰附近呢?

你可能会说,这是个简单的错误,但看看当我把句子改成“the car was parking by the curb”时会发生什么。单词强调了它并暗示:“路边停了一辆车。”即使是对一台电脑来说,这也是彻头彻尾的愚蠢。

佩雷尔曼说:“很多英语语法都涉及推理和相互上下文信念。”“当我发表声明时,我相信你们知道我对此事的了解。机器没那么聪明。你可以针对特定情况训练机器,但当你用人类语言谈论交易时,实际上有大量这样的推断一直在进行。”

佩雷尔曼对语法检查有意见,他说语法检查根本不管用。引用先前的研究他发现,语法检查人员正确识别学生论文错误的准确率只有50%。更糟糕的是,他们经常把非常好的散文标记为错误,被称为假阳性。

在一次练习中,佩雷尔曼把诺姆·乔姆斯基5000字的著名文章塞进了e-rater美国教育考试服务中心(ETS)的评分引擎,该公司负责制作GRE和托福考试。语法检查器发现了62个错误——包括14个以并列连词(“and”、“but”、“or”)开头的句子,以及9个遗漏的逗号——佩雷尔曼将其中一个例外归类为“语法完美的散文”。

广告

一点历史

1983年,WordPerfect的早期版本发布了第一个自动拼写检查器,WordPerfect和Microsoft Word也很快推出了第一个计算机化语法检查器。

Mar Ginés Marín是微软的主要项目经理,在过去的17年里,他一直在修补Office语法编辑器。她说,在早期,Word能做的最好的事情就是把一个句子解析成它的词性组成部分,并识别出简单的语法错误,比如名动词一致。然后工程师们想出了如何将一个句子解析成由两三个单词组成18新利最新登入的更小的“块”,以针对“a/an”协议。这被称为自然语言处理或NLP。

广告

下一步是引入机器学习。苏珊·亨德里克(Susan Hendrich)是微软的一名项目经理,负责Office的自然语言处理团队。有了机器学习,微软的工程师们可以把每一条语法规则都编程进软件。相反,他们在一个巨大的正确英语用法数据集上训练机器,并让机器从发现的模式中学习。

亨德里希说,微软通过机器学习开发的算法驱动Word决定一个句子是否需要问号,或者什么类型的从句需要逗号(即使对我们人类作家来说也是相当棘手的事情)。

但这有用吗?伊利诺斯州格伦埃林的杜佩学院的英语教授丹尼尔凯斯曾经进行过一次调查直接测试从20世纪90年代末发布的WordPerfect 8到Word 2007。当检查包含最常见写作错误的20个句子时,所有的语法检查器都表现得相当糟糕。2000年之后的任何版本的Word都没有发现任何错误(奇怪的是,word97得分更高),WordPerfect只发现了40%的错误。

虽然这些数字并不代表最新版本的语法检查器,但它们确实指出了在软件中创建强大而精确的语法引擎所面临的最大挑战之一——空间。

微软的亨德里希说:“我们可以做出这些大而漂亮、精度很高的模型,但它们太大了,无法随产品一起发货。”“所以我们必须精简我们的模型,当我们精简模型时,我们会失去精度。所以我们就有了这个平衡点。”

Ginés Marín为Word的精确性辩护,但承认空间限制影响了微软语法检查器提供的“覆盖范围”水平。当模型被缩小以适应软件时,它还需要缩小宽度,这样它就不会把很多好的文本标记为错误。

广告

黄金曲线

自Word 2007以来的变化是基于web的软件应用程序的兴起。现在,工程师们不必把一个大的语法引擎塞进一个足够小的包里,这样就可以在用户的硬盘上运行了。语法算法可以存在于云端,并可以通过互联网实时访问。

Hendrich说,基于网络的Office版本已经依赖于托管在云端的强大语法引擎,她的团队目前正在将所有旧的内置评论和语法模型也转移到云端。亨德里希说,未来的挑战是决定有多少功能要保留在“盒子里”,有多少功能要“通过服务”提供,正如亨德里希所说的微软基于18新利最新登入云计算的软件即服务模式。

广告

问题在于成本。每当Word向云端请求语法建议时,它的花费都不到一分钱。

“如果你正在写一份10页的文件,你是否每敲一次键就会调用这项服务?”Hendrich问道。“当你开始考虑成本模式时,它可能相当大。”

微软语法编辑器的最新版本比以前的版本健壮得多。错误会有多种纠正建议,并对错误背后的语法规则进行解释。内置的朗读功能对有阅读障碍的人和非母语人士特别有帮助。还有一种新的建议,Hendrich称之为“黄金涂鸦”,它更多地解决写作风格而不是基本语法。

例如,如果你写委员会正在寻找一位新的“主席”,金色的波浪线会建议你使用一个中性的术语,比如“主席”。如果你要给老板写一份需要一定正式程度的备忘录,金色的波浪线会标记出那些看起来太随意的词,比如“舒适”。

有一个很重要的问题是,语法检查器是否真的需要完美。如果Word提示这句话应该读成“路边停了车”,你可以忽略它。没什么大不了的,对吧?

对于以英语为母语的人来说,一个不太完美的语法检查器只是一种轻微的刺激。即使你不是语法高手,你也能在出错的时候听出来。前麻省理工学院写作教授佩雷尔曼说,真正的问题在于英语学习者依赖这些工具来纠正他们的写作。

“这取决于用户是谁,”佩雷尔曼说。“如果使用者的母语是英语,误报就不会像对非母语使用者那样危险。”

如果Word告诉一个英语学习者“路边停了一辆车”,不仅他们的写作没有任何意义,而且他们学到的语法也很糟糕。佩雷尔曼说,现在英语已经成为科学和技术的通用语言,世界各地的企业都迫切需要一个真正可靠和准确的英语语法检查器。这就是为什么你会看到像Grammarly和Ginger这样的基于网络的第三方语法工具的崛起,它们都试图满足这种国际需求。

好消息是最新版本的Word(2016)通过了“限制”测试。然而,语法上,它被标记18新利最新登入为被动语态。

广告

特色

广告

加载……
Baidu