首页 排行 分类 完本 书单 用户中心
搜书趣 > 灵异 > 科技入侵现代 > 第148章 你们能比我更懂机器翻译 5k

科技入侵现代 第148章 你们能比我更懂机器翻译 5k

簡繁轉換
作者:鸦的碎碎念 分类:灵异 更新时间:2025-04-23 00:32:31 来源:源1

一秒记住【笔趣阁】xbiquge365,更新快,无弹窗!

第148章你们能比我更懂机器翻译(5k)

「教授,你不是做语言翻译的,语言是规则的游戏,概率这太不靠谱了。」保罗·加尔文还想再挣扎一下。

当然他确实也不信翻译和统计学能扯上什麽关系。

词语之间一一对应。

英文单词和俄语单词一一对应,直接直译,扩充语料库。

在当时的思维里,这才是正道。

也就是所谓穷举法。

把所有的词语做好一一对应之后,自动翻译也就实现了。

统计学,概率游戏,不谈如果林燃是对的,他们的无能会暴露无遗,光是林燃提到的改进原理从直觉上来说就是错误的。

简单来说,反直觉。

就像在GPT大模型出来之前,大家都觉得算法最重要。

GPT出来之后,大家开始都一窝蜂力大飞砖。

等到deepseek的时候,好像算法有点用。

哪怕是顶级的研究人员,也会有盲从的问题,会有迷茫丶找不到方向丶走不出来的情况。

在这个计算机的混沌年代,会这样再正常不过了。

「精确?精确意味着出错,现在的计算机远远达不到精确这一点。

你们难道不清楚,你们在54年之所以演示出了良好的效果,是因为那些俄语句子是你们精挑细选出来的。

实际自然语言的复杂性要远超你们预期。

你们只做了语料库的扩展,规则覆盖都没有做,上下文依赖处理也没有。

你们能比我更懂机器翻译?」

林燃怒吼道:「你们做了九年都没有进展,现在立刻马上按照我说的去做!」

林燃的地位丶实力和权力摆在这,他们根本没有拒绝的选择。

沃森会信林燃就不说了,毕竟深蓝项目才结束,国防部的麦克纳马拉那更是林燃说什麽就是什麽。

你们这帮搞计算机的能比数学大师更懂计算机?

林燃在博弈论和统计学上展现出来的风采,麦克纳马拉还没忘呢。

IBM的CEO支持林燃,国防部部长支持林燃,乔治敦大学的研究团队只能被按在地上摩擦。

「我们要做的一共五点,优化算法和规则设计,扩充语料和词汇,改进数据处理的效率,引入统计方法和硬体最大化利用。

其中改进数据处理效率和硬体最大化利用由IBM方面负责。

另外三点则由乔治敦大学的成员们负责。

我们先来谈优化算法和规则设计。

你们一直的问题在于,你们对于规则集的扩张没有引入更加细化的句法规则。

因为存储有限,你们觉得扩充对照词汇库就够了。

实际上句法规则显得更加重要。

你们需要做到,引进常见的高频句型。

对上下文进行依赖处理。使词汇翻译考虑前后词,通过有限的上下文窗口来减少歧义。

比如свет同时有光和世界的意思。

这个完全可以根据前词判断是光还是世界。」

沃森弱弱提醒道:「教授,你还会俄语啊?」

林燃一副理所当然的样子:「当然,我都和科罗廖夫见了两面,我不会俄语怎麽和他交流的?

我同时会俄语丶德语丶英语和汉语。」

多语言大师的身份,给林燃的理论增添了几分可信度。

在这个时代,科学家们会几门语言并不奇怪。

当然一些敏感部门会提高对你的怀疑。

以前面提到的约翰·麦卡锡为例,他就精通俄语,从小接受俄语教育长大,尽管他出生在阿美莉卡。

「另外翻译过程,应该是模块化设计,而不是简单的映射关系。

它应该分成预处理丶翻译丶后处理三部分。

预处理包括了分词和词形还原,翻译才是词典的映射,后处理是对语序进行调整。

这样来降低单次计算的复杂度,提高规则的复用率!」

林燃的话给了在座研究团队的成员们非常多的灵感。

就好像之前一直陷在百越的丛林里找不到出路,而现在天上出现一道光指引他们怎麽样才能走出丛林迷宫。

大家都有点迫不及待去尝试了。

所有研究人员都疯狂在笔记本上记录下林燃所说的。

虽然不确定教授的方法是否管用,但有路总比之前没有好。

再者,如果你不好好记下来,到时候被开除只是教授一句话的事。

「好了刚才我们讲了一些简单的内容,现在才是最难的。

因为IBM的机器不是那麽强大,我们只能引入一些比较简单的统计学方法来提高我们翻译的准确度。

我把它叫做基于频率的词对齐。

这也是我们引入统计模型的核。

我们先要手动分析平行句子,标注俄语词或短语与英语翻译的对应关系。

俄语句子Мыговоримомире

英语翻译:「Wespeakaboutpeace

对齐结果:「мы」对应「we」

「говорим」对应「speak」

「о」对应「about」

「мире」对应「peace」

然后我们需要对这种对齐的频率进行统计。

统计每个俄语词或短语在英语中的对应翻译出现的频率。

例如,在语料中,「говорим」在80%的句子中翻译为「speak」,20%翻译为「talk」。

这样对于我们就可以构建概率表了。

将这些概率整理成表格,供机器进行查询。由于内存空间有限,我们暂时只存储高频词对,像出现次数前1000的词对,忽略低频情况。

当翻译某个词的时候出现多个选择,就参考概率表选择最可能的翻译。

另外就是统计相邻词的共现频率。мы经常与говорим一起出现,对应Wespeak,机器在翻译的时候则优先选择这个组合。

通过规则优先处理和统计方法处理模糊情况的方式,来弥补规则的不足!」

林燃从统计学的角度给他们好好上了一课。

不过这只是一个开始。

在座的研究团队们知道了林燃优化策略的轮廓,具体实践过程中还有大量的细节要进行调整丶尝试和优化。

不过光是现在所说的引进概率,这一点,在座乔治敦翻译机器的资深研究员们都有种恍然大悟的感觉。

前面讲的优化算法和规则设计什麽的,他们感觉有道理,但判断不了具体实践是不是真的管用。

但这统计学方法的引入,光靠想像就知道,能够显着提升乔治敦翻译机器的效果。

当天的工作结束后,红石基地周边的小餐馆里,加尔文和多斯特尔特坐在角落,面前是两杯当地特色的啤酒。

加尔文放下笔记本,叹了口气说:「利昂,我们真的是蠢货吗?」

今天听完之后,加尔文都要怀疑人生了。

林燃提出了一整套的解决方案,这套解决方案里完整也就算了,其中很多点他们都想到过,但想不到要如何实现,另外就是一些他们连想都没有想到的点。

一整个团队差不多快十年的研发思路,不如林燃一下午的乾货多。

加尔文已经怀疑人生了。

「教授的想法不是超前,而是太实际了。

你会感觉天马行空,但实际上结合在一起想想,又会觉得无比的实际。

哪怕现在还没开始,光是从教授提出的框架,我都能想到,采用这套完整方案对乔治敦翻译机器升级后,它的效果会有多好。」加尔文接着感慨道。

现在他终于知道为什麽NASA的研究人员和工程师能容忍林燃的毒舌了,差距太大,心服口服。

尤其统计相邻词汇共现频率,这并不难想到,但他们就是想不到。

而用统计方法处理歧义场景,增加统计学算法,这个就他们连想都想不到。

多斯特尔特转过头,微微苦笑道:「我也一直在琢磨。他提出的统计方法,听起来像是天方夜谭,但结果摆在眼前。

我估计了一下,乔治敦翻译系统在教授的指导下,质量至少能提升一大截。

我们不需要精心准备短句,它可以应用在更广泛的场景,而不是局限在军事领域。」

加尔文点点头:「是啊,我一开始还不信,语言这种东西明明是规则驱动的,怎麽能靠统计解决?可他用事实让我闭嘴了。

不愧是教授,教授对于本质的洞察力是跨越领域的。」

多斯特尔特沉思片刻:「你说的没错,感觉就好像他能看穿机器翻译的本质。

也许这是数学训练带来的好处,我怕自己再和教授多呆一段时间,我都想去念一个数学博士了。」

加尔文惊讶地看了他一眼:「数学博士?别开玩笑。」

多斯特尔特认真地说:「我没开玩笑。

如果数学真的能够帮助我们更好的洞察本质,我觉得去念一个统计学的博士未尝不可。」

加尔文沉默了一会儿,笑道:「如果你去,我也去。」

多斯特尔特举起啤酒都要溢出的酒杯:「为教授乾杯!教授将给我们带来胜利!」

加尔文笑着回应:「乾杯!不过教授的脾气,如果教授能温和一点就好了。」

另一边,IBM的两位工程师卡斯伯特·赫德和彼得·谢里丹也对林燃佩服的五体投地。

卡斯伯特揉了揉太阳穴,问:「彼得,你觉得教授的统计模型真能行吗?」

彼得放下笔,笑着说:「卡斯伯特,我得坦白,一开始我完全不看好他,可现在我彻底服了。教授提出的方法不但让IBM7090的性能发挥到了极致,而且能让翻译从混乱的状态至少有了概率做支撑」

卡斯伯特点头:「我看乔治敦大学的那帮家伙也这麽认为的,你没看到加尔文的态度从一开始的质疑到后来听的无比认真。

教授的算法优化得太完美了。」

彼得苦笑:「魔法吗?作为这个时代最厉害的数学家之一,也许没有之一,统计学对教授而言也许只是简单的数独游戏罢了。

只是我没想到教授能把概率论和语言学结合得如此巧妙,我以前从没想过机器翻译还能这麽玩。」

卡斯伯特好奇地问:「你说教授精通俄语,他今天那几句俄语,可是标准的不能再标准了。

同时还横跨多个领域,别说IBM,整个阿美莉卡恐怕也没有人能搞出这样的方案。

教授会不会和苏俄有关?」

彼得无语道:「苏俄人会让教授呆在阿美莉卡?

要是我是尼基塔,我不可能让教授这样的人才呆在白宫。

哪怕能从NASA获得技术机密,但无论获得多少技术机密,恐怕都不如教授本身有价值吧。

而且你有没有想过,如果教授没有在NASA,而是在莫斯科和科罗廖夫联手,你能想像这个场景下,阿美莉卡能赢得太空竞赛吗?」

卡斯伯特只是想了想,就马上摇头:「绝对不可能。」

「所以,如果教授和苏俄有关系,怎麽可能呆在阿美莉卡。

他需要做的第一件事恐怕就是在莫斯科主导载人登月。」彼得笑道。

科学家通俄有可能,但拥有影响平衡能力的科学家通俄又不太可能。

如果说他们只是佩服于林燃的学术造诣,那沃森就是全方位的佩服了。

和约翰·摩根类似。

不过沃森佩服的点和约翰·摩根又有所不同。

「教授,你是如何想到要通过展览馆的方式来打造企业形象呢?」沃森举起红酒杯,面带微笑。

时代广场边的深蓝展览馆给IBM赢得了巨大的声望。

本来时代广场一直以来都是纽约地标式的建筑,几乎每个到纽约的游客必打卡的景点。

而深蓝展览馆以一种不属于这个时代的风格吸引了所有人的眼球。

结合里面全球仅此一份的人工智慧西洋棋,能够自动和人对弈。

给当下民众的震撼是前所未有的。

阿美莉卡企业通过公开展出的方式展示自身科技实力丶宣传自家科技产品的传统由来已久,这样的传统可以一直追溯到英格兰时期。

无论是最早史蒂芬的火车还是后来的轮船,英格兰人都是召集民众,在报纸上大肆宣传。

而阿美莉卡最早最成功的应该是爱迪生的灯泡,后来贝尔的电话也是经典案例。

但他们都只是瞬间的,只有那一个时刻,给民众留下的印象要随着产品进入人们日常生活,他们才会对企业丶对品牌有一个更深的认知。

而深蓝展览馆的存在,每一个去过的民众都会对那深蓝和黑色线条组成的场馆印象深刻。

IBM=人工智慧=高科技的印象刻在了每一个参观过的民众的心里。

这对IBM都不仅仅是企业形象和人工智慧捆绑这一点好处,这几乎已经奠定了,后续只要白宫下定决心要在人工智慧领域和苏俄争个高下。

那供应商将没有别的选择,只有IBM。

等于林燃的建议给IBM凭空送来一个全球最大客户,还是动辄数十年打底的长期订单。

约翰·摩根旗下的通用航天从NASA手里拿到订单,好歹还给了林燃股份,沃森这可是什麽都没付出。

别说林燃内涵他是蠢货,就算林燃直接指着他的鼻子这麽说,他也只会说是是是,我是蠢货。

包厢内,服务员悄然退出,留下安静的交谈空间。

「因为我觉得像深蓝这样的人工智慧,应该给大众留下足够深刻的印象。

而不只在IBM内部展示。

至于为什麽要找艺术家来负责设计,一个普通的剧院怎麽配得上深蓝呢?」

沃森微笑着点头:「你说的太有道理了。

我第一次看到技术方舟建成的时候,我有一种它不属于这个时代的感觉,正是有了你,才有了深蓝和技术方舟的诞生。

教授,我必须敬你一杯。」

别说什麽霍金来了都得敬酒。

在林燃面前,你沃森也得给我敬酒。

沃森接着道:「教授,我代表IBM公司,向你致以最诚挚的谢意。

不仅是深蓝,在乔治敦-IBM项目中你做出的贡献令人叹为观止。你的创新方法将会让我们的机器翻译系统取得了突破性的进展。」

虽然现在还谈不上突破性进展,但沃森已经有充分的信心了。

林燃点了点头,说:「这是应该的,另外沃森,我想无论是深蓝还是乔治敦翻译机器,我为IBM做出的贡献不是金钱所能衡量的。」

林燃丝毫不谦虚。

这也让沃森脸上的笑容僵硬住了:「教授,我们会给你一份足够丰厚的金钱作为报酬的。」

林燃摇了摇头:「我对金钱不感兴趣。」

沃森想想也是,确实从来没听说过对方对金钱感兴趣。

不过开口就想要股份,沃森还是有些犹豫。

「教授。」还没等沃森说完。

林燃接着说道:「我需要你满足我一点小小的条件。

如果你无法满足我的条件,也许我要认真考虑和通用电气合作的可能性了。」

通用电气,要素察觉。

林燃和摩根家族的关系不用多说。

沃森再清楚不过了。

而通用电气也做计算机。

虽然通用不做大型计算机,但通用的GE-225系列,作为一款基于电晶体的计算机,用于处理工资单丶库存管理和会计等任务。

通用电气有这个能力,更有这个资本。

要是再加上林燃,和林燃作为大师的号召力,确实能对IBM造成巨大的威胁。

沃森的语气一下就软了下来:「教授,你想要什麽?」

「《MIT辐射实验室系列》」

(本章完)

目录
设置
设置
阅读主题
字体风格
雅黑 宋体 楷书 卡通
字体风格
适中 偏大 超大
保存设置
恢复默认
手机
手机阅读
扫码获取链接,使用浏览器打开
书架同步,随时随地,手机阅读
收藏
换源
听书
听书
发声
男声 女生 逍遥 软萌
语速
适中 超快
音量
适中
开始播放
推荐
反馈
章节报错
当前章节
报错内容
提交
加入收藏 < 上一章 章节列表 下一章 > 错误举报