人工智能时代的中文和英文,谁能成为AI的母语?
语言文字在人工智能中占有非常重要的地位,它是人和人工智能交互的工具,人工智能只有准确理解语言文字才能做出准确应对,才能表现出高智商。今天就谈谈中文和英文是不是优秀的人工智能语言,以及未来前景。
一、
虽然我不想承认,但英文确实比中文更准确、高效。
英文由26个字母构成,逻辑结构更简单,发音以字母为基础,音标和音标区之间区分比较明显,只要说的不是很快,AI能比较容易、准确识别每一个字母,加上同音单词比较少,所以英文的效率领先中文许多。
中文发音则要复杂的多。汉语拼音有23个声母,6个单韵母,18个复韵母,还有16个整体认读音节,整套方案共63个发音元素。除此之外,汉语还有四种音调,加上种类繁多的方言,发音不准的话,非常影响AI识别。
AI在进行中文识别的时候,需要先进行发音识别,再根据单词进行汉字判断,识别效率低于英文,识别错误率也高于英文。
,英文胜。
二、文字识别
到文字识别环节,我们终于可以扬眉吐气了,中文文字识别的效率和准确度比英文更胜一筹。
中文有几个特点,让AI识别更高效
1、汉字信息密度高,更少的字数可以承载更多的信息,中文文章永远比英文短,综合来看,中文信息密度比英文高37.5%。
2、中文以汉字为单位,可以灵活排列,横竖都可以,而英文是线性文字,只能横排,竖排、错乱排列的识别效率会骤降!
3、汉字独立表意能力强。比如“他去吃早饭”,你看一个字就能多明白一个字的意思。而英文“He ent to have breakfast”,你即使看到“have”这个词,你依然不明大概的意思,只有到“breakfast”你才知道原来have是吃,ent to是去,整句是去吃早饭。英文表意比较依赖“短语”,甚至整句,不看完整句话,你往往不能知道句意。这就给AI识别造成了难度,因为AI跳跃识别能力较差。
文字识别,中文胜。
三、同音字词
中文发展人工智能最大障碍就是同音字词现象!比如,他姓zhang,到底是“张”还是“章”呢?如果是口语的话,还要补一句弓长张,或立早章。中文里有多少同音字、同音词,很难准确的统计。同音字词也是英语使用者攻击中文表意不清最大的借口。
英语虽然也有同音字,如right正确的、rite写字;meet遇见、meat 肉;hole 洞穴、hole 全部的;pear梨子、pair双;floer花、flour面粉等,但英语同音字词数量远比中文同音词数量少。英语是通过造更多单词的方法,来减少同音词现象的。
AI现在不能准确处理多音字,出错在所难免。难道为了AI准确,人类只能通过语言文字改革消灭多音字词?这工程也太大了,人类也很难适应这么大的改革!
同音字词,英文胜。
四、多义字词
一词多义,是每种成熟语言都难免的,世间万事万物这么多,情感这复杂,如果每个词汇只表达一个准确的意思,那几百万字词都收不祝无论是中文还是英文,一个字词不会只表达一个意思,通常有很多意思,有时候区别还很大!
比如“close”,其意思非常多关闭、合拢、合上、不开放、(使)关门、关闭(一段时间)、结束、终结、接近、几乎(处于某种状态)、可能(快要做某事)、亲密的、密切的、接近、靠近、不远地、死胡同、断头路、大教堂所属的周围场地及建筑物等。
现在人工智通过上下文识别词义的能力还比较弱,遇到多义词的时候经常出错,这也是人工智能发展的难关。
多义字词,中文和英文彼此彼此。
五、整段识别
让人工智能翻译一个短句,一句话,其实没多大意义,实用价值也不高,只有具备整段文字识别,才有实用价值。让我们以中英文互译来考察AI对中文和英文的识别能力了!
原文如下
"Things that trend in these to countries are insanely different. For example: knoledge-basedcontent is extremely popular in China, and less so in the U.S. Also, this as ild to me: thosecreators that did the most dance videos in China are users born in the 60s (!!), hereas in theUS, it seems that it's mostly teenagers ho are creating the dances," she rote.
她写道“这两个国家的趋势截然不同,比如知识性内容在中国很流行,但在美国稍差一些。而且,这一点对我来说很疯狂中国最喜欢拍舞蹈视频的是60后(!!),但在美国,好像是年轻人最喜欢拍舞蹈视频。”
AI将“英文原文”翻译成中文如下
“这两个国家的趋势截然不同。例如以知识为基础的内容在中国非常受欢迎,而在美国却很少。,这对我来说很疯狂在中国制作舞蹈视频最多的创作者是 她出生于60年代(!!)的用户,而在美国,似乎是大多数年轻人在创作舞蹈。”她写道。
有一句失真比较严重“在中国制作舞蹈视频最多的创作者是 她出生于60年代(!!)的用户。”
这句话的英文原文是 “those creators that did the most dance videos in China are users born in the 60s ”。这是一句英语长句,词序比较复杂,又夹杂了乱七八糟的介词,导致人工智能的大脑错乱,没能准确识别!
这个英文识别错误很有典型性,暴露了英文在语法上、词序上太过复杂的弊端。如果是翻译更复杂的英语长句,AI将束手无策!这也是每个表音文字的弱点!
AI将“中文原文”翻译成英文如下
"The trends in these to countries are quite different. For example, intellectual content is very popular in China, but a bit orse in the United States. Moreover, this is crazy to me: China’s favorite dance video is born in the 60s (! !), but in the United States, it seems that young people like to shoot dance videos the most," she rote.
中文翻译非常精准,和原文在表意上几乎没有任何差别,如实还原了原文的意思!可见,在整段话、整篇文章的识别上,中文比英文更有优势!
中文是由一个个汉字构成,长句很少,语法简单,词序简单,在语句结构上比线性的英语简单的多,更有利于AI识别。
六、谁才是人工智能的未来?
在人工智能领域,英文胜在口语,中文胜在书面语,各有所长,谁能成为AI的母语还言之过早。但在比较复杂的内容表达上,AI对中文的识别领先英文,所以我更看好中文的未来。
城市、经济、科技、地理、人文,欢迎关注猴军集!
家用机器人
- 从初生创业到人工智能领域的佼佼者
- 人工智能产业的全面发展
- 中国人工智能已比肩世界
- 全球产业格局大调整 工业4.0掀半导体变革
- 机器人13年内将抢走全球8亿人饭碗 这些职业影响
- 懒人福音:三星新款 AI 冰箱支持电动开门
- 大疆机场,让无人机基础设施巡检迈向自动化、
- 能链智电开启充电机器人等创新业务 预计2023年收
- 人工智能创新应用先导区再扩容 智能经济渐行渐
- 集萃智造三栖机器人,灵活切换水、陆、空三栖
- 机器人产业发展规划(2016-2020年)发布
- 四大论坛日程出炉,创客、机器人、校外教育、
- 新发布14家“双跨”工业互联网平台
- 《中国制造2025》解读之:推动机器人发展
- 机器人为什么能写稿,以及它们能拿普利策奖吗
- 国产机器人发展方针研究,国产AI芯片再引关注,