中国版ChatGPT三月底开源,中国发展NLP有两大困难
中国版的ChatGPT要来了。
日前复旦大学计算机科学技术学院教授邱锡鹏教授透露,国内第一个对话式大型语言模型MOSS将有可能在3月底开源,在不少媒体的介绍中,复旦大学的MOSS被看作是中国版的ChatGPT。
只不过尴尬的是,从网上透露出来的内测信息来看,就算是中国顶尖大学推出的NLP模型,它回答英文问题的水平却高于中文问题,说白了,中国人做的大型语言模型,更擅长英文,而不是中文。
针对这个问题,邱锡鹏教授坦言:英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。根据相关数据,MOSS学习的英文单词数量是中文的十倍。
必须承认,这也是国内发展NLP不得不重视的问题之一。
正如上文所说,英语作为科研主流语言,在全球范围内有着大量的学术期刊、网页、书籍,可以作为ChatGPT的训练数据来源,比如说英国人创办的《自然》杂志、《柳叶刀》等等,在ChatGPT的训练数据来源总量中,类似的杂志、期刊排名第三,尤其是专业的学术期刊,这些数据会帮助ChatGPT的写作更清晰、有条理。
除此之外,英文网站占全球网站总量近60%,而中文网站目前仍不足2%。
另外,除了中文对比英文天然存在的训练数据差距之外,还有一个很大的困难,还是计算芯片硬件上的差距。
去年8月,美国限制高性能GPU芯片出口,所有行业人士都直接指出,这是为了限制国内AI技术的发展。当时,有些人觉得这件事没那么重要,可等到OpenAI在去年年底推出ChatGPT之后,国内不少人终于认识到老美釜底抽薪的招数,有多狠辣。
我们必须要承认,高性能GPU是人工智能的基石。
据称未来的ChatGPT5将会在25000个英伟达GPU上进行训练,但如果算上为了满足全球用户的计算量,谷歌、微软等搜索行业巨头可能会需要总共几十万、甚至百万台的英伟达GPU。
底层硬件的局限和差距,已经成为国内发展ChatGPT不得不重视的问题。
最后,在ChatGPT发布之前,很多人觉得中美两国在AI领域的技术积累不分伯仲、平分秋色,甚至是中国小优,可ChatGPT推出之后,不少人瞬间感觉被“打脸”,原来差距如此明显。
不得不说,我们仍要谦虚地看待国内AI技术产业的发展仍然落后国外顶尖水平。