| | | 百度

Facebook更新AI程序 植入294种语言将影响19亿人

2019-08-23 08:35:00 网易智能 分享
参与
百度 人民对美好生活的向往,就是我们的奋斗目标。

  对于使用英语工作的计算机程序员来说,构建一个可以分类处理垃圾电子邮件的程序非常简单,特别是在使用人工智能(AI)力量的情况下。但如果使用塞内加尔口语——沃洛夫语,这项工作就会变得像重新发明轮子那样困难,因为这个程序根本无法使用这种语言,其使用者仅有420万人。这种情况几乎适应全球近300种最常见的语言,它们被近19亿人使用。

  但在周二,Facebook刚刚发布了名为“fastText”的开源机器学习项目,它有可能解决这个问题。去年8月底,这个由部分语言库和部分机器学习算法构成的项目,已经可以使用90种语言,更新后的版本使支持语言的数量达到294种。随着公司的扩张,Facebook在纽约的AI研究团队成员已经对这种方法进行了优化,使其能够在极其小的操作系统上运行,比如智能手机。

  这促使该项目对近19亿人产生影响,尽管这些人的母语尚未得到支持。Facebook AI研究团队的科学家阿蒙德·朱林(Armand Joulin)说:“我们希望这能帮助人们轻松地学习和玩转机器学习,这个项目有助于我们在FAIR实现机器学习民主化。”

  通常情况下,如果你用一种不常用的语言来写作,比如英语或汉语,建立机器学习算法来预测你想要使用的标签,或者对邮箱中的垃圾邮件自动分类,都需要大量的工作。你必须建立一个单词库来训练,并创建一种方法来识别单词的意思,以确定整个信息排序中重要的元素。

  所以许多程序在主要语言中运行通常都很好,但是像沃洛夫这样的语言却不被支持。像fastText这样的程序可通过提供一个单词库来训练你的算法在特定的语言中工作,使最初的步骤变得容易得多。除此之外,它还使用了一种对单词进行分类的方法,这种方法可以在一分钟内整理出50万个句子。

  为了做到这一点,该方法使用了一种叫做“bag-of words”的方法,它只计算一份工作在文档中出现的次数。此外,它还会计算出在文档中出现的简单短语的次数,这两种情况都会很快完成。然后,程序会学会使用特定的单词或短语来排序或预测你想要做的事情,比如在电子邮件中计算“伟哥”的次数,那意味着它可能是垃圾邮件。

  关键是,这个程序运行得非常快,它还可以学习大量的语言,以便在很短的时间范围内投入应用。朱林说:“越复杂的模型,比如神经网络,往往过于缓慢,无法在如此规模的范围内接受训练。”

  使用语言的速度和语言的数量使得那些没有语言资源的研究人员可以使用fastText,而这些语言资源都是用英语编写的。还要减少这种方法需要运行的内存,以便于研究人员不需要超级计算机也能帮助平衡比赛场地。朱林说:“我们发布了可表达294种不同语言的程序,让世界各地无论讲何种语言的人们都能给他们的应用程序提供动力。”

责编:陶宗瑶(实习生)
百度