麻省理工学院和IBM开发了一种基于主题推荐文档的人工智能
纵然是最好的文本理会保举算法,也会受到必然巨细的数据集的阻碍。为了提供比现有要领更快、更好的分类机能,麻省理工学院IBM尝试室和麻省理工学院几许数据处理赏罚组的一个团队计划了一种团结嵌入式和最优传输等风行人工智能器材的技能。 他们暗示,该要领可以扫描数百万的也许性,可以只思量一小我私人的汗青偏好,或一群人的偏好。研究的首要作者、麻省理工学院在一份声明中说:“互联网上有大量的文本可以辅佐我们举办研究。” 为此,研究职员将算法文本荟萃归纳为基于荟萃中常用单词的主题。接下来,将每个文天职成5到15个最重要的主题,并对每个主题在文本中的重要性举办排名。嵌入——数据的数字暗示,在本例中是单词——有助于明晰单词之间的相似性,而最佳传输有助于计较在多个目标地之间移动工具(或数据点)的最有用方法。嵌入使得两次操作最佳传输成为也许:起首较量荟萃中的主题,然后丈量民众主题重叠的水平。研究职员称,在扫描大量书本和文件时,这种要领尤其有用;在一项涉及古滕堡项目数据集里1720对书目标评估中,该算法在一秒钟内较量了全部书目,比其他要领快了800多倍。 另外,该算法在文档排序方面,也比竞争敌手做得更好——譬喻,按作者对古腾堡数据齐集的书本举办分组,按部分对亚马逊上的产物评述举办分组。它还提供了主题列表,行使户可以或许更好地领略它为什么保举给定的文档,这一点也更易于表明。 研究职员将继承开拓一种端到端的培训技能,这种技能可以连系优化嵌入、主题模子和最优传输,而不是像当前这样单独优化。他们还但愿将他们的要领应用于更大的数据集,并研究图像或三维数据建模的应用,这将是将来很长一段时刻内的主攻偏向。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |