首页技术文章正文

微软BING搜索-SPTAG算法的原理,你搞清了嘛?【黑马python培训】

更新时间:2019年07月26日 11时11分30秒 来源:黑马程序员论坛



近日,微软在GitHub上开源了其BING的搜索算法SPTAG,github地址:https://github.com/microsoft/SPTAG。这个算法笔者简单看了一下,的确是很有价值可以看大家介绍下,这种称为SPTAG (Space Partition Tree And Graph)目前的翻译多称为“空间分区式的树和图”,其实个人认为这种说法不太准确,其实这里的图与图论中的图意思一致,表示的是连接关系,并不是图像的意思,,而且我们一会仔细也会发现其算法中还带有平衡(balance)的概念,感觉译为”高维空间平衡树“更为准确。

SPTAG能做什么

微软在github上的介绍中给出的官方解释如下“This library assumes that the samples are represented as vectors and that the vectors can be compared by L2 distances or cosine distances. Vectors returned for a query vector are the vectors that have smallest L2 distance or cosine distances with the query vector. "
简单解释一下,就是微软认为图像、声音文字都能被表示为向量,而且可以用L2距离及余弦距离(cosine distances)表示其关系。这段我给读者解释一下,什么叫可以用余弦距离表示向量之间的关系。
那么如果我把上述这四个图都转化为了向量,那么会有
也就是说在图片转化为向量后,向量的位置关系保留了其图片含义所代表的逻辑关系。这就是”L2距离及余弦距离(cosine distances)表示其关系“的具体解释。
不过这次微软并没有公开把图片、声音及文字转化为向量的技术,目前文字转化为向量的主要技术是word2vec算法,图片转化为文字的技术,读者也可以通过Facebook前些时候公开的Pytorch-Biggraph算法来了解,那么说到现在我们可以了解SPTAG算法工作的前提就是将已经将用户搜索的要素转化为了正确位置上的向量,SPTAG就是要找到这个向量在空间上的最近邻,说到这读者是否对SPTAG的工作方式有了更进一步的认识了呢。

SPTAG工作原理简述

对于搜索算法有了解的同学可能都会了解,搜索算法中一般有索引(index)和查寻(search)两个重要部分组成。SPTAG的索引(index)算法是基于kd-tree的。
kd-tree听起来很高大上,其实他在于一维空间上的情况就是”平衡二叉树“,在高维空间上kd-tree会用第k维的大小来决定一个元素应该插入左子树还是右子树,同时为保持tree的平衡,剩余未进入tree的元素除第k维外方差最小。SPTAG正是以此来加速算法的速度。
kmeans其实就是一种自动聚类的方法,算法先随机指定选取K个点做为初始聚集的簇心,分别计算每个样本点到 K个簇核心的余弦距离,找到距离最近的核心点,将它归属到对应的簇,所有点都归属到簇之后, M个点就分为了 K个簇。之后重新计算每个簇的重心,将其定为新的“核心”,重复上述步骤直到新核心不再改变为止或者改变距离达到一定值后中止。那么最终的K个簇就是最终的聚类结果。
SPTAG 正是集合了kd-tree 和 kmeans 两种算法的精华,才允许用户利用深度学习模型在几毫秒内搜索数十亿条信息。

推荐了解热门学科

java培训 Python人工智能 Web前端培训 PHP培训
区块链培训 影视制作培训 C++培训 产品经理培训
UI设计培训 新媒体培训 产品经理培训 Linux运维
大数据培训 智能机器人软件开发




传智播客是一家致力于培养高素质软件开发人才的科技公司“黑马程序员”是传智播客旗下高端IT教育品牌。自“黑马程序员”成立以来,教学研发团队一直致力于打造精品课程资源,不断在产、学、研3个层面创新自己的执教理念与教学方针,并集中“黑马程序员”的优势力量,针对性地出版了计算机系列教材50多册,制作教学视频数+套,发表各类技术文章数百篇。

传智播客从未停止思考

传智播客副总裁毕向东在2019IT培训行业变革大会提到,“传智播客意识到企业的用人需求已经从初级程序员升级到中高级程序员,具备多领域、多行业项目经验的人才成为企业用人的首选。”

中级程序员和初级程序员的差别在哪里?
项目经验。毕向东表示,“中级程序员和初级程序员最大的差别在于中级程序员比初级程序员多了三四年的工作经验,从而多出了更多的项目经验。“为此,传智播客研究院引进曾在知名IT企业如阿里、IBM就职的高级技术专家,集中研发面向中高级程序员的课程,用以满足企业用人需求,尽快补全IT行业所需的人才缺口。

何为中高级程序员课程?

传智播客进行了定义。中高级程序员课程,是在当前主流的初级程序员课程的基础上,增加多领域多行业的含金量项目,从技术的广度和深度上进行拓展“我们希望用5年的时间,打造上百个高含金量的项目,覆盖主流的32个行业。”传智播客课程研发总监于洋表示。




黑马程序员热门视频教程【点击播放】

Python入门教程完整版(懂中文就能学会) 零起点打开Java世界的大门
C++| 匠心之作 从0到1入门学编程 PHP|零基础入门开发者编程核心技术
Web前端入门教程_Web前端html+css+JavaScript 软件测试入门到精通


在线咨询 我要报名
和我们在线交谈!