本发明提供一种确定数据点的相似度的方法。
确定数据点的相似度的方法包括:(a)将所有数据点进行线性投影;(b)基于线性投影后的数据点来构建包括预定数量的具有预定深度的树的随机森林,其中,按照测试函数将随机森林的每个分割结点中的数据点分割到左孩子结点或右孩子结点;(c)获取每个数据点在每颗树上的分割路径;(d)根据获取的分割路径来确定数据点的哈希码,并根据确定的哈希码来确定数据点的相似度。在根据本发明示例性实施例的确定数据点的相似度的方法中,生成的哈希码的长度突破了原始数据点的维度的限制,确定数据点的相似度的方法比现有的哈希编码方法更加灵活,可以更好地应用于各种数据的相似性的比较。