對圖文進行重複檢測,一般從圖文的標題、正文、封面三個維度做重複檢測,用到的方法有編輯距離(針對標題)、Simhash(針對標題和正文)、dHash(針對封面)等。
Google去年推出的BERT向量,相比Word2vec,包含更多的上下文,效果會更好一些,比如可以將整個正文輸入得到BERT向量,比較兩個BERT向量的距離。若存量文章很多的話,還需要藉助Facebook開源的Faiss進行向量TopN距離召回。
對圖文進行重複檢測,一般從圖文的標題、正文、封面三個維度做重複檢測,用到的方法有編輯距離(針對標題)、Simhash(針對標題和正文)、dHash(針對封面)等。
Google去年推出的BERT向量,相比Word2vec,包含更多的上下文,效果會更好一些,比如可以將整個正文輸入得到BERT向量,比較兩個BERT向量的距離。若存量文章很多的話,還需要藉助Facebook開源的Faiss進行向量TopN距離召回。