當前位置:聚美館>智慧生活>心理>

頭條檢測文章內容重複率工具

心理 閱讀(2.18W)
頭條檢測文章內容重複率工具

對圖文進行重複檢測,一般從圖文的標題、正文、封面三個維度做重複檢測,用到的方法有編輯距離(針對標題)、Simhash(針對標題和正文)、dHash(針對封面)等。

Google去年推出的BERT向量,相比Word2vec,包含更多的上下文,效果會更好一些,比如可以將整個正文輸入得到BERT向量,比較兩個BERT向量的距離。若存量文章很多的話,還需要藉助Facebook開源的Faiss進行向量TopN距離召回。