當前位置：聚美館>智慧生活>心理>

頭條檢測文章內容重複率工具

心理閱讀(2.18W)

頭條檢測文章內容重複率工具

對圖文進行重複檢測，一般從圖文的標題、正文、封面三個維度做重複檢測，用到的方法有編輯距離（針對標題）、Simhash（針對標題和正文）、dHash（針對封面）等。

Google去年推出的BERT向量，相比Word2vec，包含更多的上下文，效果會更好一些，比如可以將整個正文輸入得到BERT向量，比較兩個BERT向量的距離。若存量文章很多的話，還需要藉助Facebook開源的Faiss進行向量TopN距離召回。

標籤：頭條文章內容檢測

圖文推薦

相關文章

最新推薦

熱門文章