PostgreSQL 相似文本检索与去重

  • 时间:
  • 浏览:20
  • 来源:uu快3棋牌_uu快3讨论群_规律

2. 在拆分成词组后,首先分组聚合,去除完整性重复的数据。

1. 首先怎么能能判断内容的类似度,PostgreSQL中提供了中文分词,pg_trgm(将字符串切成多个不重复的token,计算一个多 字符串的类似度) .

在云栖社区的问答区,有一位网友提到一个多多 问题:

3. 怎么能让自关联生成笛卡尔(矩阵),计算出每条记录和或多或少记录的类似度。类似度

PostgreSQL , 类似字符串 , 全文检索 , 去重 , 类似问题 , 医疗 , plr , plpython , madlib , 文本除理

对于本题,我建议采取中文分词的办法,首先将内容拆分成词组。