在一个 nlp 任务中,我现在有一批数据,数据中每个元素包含多个字符串。对于数据清洗有两个问题,还希望相关方向或有相关经验的 uu 给点建议:
- 字符串末尾很多时候会加上出自的地方,比如“–知乎”“–微博”“–观察网”等等,我想对这些无意义的词进行删除,但是并没有头绪,还希望有经验的 uu 给点建议
- 一个元素中多条字符串之间经常会有语义高度重合的情况,这种情况需要进行语义相似度计算并进行筛选吗,如果需要的有没有比较推荐的做法
在一个 nlp 任务中,我现在有一批数据,数据中每个元素包含多个字符串。对于数据清洗有两个问题,还希望相关方向或有相关经验的 uu 给点建议:
第一个任务很难吗?不是直接 .removesuffix()
就完了
第二条任务可以调用 OpenAI Embeddings