王佳亮

说白了,就是所有的计算都要转换成数字,首先分词,词集合,转换成ID,然后匹配即可,这种模式比较粗糙。 词向量余弦 词向量余弦算法,是将文本作为一个多维空间的向量,计算两个文本的相识度即计算判断两个向量在这个多维空间中的方向是否是一样的。而这个多维空间的构成是通过将文本进行分词,每个分词代表空间的一个维度。

电池 废纸张 食材废料 餐巾纸
荧光灯管 纸板箱 菜叶 卫生间用纸
药物 报纸 米饭 硬果实
药品内包装 快递纸袋 面包 尿不湿
油漆桶 打印纸 水果皮 猫砂