1.形成查询和淘汰候选商品的阶段:在第一阶段,搜索引擎生成 一个较大的候选商品列表。这些候选商品的名称或任何属性中会有买家提出的关键词。对于每个查询,此列表最多可包含 500,000 件商品。
在商品属性中搜索关键词
商品名称,
商品类别,
品牌,
描述,
颜色、尺寸、材料、类型等属性。
系统检查数百个属性,具体属性取决于商品类别。卖家填写的商品属性越多,找到该商品越容易。
系统检查的内容不包括商品评价和关于商品的问题。
查询转换和标准化
1.增加近义词 使查询覆盖更多的商品。
2.查询标准化。
3.候选商品淘汰 根据剩余的单词,系统从搜索索引中提取包含查询所有关键词的所有商品。如果此类商品太少,则还提取包含至少一个关键词的所有商品。
2. 排名基础层:选择具有最高相关性的 2,000 件商品。
商品与询问之间的文本对应:首先,用普通的线性公式确定查询中 每个单词在商品的字段和属性中的命中次数.然后将每个单词的命中次数相加。
商品评级。在此阶段,商品评级用作提升系数。商品评级越高,提升系数就越大。 提升系数范围从最低评级的 0% 到最高评级的 25%。
3.排名中间层(预训练算法)对于选定的 2,000 件商品,需要估计买家购买每件商品的概率。这些商品的排名取决于买家曾经 重视的特性。Ozon 对比商品特性和买家的行为。每件商品获得从 0 到 1 的分级。
预训练排名方法的工作原理
系统计算可能会影响商品购买的所有商品特征(features)。例如,商品评级或价格都能作为一个特征。
预训练模型的工作原理
根据某件商品的特征最准确地预测该商品的销售概率,特征类型及权重。
流行度:商品展示次数、添加到购物车和收藏夹中的次数等等。流行度的权重为 29%。
销售量:销售转化率和商品的购买次数。权重为 17%。
价格:某件商品相对于其价格历史的价格更改及折扣金额。权重为 5%
内容相关性:指有关商品与查询的文本一致性的特征。权重为 12%。
个性化 — 将搜索结果链接到每个单独的买家,同时考虑其购买特征、优先级、兴趣和其他参数。权重为 10%。
4.提升算法:对于从 0 到 1 排名的 2,000 件商品,应用预定义的提升系数或递减系数。 例如,提升系数会应用于优质卖家的商品,而减低系数会应用于低评级的商品。
5.商品展示:带有结果评级的 2,000 件商品展示在搜索结果中。买家会看见排名的商品页面。
1.最终排名还是取决于购买行为,商品展示次数很多,但购买次数很少,这意味着买家还是不喜欢这件商品。
2.点击不会影响排名,而且对于添加到购物车和收藏夹中的操作我们应用反欺诈系统,以跟踪炒作的指标而避免在排名时使用它们。 同时,我们不惩罚作弊的卖家,因此不可能通过炒作指标来降低竞争商品的排名。