- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
2 商业地产场景数据应用
展开查看详情
1 .商业地产场景数据应用
2 .
3 . 商场客流 职住地分析 Part.1 需求背景和参数选择 Part.1 需求背景 Part.2 参数的局限性 Part.2 整体算法介绍 目录 z Part.3 模型 Part.3 地块分类模型 Part.4 模型的局限性 Part.4 模型的局限性和拓展空间 Part.5 产品呈现 Part.5 dbscan聚类 Part.6 产品呈现
4 .商场客流 需求背景和参数选择 商场需要关注周边竞对的客流趋势,客 流的多少极大地反映了此地商业氛围是 否浓厚,大家的消费欲望是否强烈。 需求:周边人口、交通的覆盖 供给:商业规模,周边的竞对商圈情况 MobTech 客流捕捉 外部数据 袤博科技数据
5 .商场客流 参数的局限性 • 静态参数的情况,使用的是统计数值, 例如1公里内公交站个数,周边3公里的居 住人口等 • 统计值和真实情况之间会丢失大量信息, 这些信息的丢失会影响这个参数自身的可 用性。 • 将底层改成使用像素和位置的场景来丰 富信息,简单的机器学习算法无法适用
6 .商场客流 在几个基本的回归机器学习算法中,我们选 择了适用cart分类回归树作为决策树的随机森 林模型,其好处有以下几个: 1、直观的看出参数权重 2、整体模型方差小,泛化性较强 3、鲁棒性强,且不需要剪枝,不需要关注超 参 4、工程化简单,不需要太多的工程化代码和 硬件支持
7 .商场客流 模型的局限性 树模型的局限性 • 预测的结果永远在样本的最大值和最小值之间,导致有部分客流较大的商场无法精准预测。 • 值划分比较多的特征容易对RF的决策产生更大的影响,从而影响拟合的模型的效果,而在商 业地产场景中,无法生成大量丰富的样本 有监督模型和数据源的局限性 监督模型需要有Y值的加入,而这个在商业地产场景中是悖论。当前全国只有约2万个商场,样本 Y越多,模型的价值越低
8 .商场客流 • 具体呈现形式 指标 MAPE 9% 误差≥20%占比 9% • 分析逻辑和商业应用(疫情的影响,活动效果评估等等 此商场于2022年1月发生疫情 此商场于2021年圣诞节举行活动,对比平时周末客流有了明显提升
9 .居住地工作地 商场根据来访客群的居住地和工作 地,确认自己的主力客群,并根据 客群的属性制定自己的推广策略和 运营策略
10 .居住地工作地 地块分类算法 对设备所处位置进行判断分类(小区、写字楼) 加权dbscan聚类 对多个点位进行聚类,选出长时间停留候选点位
11 .居住地工作地 • 地块分类算法 样本分布函数。例如我们可以把以下序列准变为样本分布函数: [1,3,4,6,9,10,15,18],在此案例中,每个跃度为1/n即1/8,可得样 本分布图像如右图: wasserstein距离 又叫推土机距离,用来计算两个分布的差 异,计算方法是将分布P转变为分布Q所 需要的步程。考虑两个离散的分布P和Q: P = [3,2,1,4],Q = [1,2,4,3] 第n步的代价为:第n-1步的代价+Pn-Qn ① δ1 = 0+3-1 = 2 ② δ2 = 2+2-2 = 2 ③ δ3 = 2+1-4 = -1 ④ δ4 = -1+4-3 = 0 总δ = ∑|δn| = 5
12 .居住地工作地 可以类似的将P、Q转化成样本分布: P[1(3),2(2),3(1),4(4)],Q[1(1),2(2),3(4),4(3)]。和上面举的样本 分布的例子不一样的是,样本并非均等分为1/n,而是括号 中的权重,同理,我们可以画出他们的图像: 蓝色分布和橙色分布所围成的“面积”即是所求的wasserstein 距离(此处面积计算方式为纵坐标差值×横轴离散间隔) 在地块分类时,我们采用KNN分类算法,将其中的距离改为wasserstein距离。通过上 述方法,我们可以得出两个地块中不同时间下活跃设备数的分布差异: 假设A地块和B地块原始活跃设备数时间分布分别为以下:
13 .居住地工作地 转化为样本分布则为如下: 则这两个地块的不同时间下活跃设备数的wasserstein距离为图中灰色部分 “面积”:约为5460
14 .居住地工作地 • 局限性和可拓展空间 对设备区域数据的稳定性要求极高,若设备区域数据不够持续,聚类的 结果会导致定位仍然只有一个点,例如一个人只有在晚上上报的区域位 置,则其工作地会定位到小区中 基于地块设备时间分布函数的地块分类算法的准确度有天花板,当前准 确度为70%~80%,如右图为使用区块算法得出的上海徐汇区小区地块 更准确更有效的方法是 采用卫星影响做实体分 割,可以参考达摩院的 aiearth平台,但是此方 法对于工程化以及卫星 图像数据源有一定的要 求
15 .居住地工作地 • DBSCAN聚类 • 每个区域位置周边加权点位数大于阈值记 为b • A被包含在B的圆中,B被包含在C的圆中, 则称A到C是密度可达的 • 如果X到Y密度可达,Z也密度可达,则Y和 Z密度相连,找到最大的密度相连的样本集 合,就是聚类的一个簇
16 .居住地工作地 某商场到访人群居住地分布 上海黄浦江边居住地热力图
17 .—谢谢观看— 关注我们