数据埋点治理是利多星数据产品体系中的基础设施项目。它覆盖 APP、小程序、PC 和 H5 页面行为数据,目标是让埋点从“能查到数据”升级为 可信、可验收、可进入 BI、可支撑用户分析 的数据资产。
金融产品的用户行为数据分布在 APP、小程序、PC 和 H5 页面中。业务需要分析 VIP 页面点击、系统通知栏、案例股详情页、策略组合、直播、课程、栏目浏览等行为。
但埋点数据一旦字段不稳,就会直接影响后续分析:
因此,这个项目的重点是建立 埋点资产盘点、质量验收、问题修复和宽表治理 的完整机制。
我负责埋点治理的方法论梳理、验收 SOP 设计、字段质量分析、问题清单整理和数仓协同。这个项目需要同时懂业务页面、埋点事件、SQL 验数、宽表清洗和 BI 使用场景。
| 工作方向 | 我承担的工作 |
|---|---|
| 资产盘点 | 梳理核心产品、核心事件、所属模块、端口、触发条件和关键属性 |
| 验收标准 | 设计 A/B/C/D 质量分级,明确属性完整率、空值率、趋势稳定性等标准 |
| 全量验数 | 对重点事件做 7 天 / 14 天全量 SQL 分析和 HTML 报告 |
| 问题定位 | 识别字段未上报、URL 缺失、模块编码重复、ID 映射差异等问题 |
| 宽表治理 | 输出神策宽表清洗规则、short_user_code 补全、H5 URL 字段清洗和页面类型识别 |
| 协同推进 | 将问题反馈给产品、开发、数仓和业务方,推动修复和重新验数 |
我将埋点验收拆成 5 个阶段:
| 阶段 | 核心动作 | 产出 |
|---|---|---|
| 1. 埋点资产盘点 | 整理事件 ID、事件名、模块、端口、触发条件、关键属性和 Owner | 埋点资产清单 |
| 2. 验收标准定义 | 按 P0/P1/P2 定义准确性、完整率、趋势稳定性要求 | 量化验收标准 |
| 3. 数据质量检查 | 检查 PV/UV 趋势、字段空值率、三端一致性和漏斗逻辑 | 数据质量报告 |
| 4. 问题分类修复 | 区分埋点未报、字段错误、清洗缺失、业务口径不明等问题 | 问题清单与修复计划 |
| 5. 看板上线监控 | 只有达到准入标准的事件进入 BI,并持续监控波动 | 质量看板和复盘机制 |
为了让业务明确哪些埋点可用,我设计了 A/B/C/D 分级:
| 等级 | 判断标准 | BI 使用方式 |
|---|---|---|
| A - 可用 | 三端一致性高,关键属性完整,趋势稳定 | 可进入正式 BI |
| B - 谨慎 | 有小问题但趋势清晰 | 可做趋势分析,不做精确结论 |
| C - 排查 | 字段缺失或波动明显 | 只用于问题排查 |
| D - 不用 | 关键字段严重缺失或数据不稳定 | 不进入 BI |
这个分级的价值,是让“数据能不能用”变成可讨论、可验收的标准,减少感觉判断。
项目中对 14 天全量数据做了多个事件专项分析,覆盖系统通知栏、案例股详情页、VIP 策略组合、尊享直播汇、精彩推荐、精品课程、栏目浏览等场景。
| 验数对象 | 分析重点 | 发现的问题 / 价值 |
|---|---|---|
| 系统通知栏点击 | PV、UV、消息类型、落地页 URL | 将通知用户与 H5 落地页访问关联起来 |
| 案例股详情页 | H5 访问、sp_id 分布、页面贡献 | 识别少数核心 ID 贡献主要流量 |
| VIP 策略组合 | 策略组合点击、用户权限分布 | 判断核心付费用户行为 |
| 尊享直播汇 | 直播间点击、周末回放行为 | 发现同名直播间多 ID 和回放流量问题 |
| 精品课程 | 点击、课程 ID、父模块探索率 | 发现部分字段未上报问题 |
| 栏目浏览 | column_code、column_sort | 发现字段空值和双编码问题 |
这些分析用于验证每个事件是否具备进入正式看板的条件,重点不在单个事件的流量展示。
埋点治理的另一个重点,是让原始行为数据可以被业务稳定使用。
我输出的宽表治理思路包括:
short_user_code 补全逻辑:当用户短编码为空或异常时,用可映射字段补齐。page_url、url_path、url_host、referrer_title 等字段。埋点治理的数据链路是:
原始埋点
-> 字段拆解
-> 质量评分
-> 问题修复
-> 宽表清洗
-> BI / 标签 / 用户分析
这个项目让后续的私享家 BI、用户标签、客户活跃分析和产品运营看板有了更可信的数据基础。
这个项目让我更加明确:数据产品的第一步是判断数据是否可信。只有埋点、字段、ID 和宽表稳定,业务看板、客户标签和用户分析才有意义。