【数仓项目】商业化广告

红某书数仓项目,不像是市面上大多是普遍的项目,很容易转化。
【数仓项目】商业化广告
audio-thumbnail
商业化广告项目
0:00
/661.12

1. 项目背景

随着视频内容平台用户基数的增长,商业化广告成为平台变现的重要支柱。然而,当前的广告投放存在效率低下的问题,商家难以精准触达目标用户,同时数据仓库提供的数据颗粒度较粗,无法有效支撑数据科学团队的分析与优化。为提升广告收益并增强平台竞争力,构建一个用户标签系统成为商业化战略转型的关键阶段。针对以上问题,首先要做的就是通过用户行为与特征数据对用户进行标签化,以支持精准广告投放与数据驱动的运营。

当前视频内容平台在商业化广告中面临以下核心问题

  • 广告投放效率低:缺乏用户标签体系,导致广告匹配不准,转化效果不佳。
  • 商家满意度下降:投放效果不理想,影响商家对平台的信任与投入。
  • 数据应用能力薄弱:数仓数据维度有限,难以支撑数据科学团队对用户进行精细化建模。

为解决这些问题,需构建一套基于数据驱动的用户标签系统,通过数据采集、标签生成、动态更新,提升广告投放的精准性与数据支持能力,优化平台的商业化生态。


基于目前的这个问题,衍生出了两个子问题:

⭐️第一,既然要对用户进行标签化,那么应该用什么样的标准来定义用户的标签呢?合理的标签标准可以有效提升广告投放的匹配效率。针对这个问题,采用的方法是结合业务规则与历史数据分析的综合方式。

⭐️第二,如何聚合用户数据?围绕哪些指标来计算用户的特征与偏好,以便更好地为商家推广和数据科学团队提供支持呢?


2. 开始建模

为解决上述问题,我们将按照以下标准步骤进行建模:

  • 梳理业务过程
  • 确定粒度
  • 设计维度
  • 设计事实

以下是具体建模步骤:

Step 1: 业务需求拆解 → 明确分析目标

核心问题定位:

🔍“由于缺乏用户标签体系,广告投放效率低,商家无法精准触达目标用户,同时数据仓库数据颗粒度不足,限制了数据科学团队的分析能力 —→ 如何通过用户标签化识别用户兴趣、行为特征和消费潜力,为广告投放提供精准画像并为数据分析提供高质量支持。”

最终目标:

通过构建用户标签系统,优化广告投放效果并提升数据分析能力。具体方法包括:

  1. 对用户进行标签化,基于行为和属性生成用户画像。
  2. 实现数据驱动的广告投放策略,通过动态标签更新持续优化。

关键指标定义:

根据项目背景与建模设计,以下是该用户标签系统的关键指标体系及其定义,分为广告效果用户标签质量数据支持能力商业化收益四大类:


一、广告效果指标(核心目标:提升投放精准度)

指标名称 定义与公式 业务意义
点击率(CTR) 广告点击次数 / 广告曝光次数 × 100% 衡量广告内容与用户兴趣的匹配度,CTR越高说明标签精准度越佳。
转化率(CVR) 转化次数(如下单、注册) / 广告点击次数 × 100% 反映广告对用户的实际影响力,CVR提升代表标签驱动的投放策略有效。
千次曝光收益(RPM) 广告总收益 / 广告曝光次数 × 1000 综合衡量流量变现效率,直接关联平台收入。
广告召回率 被成功匹配到目标用户的广告数 / 广告主设置的期望投放广告数 × 100% 评估标签系统覆盖用户需求的广度,高召回率说明标签体系完整。
广告主满意度评分 广告主对投放效果的评分(如1-5分,基于问卷反馈或续投率推算) 直接反映商家对平台的信任度,影响长期合作关系。

二、用户标签质量指标(核心目标:确保标签有效性)

指标名称 定义与公式 业务意义
标签覆盖率 被打上有效标签的用户数 / 平台总活跃用户数 × 100% 衡量标签系统的覆盖能力,低覆盖率可能导致部分用户无法被精准投放。
标签准确率 经人工抽样验证正确的标签数 / 总抽样标签数 × 100% 确保标签定义与用户真实行为一致(如“母婴兴趣用户”实际浏览母婴内容)。
标签更新频率 用户标签的更新周期(如小时级/天级/周级) 动态更新能力影响实时投放效果(如用户近期行为变化需及时反映在标签中)。
标签颗粒度 单个用户平均拥有的标签数量 颗粒度过粗(<5)导致画像模糊,过细(>50)增加计算复杂度。
高价值用户识别率 被标记为“高消费潜力”“高活跃度”等核心标签的用户数 / 总用户数 × 100% 直接影响高价值用户的广告触达效果。

三、数据支持能力指标(核心目标:增强分析效率)

指标名称 定义与公式 业务意义
数据查询响应时间 从发起查询到返回结果的平均时间(如90%查询<3秒) 影响数据科学团队分析效率,响应慢可能导致迭代周期延长。
数据覆盖维度数 支持分析的维度数量(如用户属性、行为类型、设备类型等) 维度越多,分析灵活性越强(当前项目已设计5个维度表,覆盖基础需求)。
行为数据完整性 有完整行为记录(曝光→点击→转化)的用户数 / 总用户数 × 100% 数据缺失会导致标签生成偏差(如只有曝光无点击的用户兴趣权重需调整)。
实时数据处理延迟 从用户行为发生到进入标签系统的平均时间(如曝光事件延迟<1分钟) 延迟过高会导致标签更新滞后,影响实时投放效果。

四、商业化收益指标(核心目标:验证商业价值)

指标名称 定义与公式 业务意义
广告收入增长率 (本期广告收入 - 上期广告收入) / 上期广告收入 × 100% 直接衡量标签系统对平台变现能力的提升。
商家续投率 继续投放广告的商家数 / 总合作商家数 × 100% 反映商家对平台投放效果的长期认可。
单用户广告收益(ARPU) 广告总收入 / 活跃用户数 衡量用户价值挖掘深度,ARPU提升说明标签系统有效识别高价值用户。

梳理业务过程

商业化广告业务的目标是通过广告投放为平台创造收益,同时优化用户体验和广告主效果。以下是核心业务过程的详细梳理:

  1. 广告主创建与审核
    • 广告主在平台创建广告计划,设定目标人群、预算、投放时间,并上传素材。
    • 平台审核素材合规性,审核通过后分配广告位。
  2. 广告匹配与投放
    • 用户在平台上观看视频或浏览内容时,触发广告系统。
    • 系统根据用户画像(年龄、兴趣等)和广告目标,匹配并展示广告,记录曝光。
  3. 用户交互
    • 用户可能点击广告、完成转化(如购买)或跳过广告。
    • 系统实时记录用户的交互行为(如曝光、点击、转化)。
  4. 数据采集与分析
    • 通过埋点采集广告交互和用户行为数据。
    • 数据分析生成用户标签(如“高消费用户”)和广告效果指标(如CTR、CVR)。
  5. 反馈与优化
    • 向广告主提供效果报表,优化投放策略。
    • 更新用户标签,调整广告匹配逻辑。
  6. 结算与收益
    • 根据投放效果(曝光、点击、转化)计算费用,与广告主结算。

关键数据点:用户行为、广告曝光、点击、转化、广告主信息、广告位信息。


Step 2: 确定粒度

核心原则

  • 不可再分:粒度需足够细,确保支持所有分析需求。
  • 一致性与扩展性:适应不同场景(如视频广告、横幅广告)和后续需求。

确定的粒度

  • 原子粒度:用户与广告的单次交互行为(包含广告的曝光,他们两个可以合并)
    • 具体定义:每次曝光、点击或转化作为一个独立记录。
    • 示例:用户A在2023-10-01 10:00:00看到广告B的曝光是一条记录,用户A在10:01:00点击该广告是另一条记录。
  • 理由
    • 这种粒度能完整记录用户与广告的交互过程。
    • 支持灵活聚合(如按天、按用户、按广告汇总),满足标签生成和效果分析需求。

Step 3: 设计维度

维度表提供分析视角和上下文信息,以下是基于商业化广告业务设计的维度表:

1. dim_user(用户维度表)

  • 字段
    • user_id:用户ID(主键,唯一标识用户)
    • age:年龄
    • gender:性别(如“男”“女”“未知”)
    • region:地区(如“北京”“上海”)
    • device_type:设备类型(如“iOS”“Android”)
    • registration_date:注册时间
    • last_login_time:最后登录时间
  • 作用
    • 提供用户基础信息,用于生成用户画像和标签(如“高活跃用户”)。
    • 支持分析不同用户群体对广告的响应情况。

2. dim_ad(广告维度表)

  • 字段
    • ad_id:广告ID(主键,唯一标识广告)
    • advertiser_id:广告主ID(外键,关联dim_advertiser)
    • ad_type:广告类型(如“视频广告”“横幅广告”)
    • target_audience:目标人群描述(如“18-25岁男性”)
    • start_date:投放开始时间
    • end_date:投放结束时间
    • ad_content:广告素材描述(如视频URL或图片URL)
  • 作用
    • 描述广告的基本属性,支持广告效果分析和投放策略优化。

3. dim_advertiser(商家/广告主维度表)

  • 字段
    • advertiser_id:广告主ID(主键,唯一标识广告主)
    • advertiser_name:广告主名称(如“耐克”“携程”)
    • industry:所属行业(如“运动品牌”“旅游服务”)
    • contact_info:联系信息(如邮箱或电话,可选)
    • create_time:广告主注册时间
  • 作用
    • 表示广告主信息,支持分析不同行业或广告主的投放效果。

4. dim_product(商品维度表)

  • 字段
    • product_id:商品ID(主键,唯一标识商品)
    • product_name:商品名称(如“跑鞋”“背包”)
    • category:商品分类(如“运动用品”“旅行装备”)
    • brand:品牌(如“耐克”“北面”)
    • price:价格(如“299.99”)
    • product_status:商品状态(如“在售”“下架”)
  • 作用
    • 描述广告涉及的商品信息,支持分析“哪些商品的广告转化率高”。
    • 在广告落地页指向具体商品时尤为重要。

5. dim_search_keyword(搜索词维度表)

  • 字段
    • search_keyword_id:搜索词ID(主键,唯一标识搜索词)
    • keyword:搜索词内容(如“跑鞋”“旅游攻略”)
    • category:所属分类(如“运动用品”“旅游”)
    • search_frequency:搜索频率(如“每日1000次”)
    • hot_score:热度评分(如“0-100”,基于算法计算)
    • create_time:首次被搜索的时间
  • 作用
    • 表示用户搜索的关键词,支持分析用户兴趣和搜索词与广告的相关性。
    • 可用于生成用户标签(如“搜索‘旅游攻略’的用户标记为‘旅游爱好者’”)。

Step 4: 设计事实

确定了粒度以后,思考一下具体的事实表如何建立,

事实表记录业务活动的关键度量数据,以下是基于商业化广告业务设计的事实表:

  • dwd_ad_impression_fact(广告曝光事实表)
    • 字段:impression_id, ad_id, user_id, timestamp, device_type, ad_slot_id, is_valid
  • dwd_ad_click_fact(广告点击事实表)
    • 字段:click_id, ad_id, user_id, timestamp, device_type, ad_slot_id, click_url, is_valid
  • dwd_user_behavior_fact(用户行为事实表)
    • 字段:behavior_id, user_id, content_id, behavior_type, timestamp, duration
  • 设计说明
    • 该表记录用户与广告的每一次交互,粒度为单次行为,与确定的原子粒度一致。
    • interaction_type 区分曝光、点击和转化,支持计算CTR、CVR等指标。
    • timestamp 和 session_id 提供时间和上下文信息,便于分析用户行为序列。
    • 与维度表通过外键关联,形成星型模型,便于多维度查询。

阅读全文

注册 立即解锁全文并访问全部文章: 网站会员 and 成为小万的高级会员 tiers 专享.

订阅
已有账号? 登录

小万和大树知识成长营地

注册成功!

欢迎回来,已成功登录。

你已成功订阅 小万和大树知识成长营地。

成功!请查收登录邮件。

成功!账单信息已更新。

账单信息未更新。