温雯

个人信息Personal Information

教授

硕士生导师

教师英文名称：Wen Wen

教师拼音名称：wenwen

所在单位：计算机学院

学历：研究生毕业/硕士

性别：女

联系方式：wwen@gdut.edu.cn

学位：工学博士学位

在职信息：在职

教师博客

当前位置：中文主页 >> 教师博客

内容净化——视频智能分析与过滤

点击次数：

内容净化——视频智能分析与过滤

作者：陈君豪，温雯

引言

拿出手机，拍一段视频，上传到社交平台，与粉丝分享。今天这样的场景对于普通百姓来说，已经无比自然。根据2020年1月的一份调查报告，在中国大约每6位智能手机使用者中就有一位用户使用抖音，作为一款拥有国民认知度的app，抖音日活跃用户数已经突破4亿，每天大约有1000万人上传短视频，海量的视频数据给用户带来了丰富的信息来源和视觉体验，但同时也带来了铺天盖地的垃圾信息。在这篇文章中，我们尝试从抖音这类短视频社交平台的数据场景出发，告诉你它在内容净化过程中所面临的挑战和涉及的技术。

如图1所示，抖音的后台，每天需要面对用户源源不断产生的各类视频数据。它的内容净化系统主要由“存储”、“分析”和“过滤”三个关键模块组成。通过这三个模块处理之后的信息，将能够在较大程度上保证终端用户所获取的信息是合法而健康的。

内容净化图1.png

图1 视频内容净化系统流程

1. 存储

在抖音，平均每天用户上传的短视频数量达到1000万，按照1条长度为30s的视频大小3MB左右来算，仅从视频的存储容量来看，抖音平台每月新增的短视频容量将超过1PB。这是什么概念呢？通常来说一部高清电影需要的存储量是4GB，1PB的数据量，相当于26万部高清电影的存储量。

同时，数据的热度不均且变化迅速。平台中大约80%的数据是冷数据，即“低价值度的数据”，只有5%的数据为热数据，即“高价值度数据”，剩余的15%的数据则介于两者之间。可见冷数据占据了较大的存储空间，且通常也不会给用户创造价值。而主推记录用户美好生活平台的抖音，却不能对这些占据绝大部分的冷数据进行舍弃。

一方面，为了让用户拥有更好的体验，平台需要面对的是这些存储空间占比较大但又无法舍弃的冷数据，同时还要能够在如此庞大的数据中及时定位有价值的信息、并推送给用户; 另一方面，由于内容来自形形色色的个人用户，平台还需要对不良信息进行瞬时识别、控制和过滤。为了解决这两个问题，一类基本思路是将存储与计算独立分开，各司其职。从而在存储层面上避免机器的浪费与空间配比的频繁更新；在计算层面上则能实现更加弹性和可扩充的技术方案。

2. 分析

为了实现对短视频的分析，需要对视频内容进行识别。一般来说，可以通过特征提取、特征整合和内容分类三个阶段加以实现。如图2所示，特征提取负责从原始视频数据中提取出具有区分能力的特征，特征整合则主要负责将提取出的不同特征进行筛选、组合，并转化成计算机更易处理和计算的数值表达。内容分类则是在特征提取和表示的基础上，通过训练一个或者多个判别模型，达到将视频内容判断为某一具体类别的目的。

内容净化图2.png

图2 基于视频内容信息的识别过程

（1）特征提取

仔细回顾人类识别视频内容的过程，我们可以发现人对视频内容的感知既包括对视频整体特性的认知，也包括对局部特性的细化观察。从这个角度出发，机器对视频内容的分析，同样可以从整体和局部两个方面进行特征的提取：

a) 整体特征提取。与特定内容相关的图像和视频，往往具有某类整体特性。例如与日落、日出内容相关的视频，其整体色调可能偏向黄色和橙色。通过对类似色调、纹理等整体特征提取，能够获得辨识图像基本内容的特征。颜色矩就属于此类特征提取方法。

b) 局部特征提取。局部特征是指图像或者视频中的局部兴趣点或者兴趣区域，例如重复在不同帧图像中出现的同一双鞋，其局部颜色及边缘变化通常具有相近特性。对于此类局部特性进行定位、提取是辨识图像或视频中关键内容的重要特征。SIFT特征、SURF特征等属于此类特征提取方法。

传统的特征提取方法其实具有一定的主观性但也具有普遍遵循的原则，即特征需要容易提取，具有良好区分能力，同时选取的特征应该对噪声不大敏感。另一方面，由于在实际应用中图像和视频内容繁杂，特征提取和处理也很难只依赖单一的方法。通常将结合终端任务对多种提取方法所获得的特征进行整合和处理。

（2）特征整合

为了使得终端分类器能够获得更好的效果，特征整合的方案可以包括特征筛选、编码、池化和归一化等一系列操作，最终形成描述视频的归一化特征向量。

特征筛选是排除无效、冗余的特征，把有用信息的特征挑选出来作为模型的训练数据。特征编码就是将连续特征空间中的特征量化，得到可输入到后续学习模型的特征编码向量（或矩阵）。池化是根据视频中提取的所有特征编码计算视频的特征向量，即视频信息的表示常用的池化方法有两种：和池化（Sum Pooling）和最大池化（Max Pooling）。和池化相当于累计所有特征编码，而最大池化相当于筛选最显著的特征编码。视频池化得到特征向量后，常常还需要对特征向量进行归一化，以避免各维度特征尺度差异性而导致的学习偏差。

（3）内容分类

获得视频归一化向量以后，对于视频内容的识别，其最终任务往往可以建模成一个分类问题。同时，由于视频数据包含了时序上的不同帧，视频内容的分类可从两方面进行算法设计：直接分类和基于时间状态模型的分类。直接分类方法包括K近邻分类、随机森林、SVM等方法。基于时间状态的分类器包括马尔科夫模型、条件随机场等。不同的场景、甚至不同数据环境下，不同分类器的效果可能不同，为了获得更好的分类效果，在工业界应用场景中，常常会通过广泛的实验来确定更好的分类器设计方案，同时对多种分类器进行集成也是常见的技术手段。

近年来，随着深度学习技术的发展，上述“特征提取-特征整合-内容分类”的流水线模式已经广泛被深度神经网络框架所替代，通过端到端的大数据样本的学习，深度学习在很多情况下可以获得更优异的特征表示和分类效果。

3. 过滤

海量的短视频库满足了各类用户的不同需求，但同时也因为短视频投稿量越来越大，如果不进行审核过滤，一些不良信息的传播也会对用户和平台的口碑产生负面影响。对不良信息进行过滤是类似抖音这类涉及用户产生内容（User Generated Content： UGC）平台的关键任务之一。但在大多数情况下我们可能感觉不到信息监管和过滤的存在；只有在异常信息出现时，系统后台会自动执行信息过滤机制，从而尽量保证整个平台内容的健康和纯净。

如图1所示，视频的投稿人发布视频后并不是直接给用户观看，而是先发布在存储视频的后台，通过不良信息过滤系统进行机器预判，根据预判结果，后台工作人员会有选择地进行人工审核，以修正判断的结果，过滤之后的结果才会展示到用户终端。

显然，在短视频瞬时传播量如此庞大的抖音平台，依然无法单纯依赖的人工干预对用户内容进行精细化判断。为了增加不良信息过滤系统的识别能力，人工审核往往仅对机器无法判断的部分进行精确判断，同时人工判断的过程也将承担收集大量样本后构建样本集和判断库的任务。

图3.png

图3 不良信息过滤系统常见技术形式

在“2.分析”中我们提到，能够通过算法实现视频内容的识别与分类，这使得不良信息过滤系统的能力得到增强。然而，真实应用场景中，过滤系统所使用的信息不单只有视频信息，还包括平台所能获得的其他上下文信息，例如用户的标注、评论等。即最终的不良信息判断将基于视频、文本、用户行为等多样化信息。具体所采用的技术则包括下面的形式(如图3所示）：

1) 模型匹配：通过提前设置好的内容分类模型来识别视频画面和关键词，自动将识别结果分为确定和复审两部分。

2) 规则匹配：对于视频垃圾简介评论，可以使用传统的正则表达式或者各种基于元数据的定制，规则匹配是能够快速响应和准确针对的机制。

3) 内容聚合：不良信息视频往往为了博人眼球，会多次重复上传，这些大部分是广告上的宣传，对这些相似的内容进行实时分析和聚合，能够大批量的过滤这些不良视频。

4) 用户信息过滤:用户的个人信息也可以作为过滤的标准，用户的投稿内容如果多次被判定为不良信息，则该用户的视频则为限制流量推荐或者降权推荐，甚至进行退稿。

5) 用户举报：科学的用户举报分类可以帮助增加不良信息过滤系统训练特征样本

然而，仅仅过滤掉不良信息是远远不够的，反不良信息是一场持久战，不良信息也会不断进化，从中分析和挖掘得到的新型样本和特征可以用来支持不良信息过滤系统中各种模型以及规则的更新和升级。

小结:

近年来各类社交平台如雨后春笋般出现。每位用户都可以是盛夏夜空中的一颗星，在互联网这个舞台上贡献和展示内容。抖音只是这类平台中的一个代表，但抖音所面临的内容净化的挑战，是几乎所有此类平台所需要面对的。网络文明的建设是一个漫长的过程，正是伴随视频、文本分析、机器学习等技术的发展，不良信息过滤才能更加完善，用户才会拥有更加健康、安全的网络环境。随着数据的不断增长，在未来的道路上，更加智能、快速的海量信息理解和分类技术也值得期待。

致谢：广东省科技计划科技创新普及领域项目（2019A141401006）资助

上一条：守护城市——海量视频内容快速检索下一条：投其所好——用户行为理解与推荐（二）