思维之海

——在云端,寻找我的星匙。

CV学习手册

CV(Computer Vision),计算机视觉。

References

CS231n【B站视频】

一些笔记 Rough

机器人感知:目标检测,目标识别,目标跟踪。

目标检测

前景提取法

帧间差分

背景差分

先验特征法

早期视觉专家专注于挖掘各种特征.

比如:人脸的肤色特征;车辆的水平/垂直边缘、角点,车灯,对称性,车底阴影。

缺点:不鲁棒,挑选困难。

机器学习法

Adaboost基本原理

一种集成学习的方法。

通过一系列的弱分类器(这些分类器可能只有51%的极低准确率,但只要有点效果就行了,slightly better and random)。

每个弱分类器都定义了一个弱分类能力的超平面,我们通过调整超平面的位置尽量使得这个超平面让所有的正确样本识别正确。(自动调整权重,Adaboost)

每一个这样的弱超平面都可以在一定程度上去掉一些负样本。

这样就可以集成出一个包络超平面,这个包络超平面形成了一个强分类器

这样的算法对那些检测型的任务(确定是否存在)十分有效。

基于Adaboost的人脸检测

Robust Real-time Face Detection - 微软论文,2004年发表于IJCV

利用Haar特征(小波)来刻画人脸。

快速提取特征:积分图(相当于二维的后缀数组)。

总共有4万多个特征,利用Adaboost从中挑出200多个特征(弱分类器)作为最后的强分类器。

此时扫描一张384*288的图像需要0.7秒。

远远达不到实时(小于0.067秒,可以骗过人眼)。


解决实时问题:【级联剪枝】

  • 抑制背景样本——The cascade分类器
    • 每个特征依次检测,串联,只有通过了才能检测下一个
    • 变成一个类似决策链的东西

应用

雷达和视觉的融合目标检测
在线Boosting

目标检测存在的问题

  • 检测不稳定
    • 漏检、误检
    • 目标跟踪
  • 局部特征
    • 全局特征
  • 目标检测之后
    • 目标识别

多媒体的自动字幕生成

captioning

understanding

Image Captioning

Instance recognition 事例识别

Scene recognition

Attribute recognition 形容词形式


Image Captioning:看图写话,生成一个全局的描述。

变成一个序列的训练问题。

$\longrightarrow$ Encoder - Decoder。引入RNN处理序列。

设计特征。手工 / 自动。引入CNN学习特征。

maxpool,保留最重要的特征——一种降采样的方法。

LSTM,解决梯度消亡问题。

attention机制:一个对特征的权重系数。对特定的模式,匹配特定的权重。


evaluation:

  • n-gram based:Bleu……
  • semantic-based:SPEC……

数据集:MSCOCO,Conceptual Captions,NOCAPS。


Dense Caption(CVPR 2016)

Image paragraph(CVPR 2017)

帮助盲人识图 / 认识场景

拍照的角度问题,如何提示盲人调整相机角度

动态captioning,主动寻找一个视角

Embodied Image Caption

Towards embodied scene description

Video Captioning

多了声音和时间特征。

但是在信息密度上比图片多很多,所以实际效果其实一般。。

Audio Captioning

声音的噪声较多。

声音提供的信息有限。

数据集:AudioCaps,MSR-VTT。


知识图谱用进来,按照图片的QA~

captioning和强化学习的结合~

…………

稀疏编码

PAC,产生式模型。

压缩感知 Compress Sense

研究兴趣:从香农定理如何发展到稀疏编码?

奈奎斯特-香农定理:为了完美地重构信号,需要按照不小于2倍带宽采样率对信号进行采样。

可能需要专门学习来理解。。

通过提高采样频率来防止信号交叉重叠。

2006年这个定理遭遇了巨大的挑战——只要感兴趣的信号是可压缩的(或者是可稀疏表示的),那么我们就可以通过少于,甚至是远少于Nyquist-Shanon的要求对信号采样就可精确地获得该信号。(压缩感知,2006)

可以认为是一种近似算法。通过牺牲一定的精确性,来换取更高的采样效率。

在感知的过程中同时做压缩。

  • 信号的稀疏表示
  • 编码测量
  • 重构算法

稀疏编码

零范数:向量中非零元素的个数。

对大多数欠定系统,1-范数求解和零范数求解的稀疏结果是一致的。

大多数?OK,(假装自己是大多数。。工程上默认满足这个条件。

LASSO方法的求解简单很多。零范数却是组合优化问题(NP)。


压缩感知综述特别多。


人脸识别。人脸图像空间的线性子空间假设。(回忆PCA方法)

给一张新的人脸照片,让重构的子空间样本图片尽可能少——引入稀疏表示。


SRC算法——巨大提升。

运算便利,并且具有鲁棒性。

结构化稀疏编码

阿丘科技

选对赛道很关键
做CEO需要专注,少做工程师

你的客户是谁
你的产品是什么样子

对商机时机的把握特别重要

创业永远比你想得要困难得多

技术创业者要培养产品和商业的思维和Sense
聚焦 less is more,创业资源一定要精准投放
快 move fast,强调执行力。不要太在意无序的细节。创业公司早期快速增长,没必要拘泥于细节的繁琐。很多问题都是短期临时的问题,只有沉淀下来长期存在的才是需要解决的问题。
心态好(乐观,不要脸)。对目标的解决方法的思考,而不只是关注难点。你最需要在乎你自己的心,追逐自己的行维。
学会利用资源。

dream-driven, all-in, enjoy-it.

目标跟踪

粒子滤波

信号处理的角度,利用一组加权粒子近似贝叶斯滤波。

鲁棒、融合、自适应性。在线学习。

短时间内颜色不会发生突然、本质的变化,所以在跟踪问题中常常会用到颜色。

视觉跟踪

基于分类器

粒子滤波(Partical Filter)。

本质上就是一个检测器。

把所有的行人检测出来。而且要加入时序特征。

用高斯分布来检查行人位置,用方差来调控检测范围。

还可以采用混合高斯分布,一个峰代表位置信息,一个峰代表基于物理的移动预测。这两个峰都可以取小方差,从而降低计算量。并且可以应用到多目标的检测、跟踪中。

离线训练的检测器模型应用广泛,但是适应性很差。

所以,引入了在线更新的离线模型。构造一个动态变化的分类器集群。

特征群的位移梯度。

特征的长期记忆、短期记忆。

基于稀疏编码

增量式的PCA算法。

在NIPS上发表的文章都需要一点理论上的创新贡献。

似然函数:相似度比较函数。

稀疏编码计算量很大。对每一个框都需要计算一次稀疏编码。

  • 反向操作:把所有的框当成向量空间,来表示模板(相似度的计算实际是对称的
    • 这样稀疏编码的次数就显著变少了!
    • 运算量跟颜色直方图差不多,而效果而提升了不少

稀疏编码这个方法相当鲁棒。

基于半监督学习

模板更新。

半监督:少量标注数据,大量无标注数据。

每一个半监督学习都需要依赖于某种假设。

$\text{S}^3\text{VM}$ 半监督SVM

SVM:深度学习前的最后一站。

假设:无监督的分类样本可以大间距地分开。

缺点:优化困难,非凸,容易局部极小化。

Graph-based SSL(Semi-supervised Learning, 半监督学习)

假设:所有的样本构建成一个图……

基于流形假设,对于某些场景效果非常好(如果图能够很好地刻画数据的数学本质)。

Co-training 协同学习

这个和网络里面的协作学习(无中心化的分布式学习)是有区别的。

多个相对独立的分类器/模型各自提供各自的强项,来更新其它分类器。

到底怎么去融合呢?衍生出来的新问题。大多数paper都是随便搞一搞效果好就发paper了


对于目标跟踪,检测器和跟踪器可以分开合作学习,而不需要融合。

爱奇艺

视频内容的智能分析

Person AI

主要还是视频AI,计算机视觉+时序。

目标理解

识别除了人以外的目标特征。

物体检测——物体属性识别——物体跟踪。(三大视觉任务)

事件与场景理解

BC-GNN 视频事件检测。

应用到体育赛事中、游戏解说等。

视频场景理解:场景分类,甚至定位具体的景点、地点。

视频内容质量分析:

  • 视频精彩度
  • 视频内容分级

台词理解

文本检测与识别:OCR,各种场景的OCR(比如,斜着的)。

自动抽取视频中内嵌的台词、字幕文本。

智能创作

AI辅助大型节目后期制作系统,颠覆传统纯手工模式(1000+小时的工时)。

智能拆条——语义级重组。(语义混剪

智能变现

广告内容和视频内容提升匹配度。还是基于内容的理解。

内容理解是视频应用的基础技术

自动驾驶

感知、决策、控制、执行……

中国智能车未来挑战赛(自然科学基金委)。

L3产品目前虽然已经有了产品,但是技术标准比较模糊。L2级已经比较成熟了。

日本:智慧城市物流网络。

单车的智能仍然是难题。

视觉传感器

激光雷达毫米波雷达摄像头、GPS、IMU……

激光雷达

用激光进行探测和测距。

  • 3D建模进行环境感知
  • SLAM加强定位

缺点:对同距目标不敏感,昂贵,容易受环境影响。

著名公司:Velodyne、Ibeo(10万RMB左右)、禾赛、速腾……

毫米波雷达

波长毫米量级的电磁波。

精度高。不需要维护(擦洗镜头)。

24GHz,近距。77GHz,远距。

超声波雷达

很便宜,几十块钱。

检测距离短,倒车的时候可以用。

方向性较差,高速下有局限性。

定位传感器

现在的发展还很有限。

绝对定位:GPS、SLAM。

里程坐标系定位:惯导、视觉里程计、轮速里程计。

惯性导航系统

挺贵的。。

用加速度等传感器来积分求物体姿态。

SLAM

激光SLAM。成本很高。

视觉SLAM。室外基本用不了。

高精度电子地图

厘米级精度。对路网精确的三维表征。


矿山无人驾驶。特种车。

码头。量少,规模大。环境单一。

系统架构

环境感知、决策规划、控制执行。

感知技术

KITTI、A2D2数据集。

卡尔曼滤波预测。

多模态融合的时机:前融合、中间融合、后融合。






Why is it so hard to make self-driving cars?

Trustworthy Automomous Systems

Joseph Sifakis: Turing award.