思维之海

——在云端,寻找我的星匙。

数据科学基础选撷

数据科学的核心技术主要分为:聚类、分类、关联分析、推荐。

聚类和分类通常是数据科学与机器学习、深度学习等课程的共性技术,但是关联分析和推荐则是比较具有数据科学特色的技术。其中,关联分析是一种分析数据之间的隐藏关系的技术。

References

学堂在线 - 《数据科学导论》

数据采集

数据主要来源与机构、人员和机器。其中以传感器为代表的机器产生了绝大部分数据。

传感器

传感器:一种测量非电学量,并将之转换为电信号的机器。

比如:麦克风(微机电麦克风的核心技术是将压力感应膜直接刻蚀在硅片上)、惯性测量单元(IMU,测量速度、方向和引力,包括加速度计、陀螺仪、磁力计)、接近传感器、运动传感器、红外探测传感器、温度传感器(热电偶、热敏电阻、温度传感芯片)。

在传感器获得数据后,通常需要放大器、滤波器、模数转换器、MCU、DSP微处理器等等。

信号处理电路

FPGA(现场可编程逻辑阵列,可以反复擦写),ASIC(专用集成电路,无法修改,但性能更好),在本质上FPGA和ASIC是实现数字硬件电路的两种不同方式。

FPGA芯片内部电路可不断修改,应用升级时容易改进,常用于科研领域和新兴领域。

ASIC芯片设计费用极高,但量产大时平均成本较低。芯片鲁棒性高。

GPU是专门用来进行图形处理的微处理器。GPU通常具有成百上千个内核,适用于大规模的并行计算。


无线通信

蜂窝:通信距离最远、功耗最大。

WIFI:IEEE 802.11 标准,传输范围广,传输速度快。可以工作在2.4G和5G两个频段,支持的传输速率上限不同。

蓝牙:传统最多包含7个活动设备,一般在几米的范围内使用。传输速率低,功耗低。最新的BLE低功耗蓝牙技术,在无线传感器中使用广泛。

NFC:近场通信,不需要电池供电,类似于射频识别卡,一次只与一台设备连接,具有保密和安全性。

物联网远距通信:千米量级,比如LoRa、NB-IoT、Sigfox、5G等。

能量管理电路

控制算法:在非有效工作时间尽量关闭电源,或者将传感器系统切换到低功率状态。

设置多种供电电压:优化和适配每个部分的功耗。

线性稳压器LDO:电池使用后电压会下降,LDO只能产生比输入电压更低的电压。

开关型转换器DC/DC:获取高于输入电压的稳压。

能量收集:收集环境能源,采用局部能量收集系统。

无线充电技术:线圈磁场(较成熟,分为磁感应、磁共振)、电容电场、可见光、射频波、超声波……

数据可视化

历史上的可视化

流行病学

霍乱传染病数据可视化:(流行病学领域的奠基性工作)

该地区水井分布的Voronoi图:

战役

拿破仑远征俄国:(Flow Map)

对密集型Flow Map的优化:(层次聚类)

表格数据的可视化

Mosaic Plot

火车时刻表

借助Flow Map反映客流量:

Heat Map 热图

交通事故分布热图:

用户点击量热图:

高维数据的可视化

体积图

精心设计法:

雷达图/蜘蛛图

雷达图:(高维数值型数据)

平行坐标

平行坐标法:(高维数值型数据)

高性能计算

数据隐私

数据与法

数据知识产权

环境大数据分析