基于Spark实现推荐算法-4:基于物品的协同过滤(实现篇)

Posted on 2018-05-04 Edited on 2022-12-03

算法设计与实现

基于物品的协同过滤又称Item-Based CF.
基于Spark的Item-Based CF算法其实现原理和步骤与经典方法基本一致，不同的地方主要在于具体步骤内的并行化计算。

基于Spark实现推荐算法-2:基于用户的协同过滤(理论篇)

Posted on 2018-05-03 Edited on 2022-12-03

基于用户的协同过滤

基于用户的协同过滤，即User-Based CF (User-Based Collaborative Filtering)，是基于一个这样的假设“跟你爱好相同的人喜欢的物品，你很可能也喜欢”，所以User-Based CF主要的任务就是找出用户的最近邻居，从而根据最近邻居的喜好做出未知项的评分预测。
User-Based CF算法可以分为4个步骤：数据表示、最近邻查询、评分预测、推荐结果产生。

基于Spark实现推荐算法-1:推荐算法简介

Posted on 2018-05-02 Edited on 2022-12-03

个性化推荐系统简介

个性化推荐系统的定义在 1997 年由 Resnick 和 Varian 提出:利用互联网向用户提供信息和建议，帮助用户选择产品，或模拟售货员帮助用户完成购买行为的系统。通常推荐由三个要素组成:推荐算法、用户、候选推荐项目。简单来说，一次推荐过程就是推荐算法从候选推荐项目中挑出某些项目给用户。

用Spark Streaming实时计算海量用户UV

Posted on 2018-05-01 Edited on 2022-12-03

提出需求

实时统计业务系统(web,APP之类)的访问人数,即所谓UV,或者DAU指标.

这个需求怕是流计算最最最常见的需求了.

计算UV的关键点就在于去重,即同一个人访问两次是只计一个UV的.在离线计算中统计UV比较容易想到的方法就是用group或distinct机制来去重.但是在实时计算场景,还用group就不太科学了,一个是全量数据的group是比较费时的,第二个是全量数据的group是很费内存和CPU的.特别是当用户量巨大的时候,还要做到秒级更新就更难了.

总结起来,需求就是:海量用户场景UV实时计算.

Spark API 全集(3):Spark RDD API全集

Posted on 2018-03-26 Edited on 2022-12-03

RDD是啥

Resilient Distributed Dataset (RDD)，弹性分布式数据集，是对不可修改，分区的数据集合的抽象。

RDD is characterized by five main properties:

A list of partitions
A function for computing each split
A list of dependencies on other RDDs
Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)
Read more »