Elasticsearch 电影推荐与内存控制实战
1. 电影数据与推荐策略
1.1 数据概述
在电影数据集中,mlmovies中的每个文档代表一部电影,关键数据为电影的_id和标题,可忽略offset和bytes。此数据集包含 10,681 部电影。mlratings则展示了用户的推荐信息,每个文档代表一个用户,由用户 ID 标识,movie字段列出了该用户观看并推荐的电影。
以下是mlratings的部分查询示例:
GET mlratings/_search { "took": 3, "timed_out": false, "_shards": {...}, "hits": { "total": 69796, "max_score": 1, "hits": [ { "_index": "mlratings", "_type": "mlrating", "_id": "00IC-2jDQFiQkpD6vhbFYA", "_score": 1, "_source": { "offset": 1, "bytes":