
Python 實現(xiàn)搜索引擎培訓
課程首先會講解爬蟲基礎(chǔ)并利用 Python 的異步特性實現(xiàn)異步的爬蟲系統(tǒng)。
而后,會對索引的構(gòu)建、索引的壓縮、排名算法等知識點進行講解并實現(xiàn)其編碼。
后利用異步 web 框架 sanic 構(gòu)建后端,實現(xiàn)一個完整的垂直搜索引擎站點。
1 搜索引擎架構(gòu)設(shè)計
2 爬蟲的基本概念
3 基于 Ruia 構(gòu)造異步爬蟲系統(tǒng)
4 對文檔數(shù)據(jù)進行處理
5 實現(xiàn)倒排索引的壓縮
6 異步爬蟲框架 Sanic
7 實現(xiàn)前后端交互
8 搜索引擎的必要組件
9 異步爬蟲框架 Ruia
10 索引結(jié)構(gòu)的使用
11 實現(xiàn) ElasGamma 算法的編碼與解碼
12 文檔的搜索功能
13 編寫搜索引擎前端
14 搜索結(jié)果排名
1
搜索引擎架構(gòu)
1.介紹課程實現(xiàn)的搜索引擎的架構(gòu)設(shè)計
2.介紹搜索引擎所必要的組件
3.對課程項目進行開發(fā)環(huán)境的部署和配置
4.創(chuàng)建項目及必要的代碼目錄
2
構(gòu)建爬蟲系統(tǒng)
1.爬蟲的基本概念
2.異步爬蟲框架ruia的使用介紹
3.基于ruia構(gòu)造異步爬蟲系統(tǒng)
3
索引結(jié)構(gòu)的實現(xiàn)
1.索引的基本概念
2.構(gòu)建倒排索引
3.對文檔數(shù)據(jù)進行處理
4
索引壓縮
1.為什么要進行索引壓縮
2.倒排索引的優(yōu)化方法
3.實現(xiàn)EliasGamma算法的編碼與解碼
4.實現(xiàn)倒排索引的壓縮
5.實現(xiàn)文檔的搜索功能
5
實現(xiàn)搜索引擎前端以及后端
1.異步Web框架Sanic
2.使用Sanic搭建后端服務
3.編寫搜索引擎前端
4.實現(xiàn)前后端交互
6
搜索結(jié)果排名
1.CosineSimiliarity
2.PageRank
7
搜索引擎的功能擴展
1.為搜索關(guān)鍵詞結(jié)果編寫頁面緩存功能
