曙海教育集團
全國報名免費熱線:4008699035 微信:shuhaipeixun
或15921673576(微信同號) QQ:1299983702
首頁 課程表 在線聊 報名 講師 品牌 QQ聊 活動 就業
 
搜索引擎核心技術課程

 
  班級規模及環境--熱線:4008699035 手機:15921673576( 微信同號)
      每個班級的人數限3到5人,互動授課, 保障效果,小班授課。
  上間和地點
上部份地點:【上海】同濟大學(滬西)/新城金郡商務樓(11號線白銀路站)【深圳分部】:電影大廈(地鐵一號線大劇院站)/深圳大學成教院【北京分部】:北京中山學院/福鑫大樓【南京分部】:金港大廈(和燕路)【武漢分部】:佳源大廈(高新二路)【成都分部】:領館區1號(中和大道)【沈陽分部】:沈陽理工大學/六宅臻品【鄭州分部】:鄭州大學/錦華大廈【石家莊分部】:河北科技大學/瑞景大廈
最近開間(周末班/連續班/晚班):2020年3月16日
  實驗設備
    ◆小班教學,教學效果好
       
       ☆注重質量☆邊講邊練

       ☆合格學員免費推薦工作
       ★實驗設備請點擊這兒查看★
  質量保障

       1、培訓過程中,如有部分內容理解不透或消化不好,可免費在以后培訓班中重聽;
       2、培訓結束后,授課老師留給學員聯系方式,保障培訓效果,免費提供課后技術支持。
       3、培訓合格學員可享受免費推薦就業機會。☆合格學員免費頒發相關工程師等資格證書,提升職業資質。專注高端技術培訓15年,端海學員的能力得到大家的認同,受到用人單位的廣泛贊譽,端海的證書受到廣泛認可。

部份程大綱
 

第一部份:初識搜索引擎,了解其技術架構
1、按照各大搜索引擎商業公司使用的技術為依據對搜索引擎進行時代劃分
2、講解搜索引擎的三大實現目標
3、講解搜索引擎的三大核心問題及技術發展
4、詳細講解搜索引擎的技術架構

第二部份:講解網絡爬蟲
1、講解通用爬蟲框架
2、講解通過哪些特征來判斷一個網絡爬蟲是否優秀
3、詳細講解網絡爬蟲的抓取策略
4、詳細講解網絡爬蟲對網頁更新策略
5、詳細講解網絡爬蟲的暗網抓取
6、詳細講解分布式爬蟲

第三部份:講解搜索引擎索引
1、講解單詞--文檔矩陣、倒排索引基本概念、倒排索引簡單實例
2、講解單詞詞典:哈希加鏈表、樹形結構、
3、講解兩遍文檔遍歷法、排序法、歸并法、動態索引
4、講解索引更新策略:完全重建策略、在合并策略、原地跟新策略、
5、講解查詢處理:一次一文檔、一次一單詞、跳躍指針、多字段索引

第四部份:講解索引壓縮
1、講解詞典壓縮
2、講解倒排列表壓縮算法
3、講解文檔編號重排序
4、講解靜態索引裁剪

第五部份:檢索模型與搜索排序
1、講解布爾模型
2、講解向量空間模型
3、講解概率檢索模型
4、講解語言模型方法
5、講解機器學習排序

第六部份:講解鏈接分析
1、講解web圖
2、講解隨機游走模型、子集傳播模型、鏈接分析算法之間的關系
3、講解PageRank算法
4、講解HITS算法
5、講解SALSA算法
6、講解主題敏感PageRank
7、講解Hilltop算法

第七部份:云存儲與云計算
1、講解云存儲與云計算概述
2、講解CAP原理
3、講解Google的云存儲與云計算架構
4、講解google文件系統GFS
5、講解BigTable存儲模型
6、講解Map/Reduce云計算模型

第八部份:講解網頁反作弊
1、講解內容作弊
2、講解鏈接作弊
3、講解網頁隱藏作弊
4、講解Web 2.0作弊方法
5、講解反作弊技術的整體思路
6、講解通用鏈接反作弊方法
7、講解專用鏈接反作弊技術

第九部份:講解用戶查詢意圖分析
1、講解搜索行為及其意圖
2、講解搜索日志挖掘
3、講解相關搜索
4、講解查詢糾錯

第十部份:講解網頁去重
1、講解通用去重算法框架
2、講解Shingling算法
3、講解I-Match算法
4、講解SimHash算法
5、講解SpotSig算法

第十一部份:搜索引擎緩存機制
1、講解搜索引擎緩存系統架構
2、講解緩存對象
3、講解緩存結構
4、講解緩存淘汰策略
5、講解緩存跟新策略

第十二部份:講解搜索引擎的發展趨勢
1、講解個性化搜索
2、講解社會化搜索
3、講解實時搜索
4、講解移動搜索
5、講解地位位置感知搜索
6、講解跨語言搜索
7、講解多媒體搜索
8、講解情景搜索

第十三部份:實戰講解怎么構建一個搜索引擎01(使用Java開發)
1、準備搜索引擎開發環境、提取HTML文件內容:結構化信息提取、網頁架構相似度計算、正文提取工具FireBug、NekoHTML的使用
2、提取txt、pdf、word、execl、PowerPoint等文件內容、流媒體文件內容提取(音頻文件、視頻文件)
3、Lucene中的中文分詞、Lietu中文分詞的使用、理解Lucene的索引庫結構、設計一個簡單的索引庫
4、自動分類的SVM方法實現、K均值聚類方法、K均值實現、拼音轉換、語義搜索

第十四部份:實戰講解怎么構建一個搜索引擎02(使用java開發)
1、索引優化、查詢優化、實現時間加權排序、實現字詞混合索引、定制Similarity、定制Tokenizer
2、Lucene搜索接口、搜索頁面設計、實現搜索接口
3、實現關鍵字高亮、實現多維視圖、實現相似文檔搜索、實現AJAX自動完成
4、使用Solr實現分布式搜索:Solr服務器端的配置與中文支持、Solr索引庫的查找、Solr搜索優化、SolrJ查詢分析器、Solr的.net客戶端、Solr的php客戶端

 

-

 

  備案號:備案號:滬ICP備08026168號-1 .(2024年07月24日)....................
友情鏈接:Cadence培訓 ICEPAK培訓 EMC培訓 電磁兼容培訓 sas容培訓 羅克韋爾PLC培訓 歐姆龍PLC培訓 PLC培訓 三菱PLC培訓 西門子PLC培訓 dcs培訓 橫河dcs培訓 艾默生培訓 robot CAD培訓 eplan培訓 dcs培訓 電路板設計培訓 浙大dcs培訓 PCB設計培訓 adams培訓 fluent培訓系列課程 培訓機構課程短期培訓系列課程培訓機構 長期課程列表實踐課程高級課程學校培訓機構周末班培訓 南京 NS3培訓 OpenGL培訓 FPGA培訓 PCIE培訓 MTK培訓 Cortex訓 Arduino培訓 單片機培訓 EMC培訓 信號完整性培訓 電源設計培訓 電機控制培訓 LabVIEW培訓 OPENCV培訓 集成電路培訓 UVM驗證培訓 VxWorks培訓 CST培訓 PLC培訓 Python培訓 ANSYS培訓 VB語言培訓 HFSS培訓 SAS培訓 Ansys培訓 短期培訓系列課程培訓機構 長期課程列表實踐課程高級課程學校培訓機構周末班 端海 教育 企業 學院 培訓課程 系列班 長期課程列表實踐課程高級課程學校培訓機構周末班 短期培訓系列課程培訓機構 端海教育企業學院培訓課程 系列班
主站蜘蛛池模板: 国产综合成人色产三级高清在线精品发布| 狠狠综合久久综合88亚洲| 开心久久婷婷综合中文字幕| 亚洲五月激情综合图片区| 色噜噜狠狠色综合网| 亚洲第一综合天堂另类专| 在线综合亚洲欧美网站| 伊人亚洲综合网| 激情综合一区二区三区| 天天影视色香欲综合久久| 狠狠色丁香婷婷久久综合| 亚洲综合日韩精品欧美综合区| 亚洲欧美乱综合图片区小说区| 一本色道久久综合亚洲精品| 亚洲综合欧美精品一区二区| 亚洲国产综合专区在线电影| 一本一本久久a久久综合精品蜜桃| 亚洲欧美综合在线中文| 婷婷五月综合色视频| 狠狠色噜噜狠狠狠狠色综合久AV| 欧美亚洲综合激情在线| 观看 亚洲欧美日韩综合在线一区| 国产巨作麻豆欧美亚洲综合久久| 99久久婷婷国产综合亚洲| 国产成人综合日韩精品无码不卡| 亚洲欧美综合在线中文| 国产成人亚洲综合| 青青热久久综合网伊人| 97se亚洲国产综合自在线| 日本丶国产丶欧美色综合| 国产91色综合久久免费| 天天做天天爱天天爽天天综合| 久久综合久久综合久久| 五月天激激婷婷大综合丁香| 狠狠色丁香久久婷婷综合_中| 亚洲狠狠成人综合网| 国产综合第一页| 久久婷婷五月综合97色| 色噜噜狠狠色综合网| 91久久婷婷国产综合精品青草| 一本一道久久综合狠狠老|