大數據挖掘技術培訓
大數據挖掘技術培訓課程/講師盡在大數據挖掘技術培訓專題,百度搜索“交廣國際管理咨詢”大數據挖掘技術培訓公開課(免費試聽)北上廣深等地開課!專家微信18749492090,講師手機13810048130。
【課程大綱】
第一部分:Python語言基礎
1、 Python簡介
2、 開發環境搭建
? Python的安裝
? 擴展庫的安裝
3、 掌握Python的簡單數據類型
? 字符串的使用及操作
? 整數、浮點數
4、 掌握基本語句:
? if、while、for、print等
? 基本運算:
? 函數定義、參數傳遞、返回值
5、 掌握復雜的數據類型:列表/元組
? 列表操作:訪問、添加、修改、刪除、排序
? 列表切片、復制等
? 列表相關的函數、方法
? 元組的應用
6、 復雜數據類型:字典
? 創建、訪問、修改、刪除、遍歷
? 字典函數和方法
7、 復雜數據類型:集合
8、 掌握面向對象編程思想
? 創建類、繼承類
? 模塊
9、 函數定義、參數傳遞、返回值
10、 標準庫與擴展庫的導入
11、 異常處理:try-except塊
12、 文件操作:讀取、寫入
? 讀取文本文件
? 讀取CSV文件
? 讀取Excel文件
13、 重點介紹Pandas的數據結構
? DataFrame對象及處理方法
? Series對象及處理方法
案例:演練基本的Python編程語句
第二部分:數據可視化處理
1、 常用的Python作圖庫
? Matplotlib庫
? Pygal庫
2、 實現分類匯總
案例:按性別統計用戶人數
案例:按產品+日期統計各產品銷售金額
3、 各種圖形的畫法
? 直方圖
? 餅圖
? 折線圖
? 散點圖
4、 繪圖的美化技巧
案例:用Python庫作圖來實現產品銷量分析
第三部分:數據挖掘基礎
1、 數據挖掘概述
2、 數據挖掘的標準流程(CRISP-DM)
? 商業理解
? 數據準備
? 數據理解
? 模型建立
? 模型評估
? 模型應用
3、 數據挖掘常用任務與算法
第四部分:數據理解和數據準備
1、 數據挖掘常用擴展庫介紹
? Numpy數組處理支持
? Scipy矩陣計算模塊
? Matplotlib數據可視化工具庫
? Pandas數據分析和探索工具
? StatsModels統計建模庫
? Scikit-Learn機器學習庫
? Keras深度學習(神經網絡)庫
? Gensim文本挖掘庫
2、 文件操作處理
? 讀取文本文件
? 讀取Excel文件
? 讀取數據庫數據
3、 數據預處理
? 異常值處理:3σ準則,IQR準則
? 缺失值插補:均值、拉格朗日插補
? 數據篩選/抽樣
? 數據的離散化處理
? 變量變換、變量派生
4、 數據的基本分析
? 相關分析:原理、公式、應用
? 方差分析:原理、公式、應用
? 卡方分析::原理、公式、應用
? 主成分分析:降維
第五部分:分類預測模型實戰
1、 常見分類預測的模型與算法
2、 如何評估分類預測模型的質量
? 查準率
? 查全率
? ROC曲線
3、 邏輯回歸分析模型
? 邏輯回歸的原理
? 邏輯回歸建模的步驟
? 邏輯回歸結果解讀
案例:用sklearn庫實現銀行貸款違約預測
4、 決策樹模型
? 決策樹分類的原理
? 決策樹的三個關鍵問題
? 決策樹算法與實現
案例:電力竊漏用戶自動識別
5、 人工神經網絡模型(ANN)
? 神經網絡概述
? 神經元工作原理
? 常見神經網絡算法(BP、LM、RBF、FNN等)
案例:神經網絡預測產品銷量
6、 支持向量機(SVM)
? SVM基本原理
? 維災難與核心函數
案例:基于水質圖像的水質評價
7、 貝葉斯分析
? 條件概率
? 常見貝葉斯網絡
第六部分:數值預測模型實戰
1、 常用數值預測的模型
? 通用預測模型:回歸模型
? 季節性預測模型:相加、相乘模型
? 新產品預測模型:珀爾曲線與龔鉑茲曲線
2、 回歸分析概念
3、 常見回歸分析類別
第七部分:聚類分析(客戶細分)實戰
1、 客戶細分常用方法
2、 聚類分析(Clustering)
? 聚類方法原理介紹及適用場景
? 常用聚類分析算法
? 聚類算法的評價
案例:使用SKLearn實現K均值聚類
案例:使用TSNE實現聚類可視化
3、 RFM模型分析
? RFM模型,更深入了解你的客戶價值
? RFM模型與市場策略
案例:航空公司客戶價值分析
第八部分:關聯規則分析實戰
1、 關聯規則概述
2、 常用關聯規則算法
3、 時間序列分析
案例:使用apriori庫實現關聯分析
案例:中醫證型關聯規則挖掘
第九部分:案例實戰(學員主導,老師現場指導)
1、 電商用戶行為分析及服務推薦
2、 基于基站定位數據的商圈分析
共有 0 條評論