課程簡介
課程講授人是從事深度學習項目管理的人員,帶隊完成了數(shù)十個AI項目,內(nèi)容不僅包括深度學習、機器學習、數(shù)據(jù)挖掘等具體技術要點,也包括AI的整體發(fā)展、現(xiàn)狀、應用、商業(yè)價值、未來方向等,涵蓋內(nèi)容非常豐富。
目標收益
1,整體把握機器學習、深度學習、數(shù)據(jù)挖掘的發(fā)展方向
2,了解機器學習、深度學習的技術框架
3,理解機器學習和深度學習的思維方式和關鍵技術
4,獨立完成深度學習和機器學習在簡單實際場景的落地應用
培訓對象
課程內(nèi)容
第一篇:機器學習與深度學習
第一節(jié):Python數(shù)據(jù)分析
Numpy/Scipy/Pandas/Matplotlib/Seaborn庫
Numpy基礎屬性與數(shù)組創(chuàng)建
Numpy索引
Numpy數(shù)學運算與常用分布
Pandas數(shù)據(jù)處理與分析
Pandas文件讀寫和個性化控制
Pandas的concat與merge
Matplotlib 基本圖結構介紹
基于Matplotlib繪制散點圖、柱狀圖、等高線圖、3D圖等
多圖合并與圖片文件存取
Seaborn/PyEcharts等包的使用
scikit-learn的介紹和典型使用
邏輯回歸、決策樹、隨機森林、SVM
XGBoost、LightGBM
多元高斯分布
典型圖像處理
多種數(shù)學曲線
多項式擬合
代碼和案例實踐:
快速傅里葉變換FFT與信號處理
Soble/Prewitt/Laplacian算子與卷積網(wǎng)絡
卷積與(指數(shù))移動平均線
股票數(shù)據(jù)分析
缺失數(shù)據(jù)的處理和預測
環(huán)境數(shù)據(jù)異常檢測和分析
快速傅里葉變換FFT
圖像處理與奇異值分解SVD
第二節(jié):機器學習核心原理和損失函數(shù):回歸分析
線性回歸
Logistic/Softmax回歸
廣義線性回歸
L1/L2正則化
Ridge與LASSO
Elastic Net
梯度下降算法:BGD與SGD
特征選擇與過擬合
Softmax回歸的概念源頭
最大熵模型
K-L散度
代碼和案例實踐:
股票數(shù)據(jù)的特征提取和應用
泰坦尼克號乘客缺失數(shù)據(jù)處理和存活率預測
環(huán)境檢測數(shù)據(jù)異常分析和預測
模糊數(shù)據(jù)查詢和數(shù)據(jù)校正方法
PCA與鳶尾花數(shù)據(jù)分類
二手車數(shù)據(jù)特征選擇與算法模型比較
廣告投入與銷售額回歸分析
鳶尾花數(shù)據(jù)集的分類
TensorFlow實現(xiàn)線性回歸
TensorFlow實現(xiàn)Logistic回歸
第三節(jié):決策樹和隨機森林
熵、聯(lián)合熵、條件熵、KL散度、互信息
最大似然估計與最大熵模型
ID3、C4.5、CART詳解
決策樹的正則化
預剪枝和后剪枝
Bagging
隨機森林
不平衡數(shù)據(jù)集的處理
利用隨機森林做特征選擇
使用隨機森林計算樣本相似度
異常值檢測
代碼和案例實踐:
隨機森林與特征選擇
決策樹應用于回歸
多標記的決策樹回歸
決策樹和隨機森林的可視化
葡萄酒數(shù)據(jù)集的決策樹/隨機森林分類
泰坦尼克乘客存活率估計
第四節(jié):聚類分析
各種相似度度量及其相互關系
Jaccard相似度和準確率、召回率
Pearson相關系數(shù)與余弦相似度
K-means與K-Medoids及變種
層次聚類:自頂向下,自底向上
AP算法(Sci07)/LPA算法及其應用
密度聚類DBSCAN/DensityPeak(Sci14)
譜聚類SC
聚類評價和結果指標
代碼和案例實踐:
1.K-Means++算法原理和實現(xiàn)
2.向量量化VQ及圖像近似
3.并查集的實踐應用
4.密度聚類的異常值檢測
5.譜聚類用于圖片分割
第五節(jié):XGBoost與LightGBM模型詳解
定義樹的復雜度
boosting tree的提升思路
殘差的選擇
XGBoost損失函數(shù)的提成
Loss的精確一階導數(shù)和二階導數(shù)
近似加權分位法
稀疏自適應分割策略
XGBoost的過擬合與正則化目標函數(shù)
算法成功之處和存在的問題
boosting框架總覽
重新認識樣本的梯度
GOSS思想在LightGBM中的應用
貪心和啟發(fā)式特征搜索
EFB候選特征的選擇
Histogram算法與Pre-sorted算法對數(shù)據(jù)結構的影響
樣本采樣與權重
再談引入稀疏數(shù)據(jù)的原因
單邊采樣帶來的訓練樣本減少
代碼和案例實踐:
1.收入分類模型的提升應用
2.XGBoost庫與sklearn庫的使用
3.提升模型在用戶感知評分預測的應用
4.XGBoost用于真實信號數(shù)據(jù)中的分類建模和調(diào)參
5.鉆井工況數(shù)據(jù)在LightGBM中的實踐
6. LightGBM與XGBoost的性能比較
7.基站小區(qū)節(jié)能預測建模
8.哪些場景不適合LightGBM
第六節(jié):深度學習環(huán)境配置與卷積神經(jīng)網(wǎng)絡
GPU下的TensorFlow、PyTorch環(huán)境安裝
Pytorch框架介紹和環(huán)境搭建
Pytorch張量、卷積等基礎知識
神經(jīng)網(wǎng)絡結構,濾波器,卷積
池化,激活函數(shù),反向傳播
目標分類與識別、目標檢測與追蹤
AlexNet、VGGNet、GoogleLeNet
Inception-V3/V4
MLP多層感知機模型搭建與代碼實現(xiàn)
Pytorch分類模型ResNet、DenseNet的實現(xiàn)
Pytorch對回歸建模損失函數(shù)的修正
代碼和案例實踐:
數(shù)字圖片分類
卷積核與特征提取
以圖搜圖
人證合一
卷積神經(jīng)網(wǎng)絡調(diào)參經(jīng)驗分享
第七節(jié):Pytorch時間序列分析
隱馬爾科夫模型
HMM與CRF
ARIMA、時間序列分析
一維卷積、指數(shù)平均和滑動平均、
Prophet模型對時間序列分析的影像
MaxPooling做光滑的trick
Bi-LSTM雙向循環(huán)網(wǎng)絡
Pytorch函數(shù)式API與回調(diào)函數(shù)
代碼和案例實踐:
時間序列算法:自回歸、移動平均和整合模型
股票走勢可視化
突變點分析
股票預測模型建立
模型訓練
預測與評估
第八節(jié):深度學習文本建模
語言模型Bi-Gram/Tri-Gram/N-Gram
分詞算法的原理及類似應用
詞性標注
語義關系抽取
詞向量
文本分類:基于CNN和基于LSTM的方法比較
機器翻譯:Seq2Seq的典型應用
Transformer、BERT等模型原理
文本摘要與信息抽取
閱讀理解
問答系統(tǒng)
情感分析
代碼和案例實踐:
知識圖譜:命名實體識別的實踐
知識圖譜:實體關系的判定與分類
HMM分詞及CRF的異同
文本摘要的生成
智能對話系統(tǒng)和SeqSeq模型
閱讀理解的實現(xiàn)與Attention
機器翻譯
使用LSTM生成文本
第九節(jié):生成對抗網(wǎng)絡GAN和擴散模型DM
GAN-VAE-流模型-擴散模型的技術發(fā)展和變化
CLIP和擴散模型的結合:基于CLIP模型的多模態(tài)引導圖像生成:圖文引導
GLIDE:文本引導
Diffusion-CLIP模型
擴散和去噪(Diffusion&Denoise)
訓練和采樣(Training&Sampling)
離散步驟的馬爾可夫鏈
分子熱動力學的擴散過程
離散加噪
DDPM-最經(jīng)典的擴散模型
DDIM:加速采樣、可控擴散
IVLR:迭代去燥的圖像編輯,低通濾波上采樣
RePaint: 被掩碼的區(qū)域進行擴散生成
CLIP和擴散模型的結合:基于CLIP模型的多模態(tài)引導圖像生成:圖文引導
GLIDE:文本引導
DALL·E 2:diffusion model和CLIP結合在一起
隱式分類器引導的圖像生成
Blended Diffusioni模型
Diffusion-CLIP模型
DiffEdit模型
分別實現(xiàn)圖像引導、文字引導、圖文引導下的圖片生成
Diffusion LM
AIGC的可能應用領域和行業(yè)影響
代碼和案例實踐:
低質(zhì)量噪聲圖像修復
精確復原原圖
圖像去除遮擋、圖像補全
圖像生成(人物恢復青春、人物變瘦)
圖像引導、文本引導、圖像+文本引導
第二篇 實際項目實戰(zhàn)(可增補其他感興趣的項目)
第一節(jié):用戶滿意度多分類預測
使用運營商用戶網(wǎng)絡感知評分真實數(shù)據(jù),結合O域信令數(shù)據(jù)及B域用戶數(shù)據(jù),采樣時間為近半年網(wǎng)絡評分用戶數(shù)據(jù)。 參賽選手需要根據(jù)訓練數(shù)據(jù)集(train.csv)訓練模型,并預測測試集中用戶的網(wǎng)絡感知打分(test.csv)。
涉及知識點和代碼框架中注意問題:
1、字符串數(shù)值化
2、空值處理
3、異常值處理
4、特征分箱
5、One-hot編碼
4、選擇回歸與分類模型
5、提高模型MAE/F1-score的通用方法
第二節(jié):基站節(jié)能策略合理性預測
基于無線基站節(jié)能場景,提供5天不同場景下若干小區(qū)節(jié)能策略數(shù)據(jù)共1萬余行,并給出了相應的評判標簽:節(jié)能策略合理或不合理,從而訓練出合適的數(shù)據(jù)推理模型來預測小區(qū)節(jié)能策略的合理性。
涉及知識點和代碼框架中注意問題:
1、多列關鍵字的數(shù)據(jù)分組
2、寬表的生成、多表合并
3、機器學習數(shù)據(jù)標準表的整理:A+C/A+C模式
4、機器學習模型選擇
5、機器學習模型調(diào)參
第三節(jié):多元網(wǎng)絡業(yè)務趨勢預測
基于某網(wǎng)絡業(yè)務場景,針對若干個業(yè)務ID,提供多個指標小時粒度的歷史數(shù)據(jù),對其中某一指標進行趨勢預測,得到未來24小時的小時粒度數(shù)據(jù)。
涉及知識點和代碼框架中注意問題:
1、單列關鍵字的數(shù)據(jù)分組與表格化輸出
2、特征篩選
3、同比-環(huán)比問題
4、經(jīng)典時間序列模型的建模和調(diào)參
5、深度學習模型的TSA嘗試
6、時間序列建模自回歸方案
第四節(jié):通用文本情感二分類預測
本賽題進行通用文本的情感分類,選取了外賣、酒店、旅游、美食評論、電影評論等多個生活中常用的領域第三方APP下的評論數(shù)據(jù)作為本次賽題的數(shù)據(jù)集。本次賽題的輸入是一段文字,輸出是“積極”和“消極”兩種情感類型的標簽,其中“積極”用1表示,“消極”用0表示。
1、不同文本格式的讀寫
2、文本合并
3、數(shù)據(jù)增強
4、詞向量、字向量
5、機器學習模型下的文本分類
6、深度學習模型搭建
7、GPU的TensorFlow、pyTorch部署與使用
8、深度模型的訓練和調(diào)參