机器学习算法入门介绍

Name: 机器学习算法入门介绍
Start: 2019-11-05T09:00:00+08:00
End: 2019-11-06T17:00:00+08:00
Location: 理论物理研究所新楼

5-6 November 2019

理论物理研究所新楼

Asia/Shanghai timezone

Contact

课程准备：

（参考Wes McKinney, Python for Data Analysis,附录及相关章节）

1、Python基础知识: 简单数据结构及操作.

2、NumPy数组的基本操作.

3、安装Anaconda环境（链接中寻找系统对应的版本），学习使用Jupyter. （练习：启动Anaconda，运行Jupyter notebook, 然后打开.ipynb格式的文件.）

主讲人介绍：

黄刚，美因茨大学统计物理专业博士，目前为中科院理论物理研究所金瑜亮研究组访问学者，研究方向包括：Ab initio分子动力学模拟，界面和频率振动光谱计算等。

课程内容介绍：

0、准备课程：Python简介和Anaconda的基本配置（11月4日下午4：00--5：30，三楼咖啡厅）

1、机器学习基本概念、k近邻算法介绍： (11月5日上午9：00--12：00)

(1) 数据集，训练，测试，样本，特征，标签等；机器学习的类别及具体实例：监督学习，非监督，强化学习；机器学习处理的两类问题：分类，回归.

(2) k近邻算法的含义和基本思想：距离函数，投票函数，kNN分类，kNN回归.

(3) 练习：词频统计，简单的k近邻分类.

2、线性模型及应用 (11月5日下午 14：00--17：00)

基本概念：Cost function:

(1) 梯度下降法(Gradient Descent):目的(求得cost function的最小值)，方法（不断迭代地轻微调整参数值）

(2) 正则化(Regularized linear models):目的(避免过拟合)，方法(在损失函数中加入正则项，保证在最小化损失函数时，使得模型的权重值也尽量小). 具体的实现方式：岭回归，Lasso回归，Elastic Net回归.

(3) 练习：分析正则化线性模型的结果，评估机器学习模型的质量.

3、决策树算法 (11月6日上午 9：00--12：00)

(1) 基本概念：特征空间，决策树的划分，信息熵，信息增益, Gini指数

(2) 随机森林算法的原理.

(3) 练习：计算信息熵，Gini指数等.

4、其他机器学习算法简介 (11月6日下午 14：00--17：00)

(1) k均值聚类，神经网络，SVM.

(2) 模型评估，格点搜索等.

(3) 练习：感知机分类器.

附录：Anaconda管理库的基本使用方法

我们在练习中会使用到Anaconda中已经安装如下模块：numpy, pandas, mglearn，scikit-learn。初次安装的学员可参考以下流程：

（1）查看Anaconda中已经安装的模块

pip list

或

conda list

（2）添加适当的channels. 如：打开Anaconda prompt, 在命令行输入:

shell
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/

conda config --set show_channel_urls yes

（3）安装模块的方法（详情参考链接）：

打开Anaconda prompt终端, 在命令行输入:（以mglearn为例）

shell
pip3 install mglearn
或者指定具体的源，如：

shell
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple mglearn

(4). 打开Jupyter Notebook的方法：

A. 在终端命令行打开：

shell
jupyter notebook

B. 在anaconda环境里找到Jupyter,点击进入.

注意：1. 本次课程主要包括几个简单的机器学习入门算法, 分为原理和与操作，大家可以带上电脑，便于练习；2. Anaconda环境的安装比较简单，我们这里搜集的习题都用Python实现. 建议大家先安装好Anaconda环境，以便可以实时运行示例和练习中的代码.

Starts 5 Nov 2019, 09:00

Ends 6 Nov 2019, 17:00

Asia/Shanghai

理论物理研究所新楼

6520会议室

中关村大街55号

Gang Huang

mmqrcode1572855762289.png

Day 0: Python库基础

2-NumPy基础.ipynb

2--Numpy基础_itp.md

Pandas基础.ipynb

Pandas基础-itp.md

数据加载和存储-itp.md

Day 1: kNN

1b--kNN算法--分类-回归.ipynb

2_1线性模型_all.ipynb

2_2线性模型_分析_all.ipynb

kNN_classification_习题.ipynb

Day2: Cost function, Linear model

1105_1_机器学习算法简介_2nd.pdf

2_1线性模型_all.ipynb

2_2线性模型_分析_all.ipynb

4_机器学习其他算法.ipynb

perceptron_clf.py

机器学习算法入门介绍

Contact

Your browser is out of date!