博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
AI推理和高级优化训练营
阅读量:3587 次
发布时间:2019-05-20

本文共 3880 字,大约阅读时间需要 12 分钟。

谈到AI,几乎每个人都有一些奇思妙想,但想法与产品有很大的距离,对于边缘端的AI应用,目前的一个主要问题是推理过程用时较久,延时较大,用户体验不够理想。导致这个问题的关键原因是边缘设备的算力不足或者优化不够。

本训练营直面影响AI产品落地的关键问题,深度剖析深度主流卷积网络的内部结构和常用推理引擎的工作过程,现场操练各种软硬件加速方案的实际效果,分析影响推理速度的关键因素,分享优化AI应用的最佳实践。

 

时间2019111- 12日(周五-周六)

地点:上海

形式:实战演练、讲解和讨论点评

时间长度:2天一晚(周五晚上挑灯夜战)

培训对象:

主办单位:格蠹科技(上海)有限公司(xedge.ai),A+实验室(https://www.aicademy.org/

 

 --基础篇 --

 

第一部分:卷积神经网络(CNN)剖析 1.5小时)主讲者:段勇

要点:神经网络与MLP,计算机视觉与深度学习,卷积神经网络分层结构(i.卷积层 ii. 激活层 iii.池化层 iv. BN v. Dropout vi. 全连接层),常用的CNN网络介绍(i. MobileNetii.    GoogLeNet iii. ResNet iv. MobileNet-SSDv. YOLO

640?wx_fmt=gif

第二部:边缘端AI推理硬件探微(2小时)主讲者:张银奎

要点:AI推理的计算特征,GEMMSGEMM,谷歌TPU的结构和对其它NPU的影响,NPU的核心调整:高并行度和大数据量,英特尔第二代VPUMyriad 2)解析(内部结构,可编程的DSP加速器(SHAVES),CV加速器,外部接口),基于Myriad 2的产品(USB加速棒和PCIe加速卡,Google Clips),Myriad X VPU解析(NCECV加速器2.0),MA2085MA2485,基于ARM的边缘推理平台,RK3399Hi3559AV00IVENNIE),HiKey970

640?wx_fmt=png

-- 加速篇 --

第三部分:OpenCV DNN推理引擎(1.5小时)主讲者:张银奎

要点:DNN基础(基本用法,关键的结构体类,MatNetUMat),读取Caffe模型,读取Tensorflow的模型,DNN架构,DNN后端详解,ocl4dnnHALIDE,使用向量化指令加速,DNN的代码结构,裁剪和定制DNN,提高DNN效率的方法和思路

 

第四部分:Intel Movidius加速棒(1.5小时)主讲者:段勇

要点:Movidius加速棒概述,NCSDK安装,CaffeTensorFlow模型转换,NCSDK API讲解,案例讲解:i.GoogLeNet ii.MobileNet-SSD

 

第五部分:Intel OpenVINO推理引擎(1.5小时)主讲者:段勇

要点:Movidius加速棒概述,NCSDK基础(目录结构,核心文件,快速上手的方法),CaffeTensorFlow模型转换,NCSDK API讲解,案例讲解:i. GoogLeNet ii. MobileNet-SSD

 

第六部分:安卓NNAPI1.5小时) 主讲者:王科平

要点:安卓平台AI推理概述(硬件结构、软件框架、AI Benchmark),NNAPI架构,NNAPI运行时,厂商驱动,NNAPI算子,支持NNAPI的硬件设备,准备NNAPI编程环境,NNAPI编程示例(人脸识别、目标识别/分类)

 

第七部分:使用AVX指令加速(1.5小时) 主讲者:张银奎

要点:SIMD基础,X86平台上的SIMD技术发展历程:MMXSSEAVX,现代汇编语言编程,在VS中编译汇编语言程序(.S文件),AVX2的寄存器,标量浮点指令,组合浮点指令,组合整数指令,组合和解组,IA CPU的微架构,执行流水线,使用AVX指令优化DNN 

640?wx_fmt=jpeg

第八部分:使用NEON指令加速(1.5小时) 主讲者:王科平

要点:ARM平台背景,ARM上的SIMD技术发展历程,NEON基础,利用NEON优化并行计算,ARM平台AI推理优化思考,Intel汇编与AT&T汇编,ARM内联汇编编程,使用intrinsic编程,ARM平台AI推理引擎(TEngine),解读TEngine中的NEON程序,AI推理实例解析

 

 -- 工具篇 --

 

第九部分:使用Intel VTune调优AI应用 1.5小时) 主讲者:张银奎

要点:VTune概要,VTune 2019,创建本地项目和远程项目,选择分析类型,采样和,配置符号路径和重新分析,热点分析(用户空间采样和基于硬件事件的采样),微架构分析(内存带宽分析,内存访问分析),并行分析,VTune的常用分析视图,定制VTune的分析视图,定制VTune的分析方案,在VTune中观察线程的Preempt事件,CNN推理案例解析,使用VTune调优OpenCL代码

 

第十部分:使用DS-5调优AI应用 1小时) 主讲者:王科平

要点:DS-5基础,DS-5的核心组件,DS-5编译工具,DS-5调试器,DS-5 IDE介绍,Streamline性能分析工具,收集数据的方法,安装Gatord,手动构建和安装Gatord,自定义标注,OpenCL Kernel跟踪,热点分析,调用链分析,矩阵乘法案例分析 

640?wx_fmt=png

  

 

 

附录1:讲师介绍

640?wx_fmt=png

张银奎(Raymond Zhang),1996年毕业于上海交通大学信息与控制工程系,在软件产业工作20余年,一多半时间任职于INTEL公司的上海研发中心,先后在PASDDEGCPGPCCGVPG等部门工作。业余时间喜欢写作和参与各类技术会议,发文数百万字,探讨各类软件问题,其中《在调试器里看阿里的软件兵团》等文章广为流传。2015年起获微软全球最有价值技术专家(MVP)奖励。著有《软件调试》和《格蠹汇编》二书,曾经主笔《程序员》杂志调试之剑专栏。在多家跨国公司历任开发工程师、软件架构师、开发经理、项目经理等职务,对IA-32 架构、操作系统内核、驱动程序、虚拟化技术、云计算、软件调优、尤其是软件调试有较深入研究。从2005年开始公开讲授“Windows内核及高级调试”课程,曾在微软的Webcast和各种技术会议上做过《Windows Vista内核演进》、《调试之剑》(全球软件战役研究峰会)、《感受和思考调试器的威力》(CSDN SD2.0大会)、《Windows启动过程》、《如何诊断和调试蓝屏错误》、《Windows体系结构——从操作系统的角度》(以上三个讲座都是微软“深入研究Windows内部原理系列”的一部分)等。翻译(合译)作品有《现代x86汇编语言编程》、《21世纪机器人》、《观止——微软创建NT和未来的夺命狂奔》、《数据挖掘原理》、《机器学习》、《人工智能:复杂问题求解的结构和策略》等。

 

640?wx_fmt=png

段勇,大数据和机器学习专家

2001年毕业于上海交通大学,拥有16年大数据从业经验,是国内最早一批大数据行业应用的开拓者。精通大数据,商业智能(BI),数据挖掘,机器学习,深度学习等技术。2003-2010年,历任国内数据挖掘先驱企业华院数据的数据挖掘资深经理,研发总监,董事等职务,在商业智能、数据挖掘、精准营销、信用评分等领域有超过50个项目的实施经验。2011-2015年,杭州数云信息技术有限公司联合创始人兼CTO,带领团队研发了国内电商领域领先的CRMBI软件,先后获得“最佳电商CRM服务商”,“金牌淘拍档”等称号,并成功获得了红杉资本A轮和阿里巴巴C轮投资。2016-2017年担任WiFi万能钥匙大数据专家一职。2017年创立在线AI学习平台A+实验室(www.shiyan.ai )。目前担任格蠹信息科技(上海)有限公司产品经理。

640?wx_fmt=png

王科平,1998年毕业于复旦大学计算机科学系,曾在英特尔亚太研发中心工作7年,担任软件工程师、产品经理等职务,长期与国内、国际知名OEM ODM厂商合作,与厂商合作领导PC产品的定义与研发。加入英特尔公司前,曾担任宏碁软件研发经理,领导研发包括宏基服务器性能监视软件在内的多款产品。离开英特尔后,担任赛猊腾龙信息技术有限公司(数据防泄露术提供商)研发总监、首席技官,以及融拓信安公司首席技术官。目前担任格蠹信息科技(上海)有限公司首席技术官。10余年LINUX系统开发经验,精通LINUX内核,熟悉AI架构和计算机系统底层硬件,对GPUNPU和使用向量化指令优化有较深入研究。曾经参与翻译多本技术书籍,包括《现代x86汇编语言编程》和《21世纪机器人》等。

 

附录2:报名与收费

标准收费:6600元每人

包括:

§ 包含训练材料的U盘一个

§ 训练班讲义的电子版本和纸质版本

§ 训练营期间的午餐和茶点

§ 训练营第一天的晚餐

优惠条款:

1)同一单位6人同时报名,可免其中一人费用

2)20181231日前报名可以享受8折优惠

 

报名或垂询

课程顾问:Lisa,微信:13801874134 邮件:lisa.long@xedge.ai

 

公司付款信息:

账户名称: 格蠹信息科技(上海)有限公司

开户行:招商银行股份有限公司上海浦江镇支行                     

账号:1219 3085 8010 501

***********************************************************

正心诚意,格物致知,以人文情怀审视软件,以软件技术改变人生。

欢迎关注格友公众号

640?wx_fmt=jpeg

转载地址:http://nrpwn.baihongyu.com/

你可能感兴趣的文章
为什么要限制栈的大小?
查看>>
windows10中Python3.7.4安装pygame模块
查看>>
dubbo监控中心搭建
查看>>
windows设置nginx开机自启
查看>>
windowsServer设置tomcat自启
查看>>
centos7安装docker
查看>>
centos7搭建svn
查看>>
TortoiseSVN无法查看日志
查看>>
centos7设置svn开机自启
查看>>
nginx负载均衡配置
查看>>
idea将普通java代码打成jar包
查看>>
java快速读取大数据量的Excel文件,格式为.xlsx
查看>>
将普通maven工程中某一接口改造成dubbo服务
查看>>
k8s集群中其他节点也可以执行kubectl命令
查看>>
使用docker制作tomcat镜像
查看>>
shell脚本读取文件内容,并写出新文件
查看>>
在docker宿主机上运行docker中container中的执行的命令
查看>>
nginx和tomcat的ssl认证使用https协议访问
查看>>
docker使用tomcat部署应用
查看>>
linux服务器之间复制文件
查看>>