请选择 进入手机版 | 继续访问电脑版
搜索
房产
装修
汽车
婚嫁
健康
理财
旅游
美食
跳蚤
二手房
租房
招聘
二手车
教育
茶座
我要买房
买东西
装修家居
交友
职场
生活
网购
亲子
情感
龙城车友
找美食
谈婚论嫁
美女
兴趣
八卦
宠物
手机

肥妃不好惹 产品经理也能动手实践的AI(五)- IMDB电影评论NLP,协同过滤 赖上嚣张冷殿下 辅佐刘备

[复制链接]
查看: 807|回复: 0

192

主题

432

帖子

813

积分

等待验证会员

积分
813
发表于 2019-4-13 16:45 | 显示全部楼层 |阅读模式
上一节讲了多标签识别,图像朋分和data block,这之前讲的都是图像识此外方式,明天一节课把剩下的3种焦点范畴都讲了:自然说话处置,表格数据处置,协同过滤,而且把神经收集层与层之间的微观活动也都具体的描写了一遍,可谓是干货满满。

产物司理也能脱手理论的AI(五)- IMDB电影批评NLP,协同过滤

产品经理也能动手实践的AI(五)- IMDB电影评论NLP,协同过滤  科技资讯 164512aammmh86vfrapm8x


1.概览

  • 首先是自然说话处置 NLP(Natural Language Processing ),首要讲授经过迁移进修来实现IMDB批评的正负面情感分辨;
  • 然后是按照小我信息的数据,猜测哪些人可以获得高薪;
  • 最初是协同过滤,在用户喜好了一些电影以后,可以猜测某个他没看过的电影能否会喜好。
2.1焦点流程
NLP - IMDB情感分析大要需要3步,建立宏观的说话模子,操纵的是Wikipedia的数据练习的模子;然后是按照IMDB的数据练习定向的电影行业说话模子;最初是用练习好的说话模子,练习一个正负面情感的分类器。

产物司理也能脱手理论的AI(五)- IMDB电影批评NLP,协同过滤

产品经理也能动手实践的AI(五)- IMDB电影评论NLP,协同过滤  科技资讯 164512exeeaee94ekeij84


表格数据处置-薪资猜测:主如果把种别变量转化成持续变量,比如职业、婚姻情况等……会转化成0,1,2这样的数字;然后经过processor停止预处置,然后便可以练习了。
协同过滤-保举喜好的电影:流程都一样,只不外利用特别范例的CollabDataBunch,以及特别的collab_learner。
2.2焦点机械进修概念

  • 参数 weights/parameters:用于计较的参数/权重矩阵
  • 激活 activations:计较后的成果,包括矩阵运算后的成果和激活函数运算后的成果
  • 激活函数 activation functions:通常为ReLU函数,只改变内容不改变size

产物司理也能脱手理论的AI(五)- IMDB电影批评NLP,协同过滤

产品经理也能动手实践的AI(五)- IMDB电影评论NLP,协同过滤  科技资讯 164512iflecsibma2ymynf


3.1道咛宸治觯∟LP)
建立宏观的说话模子,操纵的是Wikipedia的数据练习的模子(Wikitext 103);

  • "I'd like to eat a hot ___":
  • Obviously, "dog", right?
  • "It was a hot ___":
  • Probably "day"
  • 不需要label,由于每个next word都是一个label,这类方式叫自监视进修;
然后是按照IMDB的数据练习定向的电影行业说话模子;

  • 预备数据:read from csv
  • token化:把一句话拆成一个个词,不常用的词会用xxunk,xxpad之类的同一取代,成为vocab辞汇表
  • 数字化:把一个个词,转化成一个个数字,像这样array([ 43, 44, 40, 34, 171, 62, 6, 352, 3, 47])
  • 建立databunch
  • 建立learner:会用到dropout和regularization参数,以后会讲
  • 练习:获得的模子叫encoder
  • 调剂
最初是用练习好的说话模子,练习一个正负面情感的分类器;

  • text_classifier_learner
  • learn.load_encoder
  • freeze_to:解冻后几层,而不是全数解冻,这样可以练习处更高的正确率
3.2道咛宸治觯╰abular & collab)
流程上没什么新工具,就不展开来说了
3.3道理具体分析(神经收集练习进程)
全部进程以下图,先输入一个[10,20,30]的vector,然后和一个3*N的矩阵相乘,获得一个成果,再把成果用激活函数处置成更剧本特征量的成果,在停止矩阵乘积,直到最初的输出。
输出成果一般会利用sigmoid函数将其转化成0,1区间内的额值,然后再和考证组的数据停止比对,求loss,然落后行SGD,最初获得了一个93%正确度的拟合出的函数。

产物司理也能脱手理论的AI(五)- IMDB电影批评NLP,协同过滤

产品经理也能动手实践的AI(五)- IMDB电影评论NLP,协同过滤  科技资讯 164512s96f6qax0777fri4


Jeremy还用excel演示了一下这个进程,真的是对大神佩服的心悦诚服,用excel练习神经收集,对就是这样。
首先这里是用于练习的数据,14号用户对27号电影的评价是3颗星,满分5颗星。

产物司理也能脱手理论的AI(五)- IMDB电影批评NLP,协同过滤

产品经理也能动手实践的AI(五)- IMDB电影评论NLP,协同过滤  科技资讯 164513zzcmktm6taf0ezko


然后随机天生了2组矩阵,别离给用户和电影,相当于weights

产物司理也能脱手理论的AI(五)- IMDB电影批评NLP,协同过滤

产品经理也能动手实践的AI(五)- IMDB电影评论NLP,协同过滤  科技资讯 164513whhzx9qhgoyoqhgw


尝试的方针是要猜测空缺处的值,比如293号用户对49号电影的评价是几颗星?

产物司理也能脱手理论的AI(五)- IMDB电影批评NLP,协同过滤

产品经理也能动手实践的AI(五)- IMDB电影评论NLP,协同过滤  科技资讯 164514lzibig4i4h4zib04


下面起头初始运算,应用点积运算,将每个空格填上,实在就是2个矩阵的矩阵乘积的成果

产物司理也能脱手理论的AI(五)- IMDB电影批评NLP,协同过滤

产品经理也能动手实践的AI(五)- IMDB电影评论NLP,协同过滤  科技资讯 164514encytyu55qazk5dk


这时辰便可以看第一次运算的成果和现实成果的误差,计较出的loss是2.81,接下来去调剂weights然后下降loss,即SGD的进程,便可以获得一个好的模子了。

产物司理也能脱手理论的AI(五)- IMDB电影批评NLP,协同过滤

产品经理也能动手实践的AI(五)- IMDB电影评论NLP,协同过滤  科技资讯 164514k6nwlvylxdyjvajz


4.最初
这一期能够需要多看两遍,归正我是2-3遍以后才能根基吃透里面的概念,由于一路头真的没那末好懂。
感谢您的阅读
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2006-2014 快猫网-人工智能和智能硬件领域的互联网科技媒体 版权所有 法律顾问:高律师 客服电话:0791-88289918
技术支持:迪恩网络科技公司  Powered by Discuz! X3.2
快速回复 返回顶部 返回列表