4008-889335
数据分析
【秋招】腾讯_数据分析岗_面试题整理
发布时间:2020-01-01    信息来源:未知    浏览次数:

  1)把这个问题看成多维尺度分析问题(MDS),那么实际上就是已知点之间的距离,构造一个空间Z,使得这个空间内点之间的距离尽可能保持接近。点在新空间Z中的向量化就是点的表示,然后点到点的距离就可以。

  2)其它:已知节点间距离,将节点embedding。这里我不太懂,希望大家有思路的可以指点下,谢啦

  3)上诉两个答案也可能是我没看懂题意,因为该题的上下文是做复杂网络相关的研究。那么可能是知道任意两个相邻节点的相似度,求非相邻节点的相似度。这里可以参考simRank算法,即两个点的邻域越相似(有很多相似邻居),那么两个点越相似。有点像pageRank,是一个迭代的定义。

  6. 给一堆学生的成绩,将相同学生的所有成绩求平均值并排序,让我用我熟悉的语言,我就用了python的字典+sorted,面试官说不准用sort,然后问会别的排序,我就说了冒泡排序,原理我说了,然后问我还知道其他排序,答堆排序(其实我之前这方面复习了很多),之后问我有没有实现过(这个问题简直就是我的死角,就是没实现过,所以才想找个实习练练啊)

  1)一种分类方法,找到一个分类的超平面,将正负例分离,并让分类间隔尽可能大

  c. 核函数:为了实现非线性分类,可以将样本映射到高维平面,然后用超平面分割。为了减少高维平面计算内积的操作,可以用一些“偷吃步”的方法同时进行高维映射和内积计算,就是核函数。包括多项式核函数、高斯核函数和sigmoid核函数

  为了提高存储器的访问效率,避免读一个成员数据访问多次存储器,操作系统对基本数据类型的合法地址做了限制,要求某种类型对象的地址必须是某个值K的整数倍(K=2或4或8)

  1)Windows给出的对齐要求是:任何K(K=2或4或8)字节的基本对象的地址都必须是K的整数倍

  2)Linux的对齐要求是:2字节类型的数据(如short)的起始地址必须是2的整数倍,而较大(int *,int double ,long)的数据类型的地址必须是4的整数倍

  9. 机器学习被调数据分析了,因为做推荐的,所以面试一直在聊具体场景的推荐方法,其他方面知识没有怎么问

  a. 是解决优化问题的一种方法,较适合于凸函数的优化,可以找到极值(极小值和极大值)

  b. 对于某个参数,计算损失函数对该参数的偏导,该偏导即为下降方向。然后参数沿着该方向更新一个步长(学习率)

  a. 思想:事件概率A与一个参数θ有关,我们观察到一系列事件,那么此时θ的取值应该是能使P(Aθ)最大的那个值。

  (3)因为是乘法问题,一般log化变成加法问题求解。即对要求的参数θ求偏导,令其为0

  1)过滤:计算特征与标签之间的卡方、互信息、相关系数(只能识别线性关系),过滤掉取值较低的特征。或者使用树模型建模,通过树模型的importance进行选择(包括包外样本检验平均不纯度、特征使用次数等方法)

  1)首先介绍Adaboost Tree,是一种boosting的树集成方法。基本思路是依次训练多棵树,每棵树训练时对分错的样本进行加权。树模型中对样本的加权实际是对样本采样几率的加权,在进行有放回抽样时,分错的样本更有可能被抽到

  2)GBDT是Adaboost Tree的改进,每棵树都是CART(分类回归树),树在叶节点输出的是一个数值,分类误差就是真实值减去叶节点的输出值,得到残差。GBDT要做的就是使用梯度下降的方法减少分类误差值

  在GBDT的迭代中,假设我们前一轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x)), 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x),让本轮的损失损失L(y,ft(x)=L(y,ft−1(x)+ht(x))最小。也就是说,本轮迭代找到决策树,要让样本的损失尽量变得更小。

  GBDT的思想可以用一个通俗的例子解释,假如有个人30岁,我们首先用20岁去拟合,发现损失有10岁,这时我们用6岁去拟合剩下的损失,发现差距还有4岁,第三轮我们用3岁拟合剩下的差距,差距就只有一岁了。如果我们的迭代轮数还没有完,可以继续迭代下面,每一轮迭代,拟合的岁数误差都会减小。

  1)gbdt优化时只用到了一阶导数信息,xgb对代价函数做了二阶泰勒展开。(为什么使用二阶泰勒展开?我这里认为是使精度更高收敛速度更快,参考李宏毅的《机器学习》课程,对损失函数使用泰勒一次展开是梯度下降,而进行更多次展开能有更高的精度。但感觉还不完全正确,比如为什么不三次四次,比如引进二次导会不会带来计算开销的增加,欢迎大家讨论指正。)

  3)xgb运行完一次迭代后,会对叶子节点的权重乘上shrinkage(缩减)系数,削弱当前树的影响,让后面有更大的学习空间

  5)支持并行:决策树中对特征值进行排序以选择分割点是耗时操作,xgb训练之前就先对数据进行排序,保存为block结构,后续迭代中重复用该结构,大大减少计算量。同时各个特征增益的计算也可以开多线)寻找最佳分割点时,实现了一种近似贪心法,同时优化了对稀疏数据、缺失值的处理,提高了算法效率

  7)剪枝:GBDT遇到负损失时回停止分裂,是贪心算法。xgb会分裂到指定最大深度,然后再剪枝

  1)是一种自举聚合的方法,随机有放回地从样本内抽样构造分类器,然后多个分类器投票得到最终结果

  1)是一种将弱分类器组合起来形成强分类器的框架,串行结构,后一个分类器根据前一个分类器得到的信息进行重新训练,不断推进得到更好的模型

  a. Adaboost:对每一次分类错误的样本进行加权,让下一个分类器更关心这些分错的样本

  b. gbdt:每一个分类器都是cart树,输出的是分为正类的score。真实值减去score得到残差,下一棵树对残差进行训练。通过这种方法不断缩小对线)可以降低偏差,提高模型的表达能力,减少欠拟合

  50亿个的话是哈希查找,考虑到数量比较大会有冲突问题,那么可以用布隆过滤器。缺点还是会有误判,把不属于该集合的认为属于。

  a. 在原始图片上滑动窗口,将取值乘以卷积核进行特征映射,然后作为神经网络的数据。卷积核实际上是利用了先验的知识,“图片中距离较近的像素才能提供信息,距离较远的像素关系不大”。通过卷积核对图片中的一些特征进行抽取,如垂直、水平等

  a. 图片分类等与图片有关的问题(图像识别、图像标注、图像主题生成、物体标注、视频分类等)(利用CNN抽取图片特征的能力)

  b. 自然语言处理(实体抽取、关系抽取、问答系统、机器翻译)(将词用词向量表示,因此变成二维结构数据)

  a. RNN(Recurrent Neural Network)能够把上一个时间的信息记忆,缺点是如果相隔太远联系就很弱了

  (3) 忘记门:将细胞中的信息选择性遗忘(他今天有事,所以我。。。当处理到‘’我‘’的时候选择性的忘记前面的’他’,或者说减小这个词对后面词的作用。)

  2)剃刀原理:如果两个理论都能解释一件事情,那么较为简单的理论往往是正确的

  4)贝叶斯学派的观点,认为加入了先验分布(l1拉普拉斯分布,l2高斯分布),减少参数的选择空间

  3)两样本事件发生频数是否关联:卡方检验、秩和检验(有序多组多分类)、二项分布检验

  a. 计算next[i]:表示字符串第1至i-1个字符的子串中,前缀后缀最长重复个数

  d. 由于哈夫曼编码是前缀编码(如果没有一个编码是另一个编码的前缀,则称这样的编码为前缀编码。如0,101和100是前缀编码),因此可以唯一地还原

  21. 给出一个商业业务例子,这个例子中使用模型会比数据查询和简单的统计分析更有效果

  1)偏差:预测值与真实值差异,偏差大表示欠拟合。然后引申到计算方式和解决方法

  2)方差:预测值与均值的波动,方差大表示过拟合。然后引申到计算方式和解决方法

  a. 信息流产品的特征是内容更新快,因此如果采用协同过滤的话用基于人的协同过滤会比较合适

  b. 如果还是接受不了基于人的协同过滤的更新速度(比如说用户增长特别快),对于分类问题建立机器学习模型,输出的是用户对每个视频点击可能性的score,本质上还是一个ctr预估问题

  c. 特征包括:用户属性、视频属性、统计特征、时间特征、用户id-视频id交叉项、用户向量信息、视频向量信息(用SVD、word2vec、fm、基于图的随机游走都可以)、短期行为

  d. 注意1:降低训练成本,如先粗略计算用户对视频的响应概率,只取头部做召回。然后对召回的视频再做排序等

  e. 注意2:需要能在线学习,用户点击后能对视频进行快速重排序。因此需要支持在线学习的模型,如lr、摇臂框架等,树模型在这里可能就不适用了

  (1)用户冷启动:用户进来时根据用户属性对热门的内容进行匹配,找到用户可能最感兴趣的内容

  (2)内容冷启动:这里首先要涉及到视频信息的标注,除了上传者信息、视频标题和标签,还需要一些视频理解的算法,为视频打标签。然后计算视频之间的相似程度,找到这一类视频的高响应用户,一定概率向其投放,统计点击率情况,判断是否进一步扩大投放量。

  3)将x3=1-x1-x2带入abc,然后用x1、x2为轴绘制,可以得到有效面积为1/8

  28. 有uid,app名称,app类别,数据百亿级别,设计算法算出每个app类别只安装了一个app的uid总数。

  应该用map reduce吧,但我不会啊。准备写个sql,结果写了半天还是写不出。面试完走到楼下就想出来了,233

  29. 有一个网页访问的数据,包含uid,ip地址,url,文章资料。设计算法预测用户性别

  a. 首先以一个未被访问过的顶点作为起始顶点,沿当前顶点的边走到未访问过的顶点;

  b. 当没有未访问过的顶点时,则回到上一个顶点,继续试探别的顶点,直到所有的顶点都被访问过

  3)计算观测到的数值分分布,如果实际观察发生的是小概率事件,并且超过显著性水平,那么认为可以排除原假设H0

  3、如果微信有一个功能是用户的位置信息能够每隔1分钟上传一次数据库,那么怎么发挥它的作用?

  的一大优势时可以避免手动调节学习率,比如设置初始的缺省学习率为0.01,然后就不管它,另其在学习的过程中自己变化。

  为了避免削弱单调猛烈下降的减少学习率,Adadelta产生了1。Adadelta限制把历史梯度累积窗口限制到固定的尺寸w,而不是累加所有的梯度平方和

  1.怎么做恶意刷单检测分类问题用机器学习方法建模解决,我想到的特征有:  1)商家特征:商家历史销量、信用、产品类别、发货快递公司等  2)用户行为特征:用户信用、下单量、转化率、下单路径、浏览店铺行...

  一面群面问题很简单就是数据分析,几点注意,1是自信阳光,2每说一句话都要有力,能支持结论二面1v1专业面今天面试的,首先吐槽下滴滴两件事。第一件事,超市卖的烤肠不干净,我现在还在吐。第二件事,面试邮件...

  在数据分析行业摸爬滚打了些年成。将面试数据分析岗位前期的准备工作需要注意哪些要点,帮大家整理一下,希望对加入数据分析行业的小伙伴有帮助 ⑴不要轻易裸辞 虽然跳槽需要决心,但是也不要完全不给自己留一条后...

  (注:以下题目主要来自牛客网等论坛,解答由个人解答,可能会出现错误,并非标准答案,欢迎大家进行讨论) 1.请说明随机森林较一般决策树稳定的几点原因  1)bagging的方法,多个树投票提高泛化能力 ...

  1.做自我介绍,着重介绍跟数据分析相关的经验,还有自己为什么要做数据分析略。 2.如果次日用户留存率下降了5%该怎么分析  1)首先采用“两层模型”分析:对用户进行细分,包括新老、渠道、活动、画像等多...

  1. 如果现在有个情景,我们有一款游戏收入下降了,你怎么分析。(我说完她说不到位,然后帮我补充了很多,我也问了一点问题,这部分聊了十分钟)   1)两层模型:细分用户、渠道、产品,看到底是哪里的收入下...

  1.kmeans是啥一种em过程的聚类方法,先固定类中心将每个点划分到最近的类中,然后更新类中心,通过这种迭代的方法进行聚类。优点是速度较其它的聚类方法较快,缺点是需要预先设定类的数目,并且对初始化的...

  对比互联网各个岗位的裁员程度可以发现,数据分析相关岗位正在不断的扩招,已经成为了这波逆流中的黑马,什么原因导致的数据分析人才如此紧缺?因为数据分析是大势所趋,未来的发展空......

  1.不用任何公开参考资料,估算今年新生儿出生数量  1)采用两层模型(人群画像*人群转化):新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率  2)从数字到数字:如果有前几年新生儿出生数量数据,...

  在知乎和CSDN的圈子里,经常看到、听到一些 python 初学者说,学完基础语法后,不知道该学什么,学了也不知道怎么用,一脸的茫然。近日,CSDN的公众号推送了一篇博客,题目叫做《迷思:Python...

  nginx学习,看这一篇就够了:下载、安装。使用:正向代理、反向代理、负载均衡。常用命令和配置文件10-25阅读数 3万+

  从入门到精通,Java学习路线导航(附学习资源)09-16阅读数 3万+

  为什么你学不会递归?告别递归,谈谈我的一些经验03-15阅读数 4136

  终于明白阿里百度这样的大公司,为什么面试经常拿ThreadLocal考验求职者了09-20阅读数 4万+

  写了很久,这是一份最适合/贴切普通大众/科班/非科班的『学习路线万+说实话,对于学习路线这种文章我一般是不写的,大家看我的文章也知道,我是很少写建议别人怎么样怎么样的文章,更多的是,写自己的真实经历,然后供大家去参考,这样子,我内心也比较踏实,也不怕误导他人。 但是,...

  阅读数 5776博客说明: 这是自己写的有关python语言的一篇综合博客。 只作为知识广度和编程技巧学习,不过于追究学习深度,点到即止、会用即可。 主要是基础语句,如三大控制语句(顺序、分支、循环),随机数的...

  阅读数 2万+昨天,有网友私信我,说去阿里面试,彻底的被打击到了。问了为什么网上大量使用ThreadLocal的源码都会加上private static?他被难住了,因为他从来都没有考虑过这个问题。无独有偶,今天笔...

  阅读数 3万+面试官:了解RESTful吗? 我:听说过。 面试官:那什么是RESTful? 我:就是用起来很规范,挺好的 面试官:是RESTful挺好的,还是自我感觉挺好的 我:都挺好的。 面试官:… 把门关上。...

  阅读数 2万+关于SQL和ORM的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行了一番讨论,感触还是有一些,于是就有了今天这篇文。 声明:本文不会下关于Mybatis和JPA两个持久层框架...

  阅读数 7万+一、垃圾文字生成器介绍 最近在浏览GitHub的时候,发现了这样一个骨骼清奇的雷人项目,而且热度还特别高。 项目中文名:狗屁不通文章生成器 项目英文名:BullshitGenerator 根据作...

  阅读数 10万+IT界知名的程序员曾说:对于那些月薪三万以下,自称IT工程师的码农们,其实我们从来没有把他们归为我们IT工程师的队伍。他们虽然总是以IT工程师自居,但只是他们一厢情愿罢了。 此话一出,不知激起了多少(...

  阅读数 2万+你知道的越多,你不知道的越多 点赞再看,养成习惯GitHub上已经开源,有一线大厂面试点脑图,欢迎Star和完善 前言 这一期不算...

  阅读数 1万+你知道的越多,你不知道的越多 点赞再看,养成习惯 GitHub上已经开源 有一线大厂面试点脑图和个人联系方式,欢迎Star和指教 ...

  程序员把地府后台管理系统做出来了,还有3.0版本!12月7号最新消息:已在开发中有github地址

  阅读数 9万+第一幕:缘起 听说阎王爷要做个生死簿后台管理系统,我们派去了一个程序员…… 996程序员做的梦: 第一场:团队招募 为了应对地府管理危机,阎王打算找“人”开发一套地府后台管理系统,于是...

  阅读数 2万+目录  一、虚拟机 二、虚拟机组成 1.栈 栈帧 2.程序计数器 3.方法区 对象组成 4.本地方法栈 5.堆 GC GC案例  一、虚拟机 ​ 同样的java代码...

  阅读数 2万+作者  胡书敏 责编 刘静 出品 CSDN(ID:CSDNnews) 本人目前在一家知名外企担任架构师,而且最近八年来,在多家外企和互联网公司担任Java技术面试官...

  阅读数 2万+作者 马超 责编 胡巍巍 出品 CSDN(ID:CSDNnews) 近日,腾讯自研的万亿级分布式消息中间件TubeMQ正式开源,并捐赠给Apache基金会,成为基金会官方认...

  阅读数 2万+一、数据库简介 二、MySQL数据类型 三、Sql语句 (1)Sql语句简介 (2)数据定义语言DDL...

  记一次腾讯面试:进程之间究竟有哪些通信方式?如何通信? ---- 告别死记硬背

  阅读数 2万+有一次面试的时候,被问到进程之间有哪些通信方式,不过由于之前没深入思考且整理过,说的并不好。想必大家也都知道进程有哪些通信方式,可是我猜很多人都是靠着”背“来记忆的,所以今天的这篇文章,讲给大家详细着...

  阅读数 5万+引言 王者荣耀大家都玩过吧,没玩过的也应该听说过,作为时下最火的手机MOBA游戏,咳咳,好像跑题了。我们今天的重点是爬取王者荣耀所有英雄的所有皮肤,而且仅仅使用20行Python代码即可完成。 准备工...

  阅读数 4万+张小龙生于湖南邵东魏家桥镇, 家庭主要特点:穷。 不仅自己穷,亲戚也都很穷,可以说穷以类聚。爷爷做过铜匠,总的来说,标准的劳动阶级出身。 家有兄弟两人, 一个小龙,一个小虎。 小虎好动,与邻...

  阅读数 2万+2019年互联网寒冬,大批企业开始裁员,下图是网上流传的一张截图: 裁员不可避免,那如何才能做到不管大环境如何变化,自身不受影响呢? 我们先来看一个有意思的故事,如果西游记取经团队需要裁员一名,会裁...

  阅读数 2万+开源的 Android 和闭源的 iOS,作为用户的你,更偏向哪一个呢? 整理 屠敏 出品 CSDN(ID:CSDNnews) 毋庸置疑,当前移动设备操作系统市场中,Andro...

  阅读数 3万+二哥,你好,我想知道一般程序猿都如何接私活,我也想接,能告诉我一些方法吗? 上面是一个读者“烦不烦”问我的一个问题。其实不止是“烦不烦”,还有很多读者问过我类似这样的问题。 我接的私活不算多,挣到...

  阅读数 3万+迅速发展的前端开发,在每⼀年,都为开发者带来了新的关键词。2019 年已步⼊尾声,2020 年前端发展的关键词⼜将有哪些呢?发展的方向又会是什么呢?参考2019年大前端的发展,不出意外,前端依旧会围绕...

  阅读数 3万+你知道的越多,你不知道的越多 点赞再看,养成习惯 GitHub上已经开源 有一线大厂面试点脑图、个人联系方式,欢迎Star和指...

  阅读数 5805当我发表这篇文章《为什么每个工程师都应该开始考虑开发中的分析和编程技能呢?》时,我从未想到它会对读者产生如此积极的影响。那些想要开始探索编程和数据科学领域的人向我寻求建议;还有一些人问我下一篇文章的发...

  阅读数 1533最近网易裁员事件引起广泛关注,昨天网易针对此事,也发了声明,到底谁对谁错,孰是孰非?我们作为吃瓜观众实在是知之甚少,所以不敢妄下定论。身处软件开发这个行业,近一两年来,对......

  GitHub 标星 1.6w+,我发现了一个宝藏项目,作为编程新手有福了!

  阅读数 7万+大家好,我是 Rocky0429,一个最近老在 GitHub 上闲逛的蒟蒻… 特别惭愧的是,虽然我很早就知道 GitHub,但是学会逛 GitHub 的时间特别晚。当时一方面是因为菜,看着这种全是英...

  阅读数 3667今天又是美好的一个周末,跟大家聊点有意思的事情。 事情的起因是这样的,前段时间一个圈外(码农圈)人,突然间问了我一个问题,我们是不是在被自己手机上的 APP 录音啊,因为经常会出现一个情况,自己在和别...

  阅读数 5万+最近一直忙于面试,人事推给了我一份简历,职位是算法工程师,年龄是 46 岁,我揉了揉眼镜后再看看,确实是 46 岁。抱着忐忑的心,我电话面试一番后,还是不觉得他和我们的团队很适合。 人都会有同理心,...

  动漫美少女生成神器、猫的门禁...2019年十七大最佳机器学习项目 年度盘点①...

  阅读数 1191前言 说到前端性能优化,绝对是对一个前端攻城狮的综合考量 ~ 作为一个前端,在功能ok的前提下,最重要的应该就是体验了,有人说: 正常打开一个页面超过3 ~ 5秒等待,还没有打开,我就不会等了 《...

分享到:
您使用的浏览器版本过低,不仅存在较多的安全漏洞,也无法完美支持最新的web技术和标准,请更新高版本浏览器!!