有时在面试阶段,考核人员会不期然地给出一个身为应考者事先未预料到的题目,其意图在于测验应考者的快速反应能力以及处理事务的能力。在这种情形下,你所需要做的是保持情绪平稳,绝不能陷入慌乱状态。
因大数据概念热度高,数据科学家这一岗位顺应出现,要成为数据科学家需满足什么条件呢,存在这样一些情况,可以从国外数据科学家的面试问题中获取某些参考,有77个关于数据分析或者数据科学家招聘时常常会出现的几个问题,供各位同行予以参考。
1、你处理的曾经的最大的数据量是多少,你是以怎样的方式去处理它们的,最终处理所达成的结果是什么 ?
2、请告知我两个与分析或者计算机科学有关的项目,你是怎样针对其结果予以衡量的?
3、什么是提升值,什么是关键绩效指标,什么是强壮性,什么是模型按合度,什么是实验设计,什么是2/8原则?
4、协同过滤是什么,n - grams是什么,map reduce是什么,余弦距离是什么?
如何去使得一个网络爬虫,在速度方面变得更快,在抽取而言具备更好的信息,并且在总结数据上能够做得更好,以此终得一个干净的数据库呢?
6、如何设计一个解决抄袭的方案?
7、如何检验一个个人支付账户都多个人使用?
8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?
是好数据更好,是好模型优先,你觉得二者哪个更具优势呢,同时你怎样去界定“好”呢,万能遍适的模型存在吗,你晓得有些模型的界定并非那般出色吗 ?
10、概率合并也就是所称的模糊融合究竟是什么呢,处理它使用SQL是否方便呢,还是使用其他语言更便利呢,对于处理半结构化的数据而言你会选择运用哪种语言办理呢?
11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?
12、你最喜欢的编程语言是什么?为什么?
13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。
十四、SAS语言,有着怎样的区别,R语言,Python语言,Per l语言,它们之间的区别究竟是?
15、什么是大数据的诅咒?
16、你参与过数据库与数据模型的设计吗?
是否,你有过,关于仪表盘设计,以及指标选择方面的参与经历?对于商业智能,还有报表工具,你持有怎样的想法?
18、你喜欢TD数据库的什么特征?
如果你打算发送面向100万受众的营销活动邮件,那你会怎样去进行优化发送呢,你又会怎么去优化反应率呢,能够把这两个优化方面分开处理吗?
20、要是存在好几个客户去查询ORACLE数据库,然而其效率是很低的。这是为何呢,你采取什么举措能够让速度提升到10倍以上,并且还能够更良好地处理大批量输出呢,?
首先,21、存在如何 将非结构化的数据 转化成结构化的数据 的情况,其次 这是不是真的有必要 去做这样的转换 呢,最后 把数据存成平面文本文件 是不是比存成关系数据库 更好 呢?
22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?
23,关于怎样去认定mapreduce进程存在良好的负载平衡的情况;那么负载平衡究竟是什么呢 ?
请通过举例的方式说明mapreduce究竟是怎样进行工作的,mapreduce在什么样的应用场景之下能够工作得非常良好,涉及云的安全方面存在着哪些问题?
在内存满足的情形之下,你是不是觉得,对于内存以及运行速度而言,是100个小的哈希表好,还是一个大的哈希表好呢,那对于数据库分析又该作出怎样的评价呢?
26、朴素贝叶斯为何差呢,你怎样运用朴素贝叶斯去改进爬虫检验算法呢?
27、你有没有处理过白名单,主要规则是什么,(当前处于欺诈或者爬行检验的情形下)?
28、什么是星型模型?什么是查询表?
29、你能不能运用excel去构建逻辑回归模型呀?要是能够的话,讲一讲建立的过程呢?
是采用那种用5天达成90%精度的解决方案,还是选用那种耗10天达成100%精度的解决方案呢,这取决于什么内容呢?
32、给出这样的定义,QA也就是质量保障,还有,六西格玛,以及实验设计。对于好的实验设计,与坏的这种实验设计,能不能列举出一个案例呢?
33、普通线性回归模型存在什么样的缺陷呢、你知晓的、别的回归模型有哪些呢、
34、你认为叶数小于50的决策树是否比大的好?为什么?
35、保险精算是否是统计学的一个分支?如果不是,为何如何?
36、给出一个并非符合高斯分布的数据案例,给出一个并非符合对数正态分布的数据案例,给出一个分布极为混乱的数据案例。
37、为何要说均方误差并非用来衡量模型的优良指标呢,你提议用哪一个指标去替代呢?

38、你怎样去证实你所带来的算法改进是切实有效的,相较于不做任何改变的情况而言呢?你对A/B测试熟悉吗?
39、敏感性分析是什么,拥有更低敏感性(即更好强壮性),这样状态与低预测能力相比,还是相反状态更好,你怎样使用交叉验证,你对在数据集中插入噪声数据用以检验模型敏感性这种想法看法如何 ?
40、有逻辑回归,有决策树,神经网络也存在,在过去15年里,这些技术究竟做了哪些堪称巨大的改进呢?
41、除去主成分分析之外,你是否运用别的数据降维技术呢,怎么看待逐步回归呢,你所熟悉的当中逐步回归技术是哪些,完完整整的数据在何时情形要比降维的数据或者样本更具优势呢?
42、你如何建议一个非参数置信区间?
43、你对极值理论熟悉,对蒙特卡罗逻辑熟悉,或者对其它数理统计方法熟悉,以此来正确评估一个稀疏事件的发生概率?
44、什么是归因分析?如何识别归因与相关系数?举例。
45、如何定义与衡量一个指标的预测能力?
46、怎样去找到为欺诈检验得分技术的最佳规则集呢,你要怎么处理规则冗余、规则发现以及二者的本质问题呀,一个规则集的近似解决方案是不是可行的呢,怎么去寻觅一个可行的近似方案呢,你要如何判定这个解决方案足够好据此停止找寻另一个更优的呢?
47、如何创建一个关键字分类?
48、什么是僵尸网络?如何进行检测?
49、你存在运用过API接口的经历吗,怎样的API,是谷歌,亦或是亚马逊,又或者是软件即时服务 ?
50、在何种情形下,自身去编号代码,会比运用由数据科学者所开发的已然成型的软件包更为优良呢?
51、可视化借助啥工具?于作图范畴,你怎样去评价Tableau?R?SAS?于一幅图里有效呈现五个维度?
52、什么是概念验证?
53、你主要和哪类客户一起工作:是内部的人,外部的人,还是销售部门、财务部门、市场部门、IT部门的人呢?你有咨询方面的经验吗?你和供应商有过接触,涵盖供应商的选择以及测试方面?
54、你对软件生命周期熟悉吗,以及对 IT 项目的生命周期熟悉吗,是从收入需求到项目维护的那种生命周期 。
55、什么是cron任务?
56、你是一名单身的从事编码工作的人员吗,还是一名进行开发工作的人员呢,又或者是一名开展设计工作的人员呀?
57、是假阳性好还是假阴性好?
58、你对价格优化熟悉吗,对价格弹性熟悉吗,对存货管理熟悉吗,对竞争智能熟悉吗?分别给出案例。
59、Zillow’s算法是如何工作的?
60、怎样去检验,针对不好的目的所开展的虚假评论,以及虚假的 FB 帐户呢?
61、你如何创建一个新的匿名数字帐户?
62、你有没有想过自己创业?是什么样的想法?
你觉得,用于输入帐号以及密码的那能起到登录作用的框框,会不见吗,会用啥给替换掉呢 ?
64、你们使用过时间序列模型吗,存在时滞条件下是否具备相关性,相关图又是怎样的情况,以及光谱分析、信号处理与过滤技术如何,在何种具体场景之下呢?
65、哪位数据科学有你最佩服?从哪开始?
66、你是怎么开始对数据科学感兴趣的?
67、效率曲线是什么呢,他们存在什么样的缺陷呀,你要怎样去克服这些缺陷呢?
68、什么是推荐引擎?它是如何工作的?
69、精密测试是什么,怎样以及何时模拟能够协助我们不运用精密测试 ?
70、你认为怎么才能成为一个好的数据科学家?
71、你认为数据科学家是一个艺术家还是科学家?
哪些属于一个具备良好特性且速度较快的聚类算法所拥有的计算复杂度呢,什么样的才算是好的聚类算法呢,你会依据怎样的方式去确定一个聚类的聚类数量呢?
73、给出一些在数据科学中“最佳实践的案例”。
74、是什么致使一个图形让人产生误解,让人很难去进行读懂或是做出解释呢?是一个具有有用性质的图形所具备的特征吗?
75、你可知道,那被应用于统计或计算科学里的“经验法则”?又或者是在商业分析当中的 ?
76、你觉得下一个20年最好的5个预测方法是?
您是如何这么快就晓得在一篇文章里(像是报纸之类)所发表的统计数字有误,又或是被用来支持作者的论点,而非仅仅是在陈列某个事物的信息呢?比如说,对于官方每月定期在媒体上公开发布的失业统计数据,您有啥看法?怎样能够让这些数据更为精准呢?
Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40
地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com
Powered by PHPYun.