数据科学家的66个工作面试问题-CDA数据分析师官网

热线电话：13121318867

数据科学家的66个工作面试问题

2017-03-06

数据科学家的66个工作面试问题

我们现在有91个问题。我们还添加了50个新的人在这里，并开始提供这些问题的答案在这里。这些都是开放式问题，以评估一个高级职位的高级候选人的技术水平知识，例如董事。
您处理的最大数据集是什么，以及如何处理它，结果是什么？
告诉我关于你的分析或计算机科学项目的两个成功案例？电梯（或成功）是如何衡量的？
什么是：升力，KPI，鲁棒性，模型拟合，实验设计，80/20规则？
什么是：协同过滤，n-gram，地图缩小，余弦距离？
如何优化Web爬网程序运行得更快，提取更好的信息，并更好地汇总数据以生成更清洁的数据库？
你会怎么想出一个解决方案来识别剽窃？

如何检测由多个用户共享的个人付费帐户？
应该实时处理点击数据吗？为什么？在哪些情况下？
什么是更好：好的数据或好的模型？你如何定义“好”？是否有一个通用的好模型？有没有任何模型，绝对不是那么好？
什么是概率合并（AKA模糊合并）？使用SQL或其他语言更容易处理吗？您将选择哪种语言用于半结构化文本数据对帐？
如何处理丢失的数据？你推荐什么插补技术？
你最喜欢的编程语言/供应商是什么？为什么？
告诉我3件事情积极和3件事情你最喜欢的统计软件。
比较SAS，R，Python，Perl
大数据的诅What是什么？
您是否参与过数据库设计和数据建模？
您是否参与了仪表板创建和指标选择？你对Birt有什么看法？
您喜欢Teradata的哪些功能？
您即将发送一百万封电子邮件（营销广告系列）。如何优化交付？如何优化响应？你可以分别优化吗？（答案：不是真的）
Toad或Brio或任何其他类似的客户端查询Oracle数据库的效率非常低。为什么？你将如何提高速度10倍，并能够处理更大的输出？
如何将非结构化数据转换为结构化数据？是真的有必要吗？是否可以将数据存储为纯文本文件，而不是以SQL为动力的RDBMS？
什么是哈希表冲突？如何避免？它多久发生一次？
如何确保mapreduce应用程序具有良好的负载平衡？什么是负载平衡？
例如，mapreduce不工作？例子，它工作得很好？云涉及的安全问题是什么？您认为EMC的解决方案提供了内部和外部云的混合方法以减轻风险并提供其他优势（哪些）？
最好在内存中有100个小哈希表或一个大哈希表，就访问速度而言（假设两者都适合内存）？你对数据库分析有什么看法？
为什么朴素贝叶斯这么糟？如何改进使用朴素贝叶斯的垃圾邮件检测算法？
你一直在使用白名单吗？积极的规则？（在欺诈或垃圾邮件检测的上下文中）
什么是星型模式？查找表？
你能用Excel进行逻辑回归吗？（是）如何？（对日志转换数据使用linest）？结果会好吗？（Excel有数字问题，但它非常互动）
你已经优化代码或算法的速度：在SQL，Perl，C ++，Python等。如何，以及多少？
是否最好花5天开发90％准确的解决方案，或10天的100％准确性？取决于上下文？
定义：质量保证，六西格玛，实验设计。给出实验的好和坏设计的例子。
一般线性模型的缺点是什么？你熟悉替代品（拉索，脊回归，提升的树）吗？
你认为50个小决策树比大的好吗？为什么？
精算科学不是统计学的一个分支（生存分析）？如果不是，怎么办？
给出没有高斯分布或对数正态的数据示例。给出具有非常混乱分布的数据的示例？
为什么均方误差是模型性能的不良衡量标准？你会建议什么？
你如何证明你带给算法的一个改进真的是比没有做任何改进？你熟悉A / B测试吗？
什么是敏感性分析？它是否有更好的低灵敏度（即，伟大的鲁棒性）和低预测能力，或者反过来？如何执行良好的交叉验证？您认为在数据集中注入噪声以测试模型的灵敏度的想法是什么？
比较逻辑回归w。决策树，神经网络。在过去的15年里，这些技术如何得到了极大的改进？
你知道/使用除PCA以外的数据缩减技术吗？你觉得逐步回归怎么样？你熟悉什么样的步进技巧？什么时候完整数据比减少数据或样本好？
你将如何建立非参数置信区间，例如分数？（参见 AnalyticBridge定理）
你是否熟悉极端价值理论，蒙特卡罗模拟或数学统计（或任何其他），以正确估计一个非常罕见的事件的机会？
什么是根本原因分析？如何识别原因与相关？举例。
如何定义和度量度量的预测能力？
如何检测欺诈检测评分技术的最佳规则集？如何处理规则冗余，规则发现和问题的组合性质（找到最佳规则集 - 具有最佳预测能力的规则集）？规则集问题的近似解是否可以？你会如何找到一个OK的近似解？你会如何决定它是否足够好，停止寻找一个更好的？
如何创建关键字分类法？
什么是僵尸网络？如何检测？
任何使用API的经验？编程API？Google还是Amazon API？AaaS（Google Analytics（分析）即服务）？
什么时候编写自己的代码比使用数据科学软件包更好？
您使用哪些工具进行可视化？你对Tableau有什么看法？R' SAS？（图表）。如何在图表（或视频）中有效地表示5维度？
什么是POC（概念证明）？
您与哪些类型的客户合作：内部，外部，销售/财务/营销/ IT人员？咨询经验？处理供应商，包括供应商选择和测试？
你熟悉软件生命周期吗？从IT项目生命周期 - 从收集请求到维护？
什么是cron工作？
你是一个孤独的编码器吗？一个生产家伙（开发商）？还是设计师（建筑师）？
是否最好有太多的假阳性，或太多的假阴性？
你熟悉定价优化，价格弹性，库存管理，竞争情报？举例。
Zillow的算法如何工作？（估计美国任何房屋的价值）
如何检测虚假评论，或伪造的Facebook帐户用于不良目的？
如何创建一个新的匿名数字货币？
你有没有想过创建一个启动？围绕哪个想法/概念？
你认为输入的登录名/密码会消失吗？如何替换它们？
你使用时间序列模型吗？与时间滞后的交叉相关？Correlograms？光谱分析？信号处理和滤波技术？在哪个上下文？
你最欣赏哪些数据科学家？哪个创业？
你是如何变得对数据科学的兴趣？
什么是效率曲线？它的缺点是什么，如何克服它们？
什么是推荐引擎？它是如何工作的？
什么是精确测试？当我们不使用精确测试时，模拟如何以及何时可以帮助我们？
你认为什么是一个好的数据科学家？
你认为数据科学是一门艺术还是一门科学？
一个好的，快速聚类算法的计算复杂度是多少？什么是好的聚类算法？如何确定集群的数量？假设您有1000万个数据点（每个由两个关键字组成），以及衡量这两个关键字的相似程度的指标，您将如何对一百万个唯一关键字执行聚类？你将如何创建这个1000万数据点表的第一位？
在数据科学中给出几个“最佳实践”的例子。
什么可能使图表误导，难以阅读或解释？有用的图表应该有什么功能？
你知道在统计或计算机科学中使用的几条“经验法则”吗？或在业务分析中？
未来20年的5大预测是什么？
你如何立即知道文章中出版的统计数据（例如报纸）是错误的，还是出于支持作者的观点，而不是关于特定主题的正确，全面的事实信息？例如，你对新闻界定期讨论的官方每月失业统计数字有什么看法？什么可以使他们更准确？
测试你的分析直觉：看看这三个图表。其中两个展示模式。哪个？你知道这些图表被称为散点图吗？有没有其他方法来直观地表示这种类型的数据？
您设计一个鲁棒的非参数统计量（度量）来替代相关性或R平方，（1）独立于样本大小，（2）总是在-1和+1之间，以及（3）基于秩统计。如何标准化样本大小？编写一个计算n个元素的所有排列的算法。当n很大时，如何对排列进行抽样（即生成大量的随机排列），以估计新创建的度量的渐近分布？您可以使用此渐近分布来标准化您的指标。你认为一个确切的理论分布可能存在，因此，我们应该找到它，并使用它，而不是浪费我们的时间尝试使用模拟估计渐近分布？
更困难，技术问题与前一个有关。在n个元素的排列和1和n之间的整数之间存在明显的一对一对应！设计一个编码小于n的整数的算法！作为n个元素的置换。什么是反向算法，用于解码置换并将其转换回数字？提示：中间步骤是使用整数的因子数系统表示。请随时查看在线参考回答问题。更好的是，随时浏览网络，找到问题的完整答案（这将测试候选人的快速在线搜索的能力，找到一个问题的解决方案，而不花时间重新发明轮子）。
Yelp评论会收到多少“有用”的投票？我的答案：消除虚假帐户（阅读这篇文章）或竞争对手的评论（如何检测他们：使用分类法来分类用户和位置 - 两个意大利餐馆在相同的邮政编码可能badmouth彼此，写自己的好评。检测假的喜欢：一些公司（例如 FanMeNow.com）将收取你生产假帐户和假的喜欢。消除喜欢一切的多产用户，那些讨厌一切的人。有一个黑名单的关键字过滤假的评论。查看审查者的IP地址或IP块是否在黑名单中，例如“停止论坛垃圾邮件”。创建蜜罐捕捉欺诈者。还要注意不满的员工伤害他们的前雇主。注意2或3类似的评论发布同一天由3个用户关于一个公司，收到很少的评论。是一个全新的公司吗？向受信任的用户添加更多权重（创建一个受信任用户类别）。标记所有相同（或几乎相同）且来自相同IP地址或相同用户的评论。创建一个指标来衡量两段文字（评论）之间的距离。创建评论或评论者分类。使用隐藏的决策树为评价和评论者评分或评分。标记所有相同（或几乎相同）且来自相同IP地址或相同用户的评论。创建一个指标来衡量两段文字（评论）之间的距离。创建评论或评论者分类。使用隐藏的决策树为评价和评论者评分或评分。标记所有相同（或几乎相同）且来自相同IP地址或相同用户的评论。创建一个指标来衡量两段文字（评论）之间的距离。创建评论或评论者分类。使用隐藏的决策树为评价和评论者评分或评分。
你今天做了什么？或者你本周/上周做了什么？
你读什么/什么时候是最新的数据挖掘书/文章？你参加的最新数据挖掘会议/网络研讨会/课堂/研讨会/培训是什么？什么/什么时候是你获得的最近的编程技能？
你最喜欢的数据科学网站是什么？在数据科学界，你最欣赏谁，为什么？你最欣赏哪个公司？
你写的最后一个数据科学博客文章是什么/何时/在哪里？
在你看来，什么是数据科学？机器学习？数据挖掘？
谁是你招募的最好的人，他们今天在哪里？
您可以根据亚马逊的公开数据估算和预测任何图书的销售额吗？提示：阅读这篇文章。
这张图片有什么问题？
应该删除停用词是步骤1而不是步骤3，在这里描述的搜索引擎算法？答：你想过我和你的也可以停止的事实吗？所以在一个坏的实现，数据挖掘将成为数据挖掘后，然后数据。实际上，在词干之前删除停用词。所以步骤3应该成为步骤1。
实验设计和一些计算机科学与乐高的