数据处理 - HRTechChina.com - 向上的力量！

数据处理

【指南】20个人力资源分析师面试需要准备的问题，让你的面试更高效！在大数据时代下，人力资源分析师在商业世界中发挥着至关重要的作用。通常，他们帮助组织数据，发现市场趋势并支持业务决策。无论你是在招聘人力资源分析师，还是在准备这个具有挑战性的职位的面试，多了解一下什么是有效的人力资源分析师面试问题—在提问和回答的角度上，对你都是有利的。求职面试仍然是大多数公司用来评估候选人是否适合某一特定职位的方法。它使候选人有机会表达他们的成就、目标和其他兴趣点。这里罗列了许多不同类型的人力资源分析师面试问题，从以属性为重点到以情景为重点，希望能以此作为你的人力资源分析师面试指南，或以此为你的组织聘请一名出色的人力资源分析师。以个人和动机为重点的面试问题在求职面试中，雇主会分析候选人的个人特质。了解是什么促使应聘者愿意从事人力资源分析师的工作，并借此深入了解这些品质。下面是一些适用于这一领域的人力资源分析师面试问题：请告诉我你最大的两个弱点。是什么促使你申请我们公司的工作？你认为你将如何适应并融入这里的文化？你能告诉我你职业生涯中学到的最大教训吗？如何回答这些面试问题在回答这一些类型的面试问题时，需要关注你的积极品质。例如，你可以提到完美主义是一个弱点，但随后解释你如何努力改善。你也可以有意识地设定更合理的目标，确定并坚持优先事项等等。简而言之，即使你谈论的是弱点或经验教训，也要保持积极的态度。如果你正在面试一个候选人，寻找一个能在其他领域提供这些属性的明确示例的人。面试官想衡量的另一件事是，你的公司文化偏好与你所实际申请的公司文化如何匹配。在面试之前，你有必要了解该公司的一些基本情况，以便能够解释关于你的动机和文化适应性的问题。至少，提前查看他们的网站和他们的职业页面。基于行为的面试问题人力资源分析师的角色要求被选中从事这项工作的人具有某些态度和行为。人力资源分析师必须从分析的角度来处理事情，利用具体数据来改善人力资源行为。可以考虑以下这些人力资源分析师的行为面试问题：分享一个你和困难客户/内部利益相关者的经历。你用什么系统来掌握你所从事的各种项目？你如何确定最佳数据的来源？你是否曾经在某些方面犯过错误？如果有，你做了什么来纠正问题？如何回答这些面试问题上述面试问题的回答最好具有一定程度的个性化。事实上，这也是雇主应该寻找的东西。照本宣科的回答是行不通的，回答时要独特且有趣。想一想具体的情况中你是如何表现的，以及你本可以做得更好的地方。不用立即回答，花一分钟时间思考是完全可以的。招聘经理可以根据候选人回答问题的诚实程度来评估他们。基于特定角色的面试问题人力资源分析师在组织中扮演着一个有趣的角色，经常与关键决策者一起工作。这需要一套非常特殊的技能。基于角色的人力资源分析师面试问题可以深入了解这些技能，以下是一些示例：当评估在现有部门内创建一个新的工作角色的成本时，你会求助于哪些软件工具？你认为对细节有敏锐的洞察力有多重要？你为一个项目编制的最有趣的分析报告是什么？你管理数据的首选工具是什么，为什么？如何回答这些面试问题如果你想有机会得到一份人力资源分析师的工作，请回顾该工作的技能和要求，并将你的答案集中在这些方面。例如，如果你对公司在招聘启事中提到的某种工具有很多经验，那么在回答特定角色的问题时一定要提及这一点。如果你没有使用该特定工具的直接经验，你可以谈谈你如何使用类似的工具。如果你能谈谈这些要点，然后分享一些你所接触到的数据的例子，以及你是如何在工作角色中利用这些数据的，那么你可能就把工作收入囊中了。不要忘记提到你的证书，以及它们是如何帮助你获得人力资源分析师所需的能力。例如，如果你最近完成了人员分析证书课程，请指出你学到的内容，以及它们与该角色的关联性。基于情景的面试问题当困难的情况出现时，雇主需要确保他们可以依靠人力资源分析师做出正确的决策。因此，人力资源分析师的情景面试问题可以帮助识别最理想的反应。以下是一些你作为候选人可能会遇到的问题，或者如果你在招聘时问到的问题。你是否曾有过一个会影响大量员工的决定，如果有，你是用什么数据来做这个决定的？分享一下你收到建设性批评的时刻。你是如何利用这些反馈来改进你的分析工作的？你曾经处理过哪些不寻常的数据分析工作？你能告诉我们在工作场所调查期间，数据何时提供了见解或证据？如何回答这些面试问题所有这些问题都需要在人力资源和/或处理数据方面有一定程度的经验。同样重要的是，你要有一些故事可讲。一个很好的起始点是为你的雇主做出的重大业务决定，并将其与你亲自处理的任何日期联系起来。其中一些问题可能会让你感到困惑，但要与他们愉快地交流，并且要诚实。基于解决问题的面试问题除了能够以合理的方式做出反应，利用人力资源的最佳实践和数据外，人力资源分析师应该利用这些信息来解决组织问题。问题可以包括人力资源的许多领域，包括招聘问题，员工参与度，生产力，留存率和绩效。请关注以下人力资源分析师解决问题的面试问题：你认为在解决业务问题时，人力资源分析师最关键的技能是什么？今天大多数人力资源专业人士面临的最具挑战性的问题是什么？你是否曾在以前的工作场所协助实施一项新政策？如果有的话，你是从哪里开始的？请告诉我们你从数据中收到意外结果的情况，以及这对你执行解决问题的能力有什么影响。如何回答这些面试问题一次有质量的求职可以包括尽可能多地了解工作要求。花点时间研究和发现人力资源分析师处理的主要职责。在回答面试问题时，考虑他们解决的问题以及他们如何为组织服务。在人力资源分析师面试中取得成功的策略：除了练习面试技巧以及如何回答上述问题外，还有其他方法可以为人力资源分析师的面试做好准备。以下一些策略概要： 1.确认你的简历和社交媒体资料上的所有信息都是最新且正确的。 2.多关注网络，特别是你列入参考的人选，提醒他们你正在找工作。这样一来，他们就可以更加警觉地意识到，他们需要对你的相关询问作出回应。 3.第一印象很重要。确保你在面试当天看起来专业而清爽。如果你是亲自面试，你可以询问工作场所的着装要求，然后穿上相应的衣服。即使是远程面试，你仍然希望在这一过程中保持最佳状态。 4.事先尽可能多地对公司进行了解。没有两份人力资源分析师的工作是完全相同的。你在一份新工作中所做的事情可能与你以前的工作有很大的不同。准备好问问题，尽可能多地了解工作机会和公司本身。 5.面试时要牢记工资信息。这是一个经常出现的问题，因此你要准备好一个你能接受的范围。一个好的经验法则是，至少要比你最近的工作多赚5%。 6.与朋友或教练一起练习你的面试技巧。你要尽可能感到舒适，也要做好准备。当然，你不希望看起来过度练习或排练。记住，在回答问题时要真实和诚实。 7.在进入面试前，仔细查看招聘信息，思考你的经验和资格与职责要求是否匹配。可能有你不具备的资格或经验，这没关系，但是要准备好如何解决这个问题。也许你有一些其他方面的才能或专业知识，你可以把它展现出来。 8.在面试的前一天好好休息一下，准备一些笔记和问题。请务必准时，并用虚拟软件或亲自测试的方式测试路线。作者：Tess C. Taylor

数据处理
2022年02月22日
数据处理

大数据服务平台Cazena获2000万美元B轮融资 Cazena，一家帮助企业处理数据的新平台，今天宣布已获2000万美元B轮融资，融资由Formation 8领投。其他的投资方包括Andreessen Horowitz和North Bridge Venture Partners，他们也参与了去年十月Cazena800万美元的A轮融资。 Cazena由部分Netezza的前任员工创办，Prat Moghe是公司的领头人。2010年Netezza被IBM收购时，他担任数据监察部门总经理，收购后，任职高级副总裁，负责产品、战略和市场营销。在IBM干了一段时间后，Moghe觉得是时候用新的视角来解决Netezza曾遭遇的一些问题了。“在看到企业都是如何同全新的大数据堆栈（如Hadoop，一种分布式系统基础架构）挣扎较劲的情况下，我们开始思考下一个十年数据处理的前景，”他说道。“每一个企业，尤其是中大型企业，都在积极寻找着能提高进程灵敏度的云方法，但是现有平台的复杂性和安全问题是很大的障碍。” Cazena 的目标是极大简化商业中的大数据进程处理。Moghe设想，最终的理想状态是，使用Cazena时只需点三下，就能设置好数据处理工作（当然现阶段还有一些问题需要解决）。这项服务通过自动搜寻到，处理设定数据组的分析技术方案，从而解决掉处理的复杂性。接下来，它会替客户自动的规定、优化和管理工作流程，无论是Hadoop、Spark、MPP还是SQL9（如Amazon Redshift）类型的结构。根据你的工作量和其他标准，如价格或是你想要获得结果的速度，Cazena会为你提供适当的基础结构，然后全程关注进度。“最终，数据即服务成为一个新的分类，我们希望能助企业一臂之力，让他们用好云计算。” Cazena花费了约两年的时间，才公开他们的新产品。但Moghe说，公司尚在和一小部分大型企业合作，进行β测试，现在还没有达到完全开放服务的阶段。当准备就绪的时候，Cazena会使用相对特别的定价计划。Moghe说，计划是针对服务，包括所有的云计算成本、支持和SLA开销，收取单一费用。他认为，目前针对云处理的收费系统，如gigabyte、note，对企业而言结果都太难预测。公司的这一轮融资资金，将会用于技术开发、销售推广和合作伙伴建设。 Cazena Raises $20M Series B For Its Enterprise Big Data-As-A-Service Platform Cazena, a new platform that wants to make it easier for enterprises to process their data, today announced that it has raised a $20 million Series B round led by Formation 8. Other participants include Andreessen Horowitz and North Bridge Venture Partners, who both also participated in the company’s $8 million series A round last October. Cazena was founded by a number of former Netezza employees and is now led by Prat Moghe, who was Netezza’s general manager for data compliance before its acquisition by IBM in 2010. He then became the senior vice president for strategy, product and marketing at Netezza under IBM’s ownership. After a few years at IBM, Moghe decided that it was time to look at some of the problems Netezza was trying to solve from a fresh perspective. “We started thinking about the next decade of data processing and how enterprises are struggling with the new big data stacks like Hadoop,” he told us. “Every enterprise — and particular the medium to large enterprises — they were actively looking at the cloud to speed up the agility of processing. But they were being held back by the complexity and security issues [of the existing platforms].” Cazena aims to greatly simplify big data processing for businesses. Ideally, it should only take three clicks to set up a data processing job with Cazena, Moghe believes (though in reality, it’s still a bit more involved right now). The service strips away the complexities by trying to automatically figure out what technology to use to analyze a given set of data. It then automatically provisions, optimizes and manages that workflow for its customers, no matter whether it’s a Hadoop, Spark or MPP SQL (think Amazon Redshift) job. Depending on your workload and other criteria like price or how fast you need the results, Cazena will provision the right infrastructure for you and then take care of the processing. “Ultimately, data as a service is a new category and we want to help big enterprises get into the cloud,” Moghe said. It took the Cazena about two years to get to this point where it’s openly talking about the new product. But while Moghe told me that the company is already running some beta tests with a small number of large companies, Cazena isn’t quite ready to open up its service to all yet. Once it does launch, though, it will do so with a relatively unusual pricing plan. Moghe tells me that the plan is to charge a single fee for the service that will include all of the cloud costs, support and an SLA. He argues that current cloud processing systems that charge by gigabyte or node are too unpredictable for enterprises. The new funding the company announced today will go toward building out the company’s technology, sales force and partnerships. 来源：tc

数据处理
2015年07月23日
数据处理

硅谷观察之大数据篇（完整版）【上篇：挖掘机和“改变世界的”大数据公司们】硅谷的这一个月，我在 startups demo days 和各种大公司一日游中度日，以为会逃脱国内各种会上各种“大数据”和挖掘机的梗，但万万没想到这里更甚。Hi~ 本文发自仅次于五道口的宇宙中心硅谷，与你分享大数据在这片土地上的真实生长状况。什么是“改变世界”的大数据公司近两周硅谷两场规模比较大的 demo 大会上，就有十多家自称做大数据的 startups，有做消费者行为的，有做体育分析的，有做 NGO 融资的，有做环保的，有做 UX 的，有做信贷评级的，当然还少不了做移动端广告的。乍看都是高大上的产品，但仔细琢磨一下会发现一些没那么高大上的细节。比如，有一家介绍时候说 "Brings big data to teams, media and fans"，用的是Moneyball作引子。展示结束后询问他们是如何分析视频以得到各种数据的，demo 的哥们表示他们请了一些人看视频的。没错，是人工。自然地，下一个问题就是：未来如何扩张以应对来自不同体育项目大量的全长录像？他的回答也很简单，雇佣更多人。听完我懵了一下，问，那打算如何利用收集的数据呢？答曰：开放 API，自己不做分析。那么，说好的大数据呢？难道有数据就叫大数据公司了？如果庆丰包子留存有这半个多世纪以来的购买者和交易记录它就得叫大数据公司了？是，但也不是。先归纳了一下硅谷“大数据公司”的类型，有补充或修正的请拍砖：数据的拥有者、数据源：特点是业务优势能收集到大量数据，就像煤老板垄断一个地区的矿一样。其实大多数有能力产生或收集数据的公司都属于这类型，比如Vantage Sports和收集了PB级数据的包子铺。大数据咨询：特点是非常技术，提供从基础设施规划建设维护到软件开发和数据分析等的服务，但不拥有数据，比如Cloudera这家不到500人的startup是最著名的Hadoop架构咨询公司。做大数据工具的：比如AMPLab出来的Databricks和Yahoo人主导的Hortonworks。整合应用型：特点是收集拥有或购买一些数据，然后结合AI来解决更多实际的痛点。所以回答之前的问题：是，因为包子铺只要收集的消费者数据量够大就能成为数据拥有者，有那么大的数据就有得到洞见的可能；不是，因为可能从真正意义上来说，大数据公司应该只属于第四种类型：AI。对，我相信未来是 AI 的，而 AI 的食物是数据。就像很多产业链一样，最困难且最有价值的创新往往发生在接近最终用户的那端，比如 iPhone。大数据行业最有价值的部分在于如何利用机器去处理数据得到洞见，影响组织和个人的行为，从而改变世界。收集和整理数据在未来会变得标准化和自动化，而利用 AI 进行分析的能力会变得更为关键。再看硅谷主打 AI 的公司，现在大致可以分成以下三类了：分析用户行为，改进产品和营销的，比如 LinkedIn 的推荐系统和用 iBeacon 实现店内营销；统筹大量分散个体，利用大数据实现精确有效的预测和规划的，比如 Uber 和前段时间出现的 Amazon Fresh 及 Grub Market 分析识别各种类型的数据，开发更智能的设备和程序，比如 Google 大脑及无人车和以 Nest 为代表的智能设备等。这些产品都有一个很明显的共性，就是在努力尝试把机器变得更智能以减轻人类的工作量。这个目的与科技发展的动力相符合，因此认为之前所说的第四种类型的公司是最有希望改变世界的。这样的大数据公司需要什么样的人那么大数据公司，或者说到真正可以改变世界的大数据公司需要什么样的人才呢？这里要介绍一个在硅谷被炒得很热的高频词汇：数据科学家。这个职位出现的原因并不是因为数据量变大了需要更好的方式去存取，那是数据工程师的活。那产生的原因是什么呢？正是为了匹配上面第四种公司的需要。数据是 AI 当中不可分割的一部分，而且量越大越好，从数学上来说，数据越多则我们越能够有信心把从样本分析出来的结果推论到未知的数据当中，也就是说机器学习的效果越来越好，AI 越来越智能。由此诞生的数据科学家是一个非常综合型的职业。它所要求的知识范围包括分析数据的统计学，到算法的选择优化，再到对行业知识的深刻理解。这群人是开发数据产品的核心。硅谷大部分 startup 已经把它当成是必需品了，以至于刚入行的新人也能领到差不多 $100K 的薪水。而模糊的定义和误解也让有的人戏称，data scientist is a data analyst living in the bay area。值得一提的是，数据本身的飞速发展从另一个侧面其实也给数据工程师们的大数据处理带来了许多挑战。主要来源于以下的两个方面：数据量的急速增长。如今，数据的产生变得异常容易。社交网络，移动应用，几乎所有的互联网相关产品每时每刻都在产生众多数据。传统的集中储存计算方式显然无法处理如此庞大的数据量。这时，我们就需要新的储存方式，如云储存，以及新的处理方案，如Hadoop这样的分布计算平台。数据本身的非结构化。在传统的数据处理领域，我们处理的主要是结构化数据，例如，Excel表格可以显示量化数据等。而如今我们面对着越来越多的非结构化数据，如社交网络的评论，用户上传的音频视频等。这些数据存在于包括文本、图片、视频、音频等众多的数据格式中，这些数据中隐含着众多有价值的信息，但这些信息却需要深度的计算才可以分析出来。这就需要我们利用智能化分析、图像识别等等一系列新的算法来进行数据挖掘，这也就是“大数据”的挑战所在。目前硅谷的创业公司正在探索新的应用领域和方法，比如说物联网这块。现在智能设备们才刚刚起步，Nest、被 Nest 收购的Dropcam、Iotera、emberlight等等都属于少部分人的玩具。待到家家户户都安装了智能冰箱、智能灯泡、智能桌子、智能沙发等等的时候，大数据的威力才会伴随着巨大的使用规模而发挥出来。另外一个角度就是人。如果把之前谈的设备全部置换成个人的时候，他们的相互关系在各种维度上的交错会产生一张巨大的网络，其中的每个组成部分都由大量的数据组成。分析理解预测这些社会关系将会是大数据另一个有趣的应用方向，即Social Physics。不过按照从硅谷到全国的速度，感觉不管哪一方面的普及起码得等上五年以上的时间。展望一下未来的话，如果参照以前的技术革命和行业发展来看大数据，那么大数据的底层设施将会逐渐被隔离，被模块化和标准化，甚至是自动化，而在其上的中间层和应用层将成为各大公司的数据工程师们激烈攻克的主战场。硅谷公司的大数据运行现状目前硅谷各个公司的数据处理水平和模式差别还是蛮大的。除 Facebook 等几个很领先的公司外，大部分公司要么还没有能力自行处理数据，要么就是正在建立单独的数据处理部门，主要负责从数据基本处理到后期分析的各个环节，然后再送到公司内部的其他部门。对于这些公司来说，建立一个单独的数据处理部门可能还有还路漫漫其修远兮。举个例子来说，Facebook 有一个超过 30 人的团队花了近 4 年的时间才建立了 Facebook 的数据处理平台。如今，Facebook 仍需要超过 100 名工程师来支持这个平台的日常运行。可想而知，光是大数据分析的基础设施就已经是一个耗时耗力的项目了。LinkedIn 大数据部门的建设也已花了整整六年。普遍来说，各公司自主建立数据处理平台存在着几个难点：没有足够优秀的数据工程师来组建团队没有足够能力整合数据没有易于操作的基础软硬件来支持数据分析这几个主要难点使得大数据分析越来越专业化、服务化，以至于我们渐渐看到一条“硅谷数据处理产业链”的出现。从数据的储存，数据分析平台建立，到数据分析，数据可视化等等各个环节的成本越来越高，这使得本身技术能力很强的公司都还是使用专业数据处理公司提供的服务，而将更多的人才和资源放到核心业务的开发上。另外，就是各个公司对于数据处理的要求也越来越高。不仅仅需要有效的处理结果，也需要数据处理可以 self-service、self-managing、保证数据安全性、完善实时分析。这些诸多需求也使得专业化团队的优势更加突出。而这样一条整合服务链的行程，也给众多的大数据公司提供了机会。硅谷是非常神奇的地方。科技概念在这里也不能免俗会被追捧，被炒得很热。但这种激情和关注某个程度上讲正是硅谷创新的动力。即使存在很多投机贴标签的人，即使一片片的大数据 startups 被拍死在沙滩上，即使 Gartner 预测大数据概念将被回归现实，但相信会有更多的人投入到大数据这个行业，开发出更智能，更有影响力的产品。毕竟，大数据本身，不像一个单纯的 pitch 那样，它能够保证的是一定可以中看并且中用。【下篇：硅谷巨头们的大数据玩法】本篇将一共呈现硅谷四大不同类型的公司如何玩转大数据，其中包括了著名 FLAG 中的三家（Apple 在大数据这块来说表现并不突出）。本篇内容来自对 Evernote AI 负责人 Zeesha Currimbhoy、LinkedIn 大数据部门资深总监 Simon Zhang、前 Facebook 基础架构工程师 Ashish Thusoo 和 Google 大数据部门一线工程师及 Google Maps 相关负责人的专访。Enjoy~~ Evernote：今年新建AI部门剑指深度学习 Evernote 的全球大会上，CEO Phil Libin 提到，Evernote 的一个重要方向就是“让 Evernote 变成一个强大的大脑”。要实现这个目标，就不得不提他们刚刚整合改组的 Augmented Intelligence 团队（以下简称 AI team）。我在斯坦福约到 AI team 的 manager Zeesha Currimbhoy，在此分析一下从她那里得到的一手资料。是什么今年早些时候，这个 2 岁的数据处理团队改组为由 Zeesha 带领的 Augmented Intelligence team，总共十人不到，很低调，平日几乎听不到声响。他们究竟在做什么？与我们常说的 AI（artificial Intelligence）不同，Evernote 的团队名叫做 Augmented Intelligence，通常情况下简称为 IA。Zeesha 显然是这个团队里元老级的人物：“我是在 2012 年加入 Evernote 的，直接加入到了当时刚刚建立的数据处理团队，这也就是现在 AI team 的雏形。我们最开始的项目都是简单易行的小项目，比如按照你的个人打字方式来优化用户的输入体验。” 传统意义上的 AI 指的是通过大量数据和算法让机器学会分析并作出决定。而这里讲到 IA 则是让电脑进行一定量的运算，而终极目的是以之武装人脑，让人来更好的做决定。这两个概念在具体实施中自然有不少相通之处，但是其出发点却是完全不同的。这个区别也是 Evernote AI team 的亮点所在。作为一个笔记记录工具，Evernote 与 Google 之类的搜索引擎相比，最大的区别就是它非常的个人化。用户所储存的笔记、网站链接、照片、视频等都是他思维方式和关注点的体现。从哪来 Zeesha 小组的初衷便是，通过分析用户储存的笔记来学习其思维方式，然后以相同的模式从第三方数据库（也就是互联网上的各种开源信息）抽取信息推送给用户，从而达到帮助用户思考的过程。从这个意义上讲，Zeesha 版的未来 Evernote 更像是一个大脑的超级外挂，为人脑提供各种强大的可理解的数据支持。目前整个团队的切入点是很小而专注的。“我们不仅仅是帮助用户做搜索，更重要的是在正确的时间给用户推送正确的信息。” 实现这个目标的第一步就是给用户自己的笔记分类，找到关联点。今年早些时候，Evernote 已经在 Mac 的英文版上实行了一项叫做“Descriptive Search”的功能。用户可以直接描述想要搜索的条目，Evernote 就会自动返回所有相关信息。例如，用户可以直接搜索“2012 后在布拉格的所有图片”，或者“所有素食菜单”。不管用户的笔记是怎样分类的，Decriptive Search 都可以搜索到相关的信息并且避免返回过大范围的数据。而这还仅仅是 AI team 长期目标的开始，这个团队将在此基础上开发一系列智能化的产品。到哪去不用说，这样一个新创团队自然也面临这诸多方面的挑战。当下一个比较重要的技术难点就是 Evernote 用户的数据量。虽然 Evernote 的用户量已经达到了一亿，但是由于整个团队的关注点在个人化分析，外加隐私保护等诸多原因，AI team 并没有做跨用户的数据分析。这样做的结果就是团队需要分析一亿组各不相同的小数据组。比如，假设我只在 Evernote 上面存了 10 个笔记，那 Evernote 也应该能够通过这些少量的数据来分析出有效结果。当然，这些技术的直接结果是用户用 Evernote 越多，得到的个性化用户体验就越好。长期来讲，也是一个可以增加用户黏性的特点。不过 Zeesha 也坦言：“的确，我们都知道没有大数据就没有所谓的智能分析。但是我们现在所做的正是在这样的前提下来找到新的合适的算法。”她并没有深入去讲目前团队所用的是什么思路，但是考虑到这个领域一时还没有很成功的先例，我们有理由期待在 Zeesha 带领下的 Evernote AI team 在近期做出一些有意思的成果。 Facebook：大数据主要用于外部广告精准投放和内部交流 Facebook 有一个超过 30 人的团队花了近 4 年的时间才建立了 Facebook 的数据处理平台。如今，Facebook 仍需要超过 100 名工程师来支持这个平台的日常运行。可想而知，光是大数据分析的基础设施就已经是一个耗时耗力的项目了。 Facebook 的一大价值就在于其超过 13.5 亿活跃用户每天发布的数据。而其大数据部门经过七八年的摸索，才在 2013 年把部门的 key foundation 定位成广告的精准投放，开始建了一整套自己的数据处理系统和团队。并进行了一系列配套的收购活动，比如买下世界第二大广告平台 Atlas。据前 Facebook Data Infrastructure Manager Ashish Thusoo 介绍，Facebook 的数据处理平台是一个 self-service, self-managing 的平台，管理着超过 1 Exabyte 的数据。公司内部的各个部门可以直接看到处理过的实时数据，并根据需求进一步分析。目前公司超过 30% 的团队，包括工程师、Product Managers、Business Analysts 等多个职位人群每个月都一定会使用这项服务。这个数据处理平台的建立让各个不同部门之间可以通过数据容易地交流，明显改变了公司的运行方式。追溯历史，Facebook 最早有大数据的雏形是在 2005 年，当时是小扎克亲自做的。方法很简单：用 Memcache 和 MySQL 进行数据存储和管理。很快 bug 就显现了，用户量带来数据的急速增大，使用 Memcache 和 MySQL 对 Facebook 的快速开发生命周期（改变 - 修复 - 发布）带来了阻碍，系统同步不一致的情况经常发生。基于这个问题的解决方案是每秒 100 万读操作和几百万写操作的 TAO(“The Associations and Objects”) 分布式数据库，主要解决特定资源过量访问时服务器挂掉的 bug。小扎克在 2013 年第一季度战略时提到的最重点就是公司的大数据方向，还特别提出不对盈利做过多需求，而是要求基于大数据来做好以下三个功能：发布新的广告产品。比如类似好友，管理特定好友和可以提升广告商精确投放的功能。除与Datalogix, Epsilon,Acxiom和BlueKai合作外，以加强广告商定向投放广告的能力。通过收购Atlas Advertising Suite，加强广告商判断数字媒体广告投资回报率（ROI）。 LinkedIn：大数据如何直接支持销售和变现赚钱 LinkedIn 大数据部门的一个重要功用是分析挖掘网站上巨大的用户和雇主信息，并直接用来支持销售并变现。其最核心团队商业分析团队的总监 Simon Zhang 说，现在国内大家都在讨论云，讨论云计算，讨论大数据，讨论大数据平台，但很少有人讲：我如何用数据产生更多价值，通俗点讲，直接赚到钱。但这个问题很重要，因为关系到直接收入。四年半前 LinkedIn 内所有用户的简历里抽取出来大概有 300 万公司信息，作为销售人员不可能给每个公司都打电话，所以问题来了：哪家公司应该打？打了后会是个有用的 call？销售们去问 Simon，他说只有通过数据分析。而这个问题的答案在没有大数据部门之前这些决策都是拍脑袋想象的。 Simon 和当时部门仅有的另外三个同事写出了一个模型后发现：真正买 LinkedIn 服务的人，在决定的那个环节上，其实是一线的产品经理，和用 LinkedIn 在上面猎聘的那些人。但他们做决策后是上面的老板签字，这是一个迷惑项。数据分析结果出来后，他们销售人员改变投放策略，把目标群体放在这些中层的管理人身上，销售转化率瞬间增加了三倍。那时 LinkedIn 才 500 个人，Simon 一个人支持 200 名销售人员。他当时预测谷歌要花 10 个 Million 美金在猎聘这一块上，销售人员说，Simon，这是不可能的事。 “但是数据就是这么显示的，只有可能多不会少。我意识到，一定要流程化这个步骤。” 今天 LinkedIn 的“猎头”这块业务占据了总收入的 60%。是怎么在四年里发展起来的，他透露当时建造这个模型有以下这么几个步骤：分析每个公司它有多少员工。分析这个公司它招了多少人。分析人的位置功能职位级别一切参数，这些都是我们模型里面的各种功能。然后去分析，他们内部有多少HR 员工，有多少负责猎头的人，他们猎头的流失率，他们每天在Linkedin的活动时间是多少。这是 LinkedIn 大数据部门最早做的事情。 Simon 说，公司内部从大数据分析这一个基本项上，可以不断迭代出新产品线 LinkedIn 的三大商业模型是人才解决方案、市场营销解决方案和付费订阅，也是我们传统的三大收入支柱。事实上我们还有一个，也就是第四个商业模型，叫“销售解决方案”，已经在今年 7 月底上线。这是卖给企业级用户的。回到刚才销售例子，LinkedIn 大数据系统是一个牛逼的模型，只需要改动里面一下关键字，或者一个参数，就可以变成另一个产品。“我们希望能帮到企业级用户，让他们在最快的速度里知道谁会想买你的东西。” 虽然这第四个商业模式目前看来对收入的贡献还不多，只占 1%，但 anyway 有着无限的想象空间，公司内部对这个产品期待很高。“我还不能告诉你它的增长率，但这方向代表的是趋势，Linkedin 的 B2B 是一个不用怀疑的大的趋势。”Simon 说。 Google：一个闭环的大数据生态圈作为世界上最大的搜索引擎，Google 和大数据的关系又是怎样的呢？感谢微博上留言的朋友，这可确实是一个很有意思的议题。 Google 在大数据方面的基础产品最早是 2003 年发布的第一个大规模商用分布式文件系统 GFS（Google File System），主要由 MapReduce 和 Big Table 这两部分组成。前者是用于大数据并行计算的软件架构，后者则被认为是现代 NOSQL 数据库的鼻祖。 GFS 为大数据的计算实现提供了可能，现在涌现出的各种文件系统和 NOSQL 数据库不可否认的都受到 Google 这些早期项目的影响。随后 2004 和 2006 年分别发布的 Map Reduce 和 BigTable，奠定了 Google 三大大数据产品基石。这三个产品的发布都是创始人谢尔盖 - 布林和拉里 - 佩奇主导的，这两人都是斯坦福大学的博士，科研的力量渗透到工业界，总是一件很美妙的事。 2011 年，Google 推出了基于 Google 基础架构为客户提供大数据的查询服务和存储服务的 BigQuery，有点类似于 Amazon 的 AWS，虽然目前从市场占有率上看与 AWS 还不在一个数量级，但价格体系更有优势。Google 通过这个迎上了互联网公司拼服务的风潮，让多家第三方服务中集成了 BigQuery 可视化查询工具。抢占了大数据存储和分析的市场。 BigQuery 和 GAE（Google App Engine）等 Google 自有业务服务器构建了一个大数据生态圈，程序创建，数据收集，数据处理和数据分析等形成了闭环。再来看 Google 的产品线，搜索，广告，地图，图像，音乐，视频这些，都是要靠大数据来支撑，根据不同种类数据建立模型进行优化来提升用户体验提升市场占有率的。单独说一下 Google maps，这个全球在移动地图市场拥有超过 40% 的市场占有率的产品，也是美国这边的出行神器。它几乎标示了全球有互联网覆盖的每个角落，对建筑物的 3D 视觉处理也早在去年就完成，这个数据处理的工作量可能是目前最大的了，但这也仅限于数据集中的层面。真正的数据分析和挖掘体现在：输入一个地点时，最近被最多用户采用的路径会被最先推荐给用户。 Google 还把 Google+，Panoramio 和其他 Google 云平台的图片进行了标记和处理，将图片内容和地理位置信息地结合在一起，图像识别和社交系统评分处理后，Google 能够把质量比较高的的图片推送给用户，优化了用户看地图时的视觉感受。大数据为 Google 带来了丰厚的利润，比如在美国你一旦上网就能感觉到时无处不在的 Google 广告（AdSense）。当然，它是一把双刃剑，给站长们带来收入的同时，但如何平衡用户隐私的问题，是大数据处理需要克服的又一个技术难关，或许还需要互联网秩序的进一步完善去支持。像在【上篇】中所说，除 Facebook 等几个很领先的公司外，大部分公司要么还没有自行处理数据的能力。最后附上两个例子，想说这边的大公司没有独立大数据部门也是正常的，采取外包合作是普遍现象： Pinterest： Pinterest 曾尝试自行通过 Amazon EMR 建立数据处理平台，但是因为其稳定性无法控制和数据量增长过快的原因，最终决定改为使用 Qubole 提供的服务。在 Qubole 这个第三方平台上，Pinterest 有能力处理其 0.7 亿用户每天所产生的海量数据，并且能够完成包括 ETL、搜索、ad hoc query 等不同种类的数据处理方式。尽管 Pinterest 也是一个技术性公司，也有足够优秀的工程师来建立数据处理团队，他们依然选择了 Qubole 这样的专业团队来完成数据处理服务。 Nike: 不仅仅硅谷的互联网公司，众多传统企业也逐渐开始使用大数据相关技术。一个典型的例子就是 Nike。Nike 从 2012 年起与 API 服务公司 Apigee 合作，一方面，他们通过 Apigee 的 API 完善公司内部的数据管理系统，让各个部门的数据进行整合，使得公司内部运行更加顺畅、有效率。另一方面，他们也通过 API 开发 Nike Fuel Band 相关的移动产品。更是在 2014 年开启了 Nike+ FuelLab 项目，开放了相关 API，使得众多的开放者可以利用 Nike 所收集的大量数据开发数据分析产品，成功地连接了 Nike 传统的零售业务，新的科技开发，和大数据价值。作者: 曾小苏 Clara 摘自：36氪

数据处理
2014年12月09日
数据处理

众包数据处理，CrowdFlower让你把繁琐的统计工作交给别人提到运算法则，都会联想到制造出海量数据，而我们也经常忽略对这些数据的维护和清理，但这些工作都必须完成，以至于有时候甚至想烧毁报表。CrowdFlower正致力于利用众包来简化这个过程，该公司今天宣布，已经获得总和为1250万美元的资金来完善服务。大数据表面上听起来很棒，每个公司可能都会有一个大规模的销售数字和人员统计数据库。但总是有些数据可能被放置在错误的字段，会出现某些字段是空白，或者信息不完整、不正确的情况。你不能指望机器来解决这些类型的问题。这些问题都需要手动操作。这就是CrowdFlower的意义。它是一个拥有500万人的网络平台，为用户提供清洁数据和组织数据的有偿服务。需要服务的公司在网站上发布工作内容，就会有人按照自己擅长的领域接下相应的工作。 “我们有至少500万人参与其中。”CrowdFlower代言人Kelly Mayes在采访中指出 “其中既有普通的全职妈妈，也有高学位的专业人士。” 服务的项目可以包括搜索相关性优化、数据分类、图像注释、内容审核、情感分析、元数据创建、实时转录等等。公司列出了客户名单，eBay，Edelman，EventBrite，家得宝(Home Depot)，VMWare和Venuelabs均在列。本轮融资是由Canvas Venture Fund发起，参与投资的Bessemer Venture Partners和Trinity Ventures均为已有的投资者。这一次的投资将该公司融资总额提升至2800万美元，将用于帮助公司提高服务质量以及扩大客户群。 “我们五年前成立CrowdFlower，为的就是解决数据科学家们每天痛苦并耗时的数据大战。”首席执行官说卢卡斯Biewald在周三在一份声明中说道。 Source：VB

数据处理
2014年09月26日
数据处理

企业手里有大量数据却无处使用？阿里云想把“数据处理”变成一门生意无论是“小数据”时代还是现在的“大数据”时代，对数据的挖掘、存储、分析和使用从来就不是一件简单的事儿，而且这件事的难度还会随着数据量的增长而变得越来越大。同时，单个企业若是仅仅想要进行数据的存放和处理，去配备一整套Hadoop集群也并不经济。于是，阿里云准备将这件事做成一门生意，帮助企业对他们手中的数据进行存储和分析。不久前，阿里云正式对外公布了一个叫做ODPS的商用服务。ODPS的全称是Open Data Processing Service，也就是开放数据处理服务。企业可以将来自前端的大量数据集中导入到阿里云中存储，这一点类似于亚马逊此前推出的Redshift数据仓库。不仅如此。官方还表示，在这个基础上，阿里云将会开放更多的数据分析服务。目前，ODPS开放了SQL功能，以用于数据仓库和日志分析。这就像是Google此前推出的BigQuery——它可以让开发者可以使用Google的架构来运行SQL语句对超级大的数据库进行操作。同样地，现在企业也可以使用ODPS来对数据进行处理了。在价格和性能方面，ODPS是按照使用量付费的：存储1GB的数据，每个月收取大概0.5元钱左右；阿里云还官方公布了一个数据处理能力供参考：6个小时ODPS可以处理100PB的数据。至于至关重要的商用后的SLA（服务等级协议），ODPS产品经理汤子楠披露了一部分：在技术层面，阿里云承诺放在ODPS中的数据不会泄漏，阿里巴巴和阿里云也不会查看；在服务层面，鉴于不能承诺所有提交的数据处理作业都能计算成功，如果是阿里云方面的原因导致作业失败，那么阿里云则不会收费，而且对于离线作业来说，只对作业成功的那次进行收费。在此前，ODPS一直被应用于阿里内部的业务系统中，一个典型的应用就是阿里小贷公司的审核和放款流程。阿里巴巴的官方数据称，有超过36万人从阿里小贷借款，最小贷款额为1元，并且能够实现3分钟申请、1秒放款、0人工干预。在这些背后，阿里小贷每天需要处理30PB数据，包括店铺等级、收藏、评价等800亿个信息项，运算100多个数据模型……这些都是放在ODPS上存储和分析的。阿里云还表示，淘宝和支付宝等阿里巴巴的部分核心数据业务，也都运行在ODPS平台之上。而在ODPS的产品页面则拿出了阿里巴巴的关联公司天弘基金和众安保险作为案例来进行宣传。从目前来看，ODPS开放的还只是针对大量数据的数据仓库功能，以及部分数据分析服务。但阿里云显然并不想止步于此。你可以把阿里云此前一个叫做“御膳房”的服务看作ODPS未来发展方向的缩影。简单来说，“御膳房”实际上是对淘宝和天猫电商数据的挖掘、存储、分析和服务输出的整套服务。在“御膳房”中，淘宝和天猫平台上的大量电商数据被放到ODPS上进行存储，阿里巴巴还引入了第三方ISV（独立软件开发商）来针对这些数据开发分析工具和模型进行分析，最后他们将分析结果拿到服务市场上去销售给卖家——所谓针对淘宝天猫用户进行的精准广告营销，就是通过这种方法得来的。在ODPS被开放出来之前，“御膳房”完全是阿里巴巴内部的电商平台上生长出来的产物，从数据来源，到数据取向，都是服务于淘宝和天猫平台。而在开放以后，就会有更多类型的企业和数据（包括一些阿里巴巴内部不太擅长处理的非结构化数据）被放在ODPS上，而使用范围也将不仅仅局限于阿里巴巴平台了。用更加直白的语言来解释就是，ODPS此次作为PaaS被开放了出来进行商用，接下来，企业自身、或者借用ISV开发的工具再在ODPS之上进行数据分析，然后使用这些分析结果。不过，ODPS现阶段仍有不少问题。汤子楠坦言，对非结构数据的支持将会是ODPS面临的一大挑战。因为ODPS最早是基于阿里巴巴内部的业务成长起来的，而阿里巴巴分析的数据主要是交易数据和用户行为数据——这些数据大多都是结构化和半结构化的。这决定了，ODPS最初开放的服务面向的也都是结构化数据，比如无人分析、数据仓库、BI（商业智能）分析。而随着更多的企业使用ODPS，一定会有大量非结构化的数据放到这个平台上来，这将会是ODPS接下来要探索的很重要的一个方面。另外则是数据的传输问题。阿里云官方的建议是直接使用ODPS的数据仓库，这样就可以直接调用ODPS之上的分析工具；但如果客户的数据并不存储在阿里云上，也想使用ODPS对数据进行分析，则只能通过API使用https协议传输——这意味着网络传输不得不受到网速的限制。当然，企业还可以选择把数据装进硬盘里，寄给阿里云。【文章来源：pingwest 作者：方荼】

数据处理
2014年07月16日