• 199IT
    注意!大数据的九个大教训 【文章作者:Dink】 昨天和今天我参加了俄亥俄州立大学的“大数据未来研讨会”。俄亥俄州正在与IBM公司合作在当地创建一个大数据中心,逐渐成为该领域的一个重要学术力量。本次研讨会汇聚了来自全国各地的专家和一名来自英国的专家,就该领域当前的成就、趋势和话题进行一次卓有成效的探讨。很遗憾我没能参加今天下午的展示会,但大家可以在会议官网和即将出版的《信息社会的法律和政策》杂志(AJournalofLawandPolicyfortheInformationSociety)上了解更多详情。     大数据和开放数据不是一回事,但他们有着密切的联系(正如我在主题发言稿“未来的大数据将会开放到什么程度?”上写到的)。我们正在关注的大数据一些趋势和话题与开放数据也有关系。按照这样的脉络,就出炉了这篇我在去哥伦布的路上学到的《了解大数据的九件事》。在研讨会的官网上可以看到我用黑体标注的人们的名字。     为大数据的激烈反应做好准备。很多演讲者提到了“大数据过分渲染宣传”的话题,认为大数据被讨论得如此热烈,以至于我们现在可以进入一个反应性的循环。MikeNelson对他在公开场合看到的逐渐出现的“垃圾数据”提出了责难,甚至建议我们应该重新命名大数据,它可以有一个“大兄弟”–就像很多人一样。他建议改名为:BFFMUDD,是大(Big)、肥(Fat)、快(Fast)、乱(Messy)、非结构化(Unstructured)、分布式数据(DistributedData)的缩写。     意识到“大数据的狂妄自大”。好几位演讲者引用了一份新报告,报告显示,“Google流感趋势”–大数据预测价值的首批大范例之一–被证明非常不准确。显然,Google可能自作聪明地以一种错误的方式调整了其算法。不管什么样的错误,这都是个教训,表明如果不着眼于更广阔的图景,而只是试图通过碾碎数据来发现真相,通常情况下无法获得预期效果。     数据不能代替判断。数据,尤其大数据是可以帮助人类做出决策的工具,但不能起到代替的作用。RayHarishankar是这样说的:“数据加上分析是信息,信息加上语境可以提供洞察力,洞察力必定能导向正确的行动,正确的行动则带来提升价值的结果”。     相关关系不能强过理论。一些大数据的倡导者认为大数据几乎让理论变得多余:他们说,有了足够的数据,即使没有理论说明其原因,我们也可以发现很多重要和有益的模式和趋势。确实,简单的相关关系在一定程度上就可以驱动精确的预测。但即便是具备预测分析的能力,也并不意味着你就能真正地理解你正在研习的系统是如何运行的。EytanAdar建议我们审视大数据范围从预测性到解释性的所有相关努力,并且更多地关注如何理解我们所看到的东西,而不是仅仅关注可预测未来的模式。     大数据正在-冒着风险–追踪一个“移动” 社会。在全球范围,移动设备都已经成为人类的首选在线连接工具。FarnamJahanian指出到2015年全球移动设备的数量将是人口数量的两倍,所有的设备都可以发送位置信息和其它数据给能够收集这些数据的公司。这将成为未来社会大数据的主要来源之一。但KateCrawford?指出了这里的隐私风险:由于人类移动行为模式的独特性,你可以仅用3-4个手机生成的数据点就能识别一个人。     大数据能帮助–或者损害城市的民主体制。正如HarveyMiller所说,通过手机数据、远程环境感应器、激光生成的航空地图和更多工具来追踪城市活动的能力,可以给我们创造拥有更高代谢功能的超级协调城市。(遗憾的是,我不得不在MichaelBatty关于城市分析的主题演讲之前离开,不过他在个人网站上提供了演讲内容)但是,KateCrawford在这里再次提出了警告。如果我们不小心,城市数据收集就会不对称地帮助富人而伤害穷人。     比如,波士顿的StreetBumpAPP应用通过追踪智能手机的摆动状态来收集坑洼里的数据,用志愿者的数据来反映一条道路的颠簸不平。但大多数智能手机的拥有者都属于生活富裕的人群,以至于最初是在更富有的地区监测和修复坑洼–这是StreetBump目前正在致力于修正的难题。在相反的另一面,“预测监控”正在被用于将警察管制实施于预测将会有高犯罪率的地区,这将导致歧视性的执法。     隐私仍然事关要紧。忘掉那些宣称公众,尤其是年轻人已经放弃隐私的报告吧。我们仍然关心隐私问题,只是不知道该怎么做。这里有两个考虑因素:我们想知道政府机构或数据跟踪公司收集到了哪些关于我们的数据信息,以及如果我们不喜欢,则想让他们停止收集。关于如何解决这些考虑因素还不是很清晰。会上的一些发言者建议采用简单的解决方案:让政府和公司对它们正在收集的数据更公开透明,这是一些人称之为“互相确认的公开”的方法。但是一个长期的透明度倡导者GaryBass说,这个建议的解决方案“不是真实的世界。在过去的30年里,我拼命地斗争让数据变得可获取,而政府和公司则拼命地让数据不可获取……这是一场旷日持久的斗争”。正如其他人所说,这里的风险在于我们可能增强了数据收集者和被收集者之间的力量不对称性。     大数据应当展现数据之美。数据可视化方面的迅速进步正在创造一些美轮美奂的效果。比如,看一看这部“体验自行车人流”的视频,逐渐解析伦敦自行车交通的数据,展示俄亥俄州超级计算机中心最清晰的模式和部分已经完成的可视化作品。类似这样的数据可视化并不仅仅关乎美学,而是与理解息息相关。IBM公司的一位数据可视化专家AngelaShen-Hsieh谈到人们需要使数据更加“适合人类消费”,以及关注从计算机屏幕到人脑的信息传递旅程中的“最后18英寸”。     大数据将(很有可能)产生大价值。抛开所有的警告不管,大数据中有很多社会价值和经济价值可以发掘。麦肯锡几年前一份具有里程碑意义的大数据报告预测它将撬动数万亿美元的经济价值。这项研究的联合作者,微软公司的AngelaByers?今天说到,也许仍需要5-10年时间才能产生这样的价值,部分原因是我们仍然面临一个重要的技能鸿沟:即可获得的数据数量和清楚如何利用这些数据的人的数量之间存在的差距。但是经济价值正在逐步显现,并且以某种令人惊异的方式呈现。JohanBollen和他的团队成员运用Twitter上的大数据情感分析来预测股票市场:他们计算Twitter上的“镇静”情绪来预测道琼斯指数三天后的收盘点位。   文章来源:199it    
    199IT
    2014年05月07日
  • 199IT
    小企业如何玩转社交媒体–信息图 【文章来源:199it】 小企业正成为经济增长的推动力,10个工作岗位中有6个来自小企业,而9/10的小企业正在或准备使用社交媒体。让我们来看看他们如何以及为什么使用社交媒体。其实除了利用社交媒体内容营销,学习外,招聘也应是纳入重点的。
    199IT
    2014年05月05日
  • 199IT
    大数据调查,趋势将会如何?——信息图 【图片来自:云图网】 查:据国外商业智能软件开发公司Jaspersoft调查,投资在大数据上的规划和资金都在逐年上升,36%的人有投资大数据的计划,大数据前景大好,最受欢迎的大数据类型是CRM,金融领域和电子商务。
    199IT
    2014年05月04日
  • 199IT
    HR,对于社交媒体,你知道如何根据其生命周期协助工作吗? 【图片来源于:199IT】 目前,社交媒体可谓是红火。对于企业,社交媒体也逐渐出现了它的身影。企业营销,企业内部协作,以及HR们通过社交媒体进行招聘,进行人才库的储备等等,都渐渐离不开社交媒体。 其实,HR们在利用社交媒体平台,诸如:微博,微信公众号,Facebook,推特,LinkedIn等等进行招聘时,就是对公司形象的一种树立以及营销。昨天,我们给大家介绍了一篇文章《招聘官:行动起来 构建人才网络》,是教我们的HR们如何构建人才网络的。今天,我们就来用一张图片来讲讲社交媒体的生命周期,社交媒体对于HR们到底有何作用呢?我们该如何维护好它呢?
    199IT
    2014年04月30日
  • 199IT
    CNNIC:政府人事部门网站在网络招聘中的角色 【文章来源:199it】 政府人事部门网站是政府部门、事业单位等公共组织机构发布招聘信息的重要平台。选择多种网络求职招聘方式的被调查者与仅选择政府人事部门网站的被调查者对其均给出很高的有效性评价。作为网络求职招聘领域四分格局的掌门人之一,政府人事部门网站以何优势PK其他网络求职招聘平台呢?   首先,平台公信力、信息权威性是地方政府人事部门网站深得民心的最大优势。从公共组织机构招聘需求的发布到招聘结果的公示,已逐步实现政务信息平台的建设及维护。网民在政府人事部门网站可获取政策法规、招聘、职业考试、社会保险、工作档案等综合信息,并可自行查询。就全国范围考察,各地政府人事部门网站发展水平参差不齐,也存在信息滞后、信息闭塞、运营不足、形式杂乱等问题。鉴于政务信息涵盖面广、人事信息保密程度高等原因,政府人事部门网站打造一站式的综合服务型功能是一项艰巨工程。 其次,政务微博已成为一种发展趋势,借助社会化平台的人事招聘已显现。多样化的微博受众所带来的社会化效应在各类重大事件中已有体现,公共组织机构吸收贤才的需求可在微博平台信息来源多、传播范围广、互动关系强的基因上改造实现。一方面,从机构名称、头像、简介明确确立政务微博身份,实现政府人事部门网站与其政务微博的良性互通;另一方面,在政务信息发布的基础上做好自下而上的信息采集,避免流于形式化的广播。 综合而言,政府人事部门网站是网络求职招聘领域的重要平台,即不同于专业招聘网站范围过广的用户及信息来源,也不同于基于人际关系的社会化互联网应用。中国互联网络信息中心分析师阿丽艳认为,政府人事部门网站在网络求职招聘领域主要以精准为主线,坚持公信力、权威性的基础上把握信息发布、更新的及时性,借助政务微博扩大信息受众范围,提高信息在流动中产生价值的再生产力,打造“以人为本的信息化服务型”政府人事部门网站。    
    199IT
    2014年04月29日
  • 199IT
    “在线教育”的AB面—信息图 【文章来源:199it】 在线教育项目的定位、模式相当多元化,然而现有的在线教育发展并不均衡。尽管平台极不好做,但对创业者来说仍是前仆后继的诱惑,不少创业者们用所谓的互联网思维在改造原有的在线教育产品。那么,他们究竟做得怎么样呢?
    199IT
    2014年04月29日
  • 199IT
    CNNIC:社会化招聘,真的规模化了吗? 【文章来源:199it】 百度百科对社会化招聘的定义是指利用社会化媒体开展招聘工作,国外的代表性网站包括LinkedIn,Facebook,Twitter。随着国内微博、社交网站等互联网应用的发展,求职招聘逐渐向这些社会化平台迁徙。所谓的“社会化招聘”是否真的已形成规模化发展态势?   不同于百度百科定义的“社会化招聘”,除微博、社交网站之外,我将综合信息平台也列入社会化招聘范畴。调查数据显示,在综合信息平台关注过招聘信息的被调查者群体占比较高。排除各类互联网应用的受众偏差等因素,为什么基于人际关系的微博、社交网站未能在求职招聘方面赢得网民更多青睐?   一方面,虽然微博、社交网站的渗透率及黏性不低,但是,对于大多数网民来讲,互联网的工具性多过于学术性,他们不会去深究同质不同类应用的价值差异,即使存在比较,他们只会选择适合自己的工具。“社会化招聘”更多地是研究者贴上的标签,用户更关心的是通过什么途径找到自己想要的信息。在他们看来,垂直求职招聘网站是专业的,微博、微信、SNS只是出现一个新功能,让网民熟知“社会化招聘”还需时间。另一方面,“吃穿住行”等生活服务信息的“裙带关系”为综合信息平台的求职招聘带来不少用户流量,比起缺少专业性更让网民担忧的是信息真实性,开放程度过高带来的是信息泛滥。网民对综合信息平台的求职招聘评价倒数第二也不足为奇(见图2)。   基于人际关系网络的微博、微信、社交网站的求职招聘,既得益于人脉,却也受其限制。如果说人际关系是一场“圈地运动”,那么必然会产生不平等的阶级关系,求职招聘往往难以广而告之。重合度较高的强关系中,信息的排他性或许会使求职招聘演化为“信息保卫战”。规避特定人际关系圈的个人隐私保护心理,也会让怦然心动的人们只看不说不敢做。信息真实性、安全性为优先考虑因素的被调查者对传统网络招聘方式的有效性评价远高于社会化互联网平台。中国互联网络信息中心分析师阿丽艳认为,将微博、社交网站的求职招聘功能定义为“社会化招聘”或许过早。“社会化”只能说是互联网平台的特点,以真实、安全、隐私保护为保障的基础上,如何实现社会人在社会化平台中的社会化问题或许才是“社会化招聘”的关键因素。“量变”到“质变”,社会化招聘的这条路还很远。    
    199IT
    2014年04月28日
  • 199IT
    大数据流程处理“三要”“三不要” 大数据时代处理数据的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。 具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。 大数据时代处理之一:采集 大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。 在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。 大数据时代处理之二:导入/预处理 虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。 导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。 大数据时代处理之三:统计/分析 统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。 统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。 大数据时代处理之四:挖掘 与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。 整个大数据大数据时代处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。 【文章来源:199IT】
    199IT
    2014年04月14日
  • 1234