为数据迷雾开天眼，洞察消费市场秘密

您的位置：首页 >动态 >

为数据迷雾开天眼，洞察消费市场秘密

来源：搜狐 2018-02-12 13:36:02

商场如战场，只有知己知彼，才能立于不败之地。对于竞争对手以及整个市场的洞察，往往决定了一家公司的生死成败，那些煮酒论英雄的商业成功者们也都深谙此道。

然而，知易行难，利用传统的问卷调查等方法洞察市场变化往往是一件非常低效且耗资巨大的事。“用传统方法每做一次市场调研都需要 30 万左右的预算，而一个大的集团每年可能需要做几十次类似的调研，总成本可能飙升到上千万了。而且在时间周期上往往也需要 3-6 个月才能出结果。”

另外，一面数据创始人任栋霓还补充认为调查问卷其实并不准，“调查问卷的结论可能会因调查样本的偏差而失实，比如，在贫民窟和富人区得到的问卷结论绝对是不同的。而且问题的设置也很难，很难让大家能够毫无保留地说出自己的心里话。”

显然，市场需要更加低成本且高效、准确的替代方案，而人工智能+大数据便是目前公认的解决此问题的最好方法。利用人工智能+大数据的方法做商业洞察，这显然是一个巨大的市场，而嗅到这个商机的企业也相当多，比如玻森数据、数据威、Clavis Insight 等，而一面数据便是其中一家起步比较早的入局者。

扎根消费领域，解决实际问题

创业从来都不是一件易事。首先要找到行业痛点，其次，也是最重要的，要找到能够解决这个问题的方法。

“行业内 90% 的公司都会选择基于自己的技术，然后去做通用的、跨行业的解决方案。而我们则选择了一条更垂直的道路——消费品领域，具体包括快消、鞋服、汽车等。”任栋霓表示他之所以如此选择，主要看重两点：

首先，需求大。“消费品领域是一个节奏非常快、竞争特别剧烈的领域。”消费品领域企业急需通过市场洞察了解行业变化趋势，并以此调整企业的生产规划。其次，数据多。光有市场也不行，如果没有足够的数据拿来进行大数据分析，那一切也是白搭，正好，“消费品领域沉淀下来了非常丰富的数据。”因此，任栋霓认为消费品领域才是大数据分析最容易产生价值的领域。于是，2014 年，曾就职于腾讯、华为诺亚方舟研究院(香港)、快播等企业的任栋霓绝对创业成立一面数据，据了解，这是一家旨在利用大数据与 AI 技术为消费品行业提供市场洞察服务的科技公司。

一面数据通过机器自动采集电商、社交、直播等多种类型的公开信息和数据(包括产品的描述、售价、销量、用户的评论等)，与第一方数据(企业内部沉睡的用户行为、订单、物流、标签等)以及第三方的数据进行融合，分析处理得到实时的商业信号洞察，进一步实现数据驱动的智能决策。

首先，让企业知道市场上的同行以及整个行业都在发生什么事情。

“比如我们可以告诉巧克力企业，2017 年销量上升最快的巧克力口味其实是榴莲口味，上升最快的巧克力子品类是生巧克力，我们还能告诉企业到底是什么样的品牌或爆款商品主导了该品类的销量。”

其次，当客户知道了市场上发生了什么之后，一面数据还通过数据分析告诉企业应该怎么优化自己的业务，包括广告的投放、产品的迭代等。

比如，现在很多电商都是将最好卖的商品放在最显眼的地方，其余商品则按销量依次排序。然而，在任栋霓看来，这些完全依靠个人经验的摆放方案可能并不是效率最高的，为此，任栋霓找到了替代方案。“采集到所有相关数据后，我们就可以从历史数据中知道不同摆放之间的差异性，从而找到最佳的摆放方案。”而且，从这些数据中，任栋霓认为还可以找到“摆放位置与营销等怎么互动才可以增加营收”的关键信息。而这些数据都有助于企业根据市场变化及时优化自己的业务。

“类似的事情其实都是可以通过数据驱动的方法来做，以取代传统需要凭借经验或者拍脑袋做的事情。”任栋霓如此表示。

据了解，这也是传统市场调研试图解决的问题。但任栋霓表示一面数据的方法已经将市场洞察的费用降低到了传统方法的 10%-30% 左右，而且出结果的时间再也不用几个月了，“现在只需要花一周左右的时间清洗数据，之后每天都可以看见实时地数据了。”另外，任栋霓还表示传统消费者研究的方法往往只能得到 3-5 个维度的用户反馈数据，而利用自然语言处理和数据科学可以覆盖传统方法 80% 覆盖不到的领域

技术员面对海量数据，如同水手面对沧海

据任栋霓介绍，要想做出一个好的数据分析产品，关键就在于数据的收集和数据的处理，二者虽然在原理上并不难，然而一碰到庞大的数据量，那难度便直线上升了。

首先是数据收集，“爬虫本身没有什么难点，但难就难在你每天要去采集几十万个品牌，几亿个产品的数据，而且还要保证数据的准确性与完备性。”任栋霓表示他们每天就要采集 300G 到 500G 的数据，同时还要实时地将这些数据进行清洗，并跟历史数据做融合，巨大的运算量让数据的收集和清理混合都相当困难。

“而在清洗过程中，另一个困难就是如何让机器理解非结构化的文本数据。”任栋霓表示，在收集到数据之后，一面数据还需要利用机器自动地将话题、关键词等从非结构化数据中提取出来，并判断这句话是正面、负面还是中性等情感。然而，“自然语言理解在通用场景下准确率低，这是目前整个行业的难题。没有任何一个系统能够在通用环境下理解所有的对话，而这也是目前各种虚拟助手、问答机器人看起来很傻的原因。”

“不管是爬虫还是数据分析，在技术上其实都不难，但随着数据量越来越大，处理起来却会越来越复杂，比如就几行数据的时候，我们用 excel 就可以处理了，而数据几亿行时，那就需要依靠大数据平台、依靠专门的服务器了。”任栋霓如此表示。

然而，尽管如此，一面数据还是克服了这些难题，据任栋霓介绍，经过多年的语料积累和模型优化之后，一面数据已经实现了 93% 的语意识别准确率，召回率更是达到了 90%。并得到了全球前 10 消费品品牌中的 5 家的青睐。