大数据市场乱象 用人工智能讲故事 低质虚假数据大量倒卖

服务机器人 2025-01-19 13:24www.robotxin.com女性服务机器人

自大数据行业崭露头角以来,它似乎并未受到资本寒冬的丝毫影响。据第一财经记者从投中网获悉的数据,仅今年4月以来,大数据领域已有7家公司成功获得融资,其中4家国外公司、3家国内公司,总金额高达约11亿元人民币。这种繁荣景象早已延续至2016年,仅上半年就有22家大数据相关企业获得了融资,覆盖了从天使轮到C轮各阶段。

随着资本的蜂拥而入,大数据创业公司纷纷崭露头角,部分公司的估值更是水涨船高,似乎只要与大数据挂钩,公司估值就能轻松翻倍。例如上海斯睿德信息技术有限公司,近期获得了东方海富领投的数千万元融资,而在过去的18个月内,它已经成功完成了三轮融资。另一家名为鼎复数据的大数据公司,虽然成立于2015年8月,但在短短一年多时间内也完成了两轮共计1.07亿元的融资。

针对这一现象,上海斯睿德信息技术有限公司的CEO赵杰在接受第一财经采访时表示,大数据公司受资本追捧的本质在于“物以稀为贵”。尽管目前国内大数据企业的融资速度和频率都在增加,但真正能够成功融资的企业其实并不多。那些仅仅依靠人工智能讲故事、单纯拥有海量数据而不具备实际应用的公司在资本市场上很难获得青睐。

在人工智能的热潮下,各家大数据公司在宣传中纷纷提及人工智能的身影。但实际上,人工智能并非遥不可及的技术。赵杰指出,过去十年在大数据的推动下,深度学习、自然语言处理等技术得到了快速发展,为人工智能的崛起奠定了基础。如何将现有技术转化为实际产品,充分挖掘数据资源,帮助企业用户更高效、低成本地解决风控问题,才是我们努力的方向。

机器学习作为人工智能的重要组成部分,在实际应用中发挥着重要作用。以信用风险评估为例,机器学习通过处理海量数据,建立模型,自主识别数据的特征维度。例如,在贷款或信用卡申请场景中,系统可以根据申请人的学历、收入水平、婚姻状况、过往信贷记录等多个维度自动判断其信用状况。机器学习并非万能,对于未曾学习过的数据,机器可能无法做出正确的判断。

人工智能领域的“高大上”名词如神经网络、决策树、随机森林等,实际上都是经过长期研究和应用的多元数学统计方法。赵杰表示,这些技术早在过去就被应用于物理学、力学以及工业领域,只是因为近年来大数据市场的火爆才被带入公众视野。

团队成员的国际背景常常被用作宣传人工智能的另一大亮点。在赵杰看来,掌握国际先进算法技术固然重要,但更重要的是将这些技术与国内实际情况相结合,提供符合国内应用场景的解决方案。

廖辰瀚博士,棱镜大数据研究院的首席科学家,对此也有深刻的理解。他强调:“好数据能打败好算法。”在实际应用中,获取和处理数据所花费的精力远超过人工智能建模。人工智能在风控和模型中的应用首先在于自动化获取和提炼数据,然后才能使用机器学习的算法将信息进行关联。

对于大数据公司而言,拥有高质量的数据才是根本。赵杰指出,大数据市场目前面临的一个主要困扰是,众多公司纷纷宣称拥有亿级数据规模,却常常忽视数据质量的重要性。这一现象得到了征信业内人士的证实。在近两年的观察中,真正拥有高质量数据并且具备数据分析和产品研发能力的公司数量非常有限。

市场上的许多所谓的大数据公司,实则只是通过倒卖数据赚取差价的中间商。这些公司的数据来源众多,其中不少来自于数据黑市。数据贩子们由于缺乏加工能力,往往会掌握某些数据源,然后直接贩卖未经加工的原始数据。由于这类数据不断更新,过期数据与新鲜数据混杂其中,经过简单的修改就能形成全新的数据库,以供反复贩卖。

征信业内人士进一步透露,这些被贩卖的数据中,既有合法数据也有违法数据。线上消费、网银、POS机、信用卡、运营商甚至是工商的数据都被贩卖。除了企业打包销售的数据,还有企业内部人员与外部人员勾结共同倒卖数据的情况,甚至包括一些大型互联网企业也在其中。

据相关知情人士透露,数据贩子所贩卖的数据大多为脏数据。为了增加数据量,这些数据中仅有约三成的真实性,其余七成则是为了充量而制造的虚假数据。赵杰强调:“如果底层数据都是虚假或不准确的,那么再先进的分析模型也无法得出正确的结果。”

Maxent猛犸反欺诈CEO张克在接受第一财经采访时也曾表示,拥有优势的企业一定是掌握了流量的公司。因为线上数据的来源都依赖于线上流量,没有流量就没有可靠的数据源。单纯地依靠买卖数据是行不通的,这只是在表面层面进行包装而已。当前重要的是寻找那些真正拥有高质量数据并具备分析能力的企业合作,以确保数据的真实性和准确性。

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by