摘 要:DT时代,最重要的是"大数据"。目前,大数据开发和应用正如火如荼地开展,然而真正实现落地的项目并不多见。大数据现在只呈现的是一个研究热点,迫切需要一种技术实现大数据精准开发应用。该文通过导入大数据概念,解释大数据包含的二元概念,分析"大统计"与"大数据"的区别,引出大数据技术之一"数据标识"方法与应用,用以标识人类行为数据和医学大数据开发应用的方法,文章进一步阐明"数据标识"的科学性和准确性,为大数据开发应用指引道路。大数据是人类行为轨迹生产出来的数据资源,大数据是关于人的研究,由于物理人体的边界清晰,医学大数据应用或将早于人类行为数据应用的成功,未来的人工智能离人们不再遥远。
关键词:大数据 大数据技术 医学大数据 数据标识 精准营销
中图分类号:TP39 文献标识码:A 文章编号:1672-3791(2016)09(a)-0011-02
目前大数据应用还处在启蒙和探索阶段,能够成功落地的项目不多。大数据是一种以数据为资源的高科技,数据在大数据中的地位相当重要,其一,拥有资源数据本身就是不容易做到的事情;其二,拥有资源数据还要有使用数据的想法、数据目标和数据技术。能够拥有以上所述中的一点已经很难了,大数据项目落地则需要拥有以上两点,这可能也是大数据项目目前落地少的原因。需要第一点大数据资源数据的各单位有其各自的解决办法,这里不讨论获得数据的方法,只谈谈第二点中大数据准确应用的一些方法。
大数据是人类发展的第五个阶段,第一个阶段:农耕时代;第二个阶段:工业时代;第三个阶段:电汽时代;第四个阶段:IT时代;第五个阶段:DT时代;第六个阶段:AI时代-人工智能。梳理一下人类发展的进程可以看出,人类的发展是由人力的简单粗放开始,逐渐发展为机器代替体力,精细的电汽文明逐渐代替简单粗放工作,解放了人类的双手,随后计算机的发展代替了人脑部分功能,人类进入了IT时代。简单看以上人类发展进程:人类科技的发展是由简单粗放到精细准确,由机器代替人工的进程。进入DT时代的大数据技术应该是更精确、更高级的技术,数字是最精准的表达方式,数字集合出来的数据也应该是最精准的表达方式,事实上不是这样简单。
由大量数字或是数据进行运算,可以得到精确结果的方法是统计学,应该叫做大统计比较好,不是大数据。
人类科技发展是向着更精准、更智能化的方向发展,DT时代的大数据是可以满足人类更精准和更智能化的需求。前面提到目前大数据落地项目少,尤其能够产生价值的项目少,归纳为不能很好地使用大数据是相当重要的原因,大数据是数据在模型中准确应用的科学技术。好的模型制作相当重要,但数据的理解也非常重要。理解好大数据中的数据才能很好地使用数据,才能做好大数据。在《大数据及其应用前景研究》中笔者写到过数据的理解是每个人的知识水平决定的。理解好大数据的数据还要掌握如何使用数据的技术,这种使用数据的技术是需要把数据精准地放入大数据模型上在计算机中运行,输入精准数据才能有精准运算结果,做到数据精准使用必须学会"数据标识"。
"数据标识"是笔者在做医信天下医学大数据医院排行榜的思考和心得,这里同大家分享和探讨。"数据标识"的方法是笔者在中国医学科学院医学信息所做医学数据库工作方法的延伸。查阅资料没有查到有关如何做好"数据标识"的文献。先介绍一下初期医学数据库建设的方法,这样可能有助于更好地理解"数据标识"原理、概念、依据和使用方法。