随着科技的快速发展,互联网已经和人们的生活息息相关,IT技术也在快速的发展。信息化的变革发生在的各行各业,大数据的多样化、快速并且带来大量信息的特征也被各个行业所熟知并努力的去发掘和利用大数据的价值。数据化渗透到社会方方面面。充分正确的认识大数据的优势和劣势,充分利用大数据带来的机遇,才能有效的应对大数据带来的技术上的挑战。
作为一个新兴领域,大数据技术仍在快速迭代之中,新方法、新工具和新模式不断涌现。在大数据日趋瞩目的今天,在研究大数据技术的基础上,分析行业领域大数据的定义内涵、实践范例、发展趋势与面临挑战,有助于我们把握行业领域大数据的整体图景,因应技术发展,推动行业领域的系统化变革。
大数据技术是基于大数据进行模型构建,并进行评价、推荐和预测等具体应用的基础。大数据分析技术在近年得到快速发展,智能化、实时化和易用性成为了分析技术的发展特征。
1.智能化
在分析技术方面,大数据与机器学习相结合形成的新型人工智能,已经成为近年Zui为引人瞩目的趋势。大数据与机器学习正让数据分析在统计分析的基础上,更快速地实现智能关系发现和预测,在海量数据的基础上,以深度学习为代表的创新算法,通过大规模并行计算,不断迭代演化,Zui终形成了能够战胜人类的数据智能。大数据与机器学习整合所实现的人工智能,其意义不限于特定的领域应用,而是实现了一般性人工智能技术的突破。这一突破将在医疗、交通、金融和教育等为代表的各个应用领域产生重大影响。从更为广阔的角度,以智慧城市为代表的智能化系统解决方案,预示着智能化大数据技术综合应用的未来前景。由各类设备和传感器获得的数据,可以成为智能化分析的数据来源。基于大数据的机器学习在完成海量数据汇集与分析的不断演化、提高自身智能水平。数据分析结果驱动智慧城市各个组成部分的智能化活动,基于数据智能的新型技术架构,为未来城市的智慧生活奠定了基础。
2.实时化
实时分析是大数据技术的另一个发展方向。随着大数据技术的深入发展,各类应用对于数据的实时分析和处理的要求不断提高。与针对历史数据的聚合和分析不同,实时数据分析具有更强的时效性,也对数据存储、计算和呈现提出了更高要求。实时性预示着大数据将更深度地融入人们的工作和生活之中,在交通、翻译等需要及时响应的领域中,大数据会体现出更强大的作用。
3.易用性
近年来,随着技术的不断成熟,大数据应用的门槛不断降低。从数据汇集、模型构建到可视化应用方面都提供了高质量的解决方案。易用性为大数据在垂直领域的应用铺平了道路。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,Android,Maemo5,FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。