CTOCIO IT专家网

天极传媒 比特网 | 天极网 | IT专家网 | IT商网 | 52PK游戏网 | 手机天极 | IT分众 |
IT专家网搜索

数据库 | Oracle | DB2 | SQL Server | MySQL | 商业智能 | BI | DBA | Sybase| SQL Server 2008

如何处理非结构化数据

作者: cyw,  出处:IT专家网, 责任编辑: 李书琴, 
2008-04-08 08:07
  非结构化数据已经存在相当长一段时间了,它出现的时间比计算机诞生的时间还要早。不过,要说揭开保存在这些非结构化数据里的宝贵信息的秘密,就算是用现在已经非常成熟的搜索引擎,也还没有得到什么理想效果。为什么会这样呢?

  【IT专家网独家】现代社会最不缺少的就是信息,而你的服务器里可能已经充满了信息。问题是,要怎么处理这些信息。

  非结构化数据已经存在相当长一段时间了,它出现的时间比计算机诞生的时间还要早。像古埃及的象形文字(升体书)、流传已久的各大宗教经文等等,都早在芯片出现以前就有了。而搜索引擎同样也存在了相当长一段,虽然没有印刷文字的历史那么久远。不过,要说揭开保存在这些非结构化数据里的宝贵信息的秘密,就算是用现在已经非常成熟的搜索引擎,也还没有得到什么理想效果。为什么会这样呢?

  进去的是垃圾,出来的必是废物(Garbage In, Garbage Out)

  对搜索引擎而言,要解开非结构化数据中真正有用的东西,还缺乏一个重要的因素。为了让大家容易理解这个欠缺的因素,这里引用一下IT界里的一句明言“Garbage In, Garbage Out”,简称GIGO,类似于“种瓜得瓜,种豆得豆”的意思,也就是说如果你输入到计算机里的是一些乱七八糟的无用信息,那么计算机输出的结果也是无用的废品,也代表了信息技术最难解决的问题之一,体现了对数据质量的要求。当我们用一个强大的搜索引擎来对基本上未经净化、未经清洗、未经集成的文本数据进行搜索时,会出现什么结果呢?就如上面的明言所示,搜索引擎最后返回给终端用户的结果也是未经清洗和集成的。

  为了使文本搜索变得真正有意义,在执行搜索操作之前,必须把需要对其进行搜索的文本进行集成。如果完成了集成的步骤,那么你输进去的就不再是“垃圾”,而出来的也就不再是“废物”了。

  互联网对垒企业数据

  在互联网上搜索信息的时候,要进行数据清洗(data scrubbing)很难。试图清洗和集成遍布在互联网上的数据基本上是徒劳无益之举,就跟要把整个太平洋的水倒出来的难度差不多。

  但对于企业数据来说,又是另一回事了,原因有二。首先,涉及到企业数据的话,数据量就很有限了——相对于几乎无限的互联网数据而言。其二,和互联网数据不同,几乎所有的企业数据都是和企业的业务相关的。保守而言,互联网上只有很小一部分数据是和任一企业的业务相关的,即使是像IBM这样的规模庞大,经营业务繁杂的企业。

  因此,集成企业的文本数据,或者说为了搜索和分析而对这些数据进行预处理,其实现的可能性就非常大。

  什么样的数据需要集成?

  那么什么样的企业数据才需要进行集成呢?只要用户能想象得到的都可以进行集成,基本上对数据类型没有什么限制。下面为大家列举一些和明显可以进行集成的企业数据类型:

  1)客户资料——与客户沟通有关的数据

  2)安全数据——与事故、检修、维护、授权及其他安全相关的数据

  3)合同数据——与企业具体的合同相关的数据

  4)举证数据——与诉讼过程相关的数据

  5)法规数据——与敏感的企业事件和交易等相关的描述

  数据集成的好处

  集成企业文本数据的重要好处之一就是,这些数据一旦被集成了,就可以输入到数据库被重复使用。换言之,只需要对企业文本数据进行一次集成,就可以被重复用于搜索和分析操作,不管重复利用多好次都没问题。

共2页。 1 2 :

网友评论

笔名 
请您注意:遵守国家有关法律、法规,尊重网上道德,承担一切因您的行为而直接或间接引起的法律责任。    IT专家网友拥有管理笔名和留言的一切权利。
  • 周排行榜
  • 月排行榜

邮件订阅


    
天极服务 | 关于我们 | 网站律师 | 加入我们 | 联系我们 | 广告业务 | 友情链接 | 我要挑错
All Rights Reserved, Copyright 2004-2008, Ctocio.com.cn
渝ICP证B2-20030003号 如有意见请与我们联系 powered by 天极内容管理平台CMS4i