八月瓜首页 > 专利查询 > >正文

利用记录所得的地址记录更新地址数据库的设备和方法

基本信息

  • 申请号 CN00810009.8 
  • 公开号 CN1360524A 
  • 申请日 2000/07/05 
  • 公开日 2002/07/24 
  • 申请人 PTT邮政资产公司  
  • 优先权日期  
  • 发明人 彼得·克里斯托弗·伯泽伊简 迪克·勃兰特 艾里克·威廉姆斯·希勒斯·范韦斯特 伯洛克 马尔科·赫拉尔杜斯·范德维尔 弗兰克·奥克·诺塔 海拉内斯·伊丽莎白·鲁道夫·弗林斯 佩特鲁斯·阿德里内斯·布鲁吉斯  
  • 主分类号  
  • 申请人地址 荷兰海牙 
  • 分类号  
  • 专利代理机构 永新专利商标代理有限公司 
  • 当前专利状态 发明专利申请公布 
  • 代理人 韩宏 
  • 有效性 期限届满 
  • 法律状态 【期限届满】
  •  

摘要

对含有记录所得的地址记录的数据库存储器(44),更新其中地址数据库的设备和方法采用如下步骤:接受和处理邮件所示的地址数据;存储该地址数据;根据预先定义的准则确定该地址数据的品质等级;将该地址数据与存储在数据库存储器(44)中的地址记录相比较;根据该地址数据的品质等级以及与储存的地址记录的比较结果来更新数据库存储器(44)中的内容。
展开

权利要求书

1、一种利用记录所得的地址记录更新地址数据库的设备,包括: ·至少一个处理器(14、15、42),它接受和处理邮件所示的地 址数据; ·一个存储地址数据的存储器(22),它连接到至少一个处理器 (14、15、42); ·一个数据库存储器(44),它连接到至少一个处理器(14、15、 42),并包含存储在其中的地址数据库; 其特征为 至少安装一个处理器(14、15、42)来根据预先定义的准则为地 址数据确定品质等级,将该地址数据与数据库存储器(44)中存储的 地址记录相比较,根据该地址数据的品质等级以及地址数据与存储的 地址记录的比较结果来更新数据库存储器(44)中的内容。

2.符合权利要求1的设备,其中至少安装一个处理器来确定地 址数据识别的可靠性等级,并部分地依据该识别可靠性等级来确定品 质等级。

3.符合权利要求1或2的设备,其中至少安装一个处理器从地 址数据中选出各名称行,按预先定义的规则将这些名称行分离为单个 元素,并部分地依据这些名称行的选择和它们的分离来确定品质等 级。

4.符合权利要求3的设备,进一步包括存储的常用名称,其中 至少安装一个处理器将这些名称行的单个元素与常用名称比较,据此 确定常用性评分,并部分地依据常用性评分来确定品质等级。

5.符合权利要求3或4的设备,其中至少安装一个处理器以便 从这些名称行获得某个收件人的名称,从地址数据获得该收件人的地 址,从地址数据库读取居住在该地址的人员的登记姓名,将它们与收 件人姓名比较,并根据这一比较确定每个登记姓名的比较评分,某个 比较评分越高,收件人姓名和各自的登记姓名的符合程度越高。

6.符合权利要求5的设备,其中至少安装一个处理器以在该比 较评分较低且品质等级较高时将该地址数据认定为新数据。

7.符合权利要求5或6的设备,其中至少安装一个处理器以在 该比较评分较高且品质等级也较高时将该地址数据认定为已知数据。

8.符合权利要求5、6、7中之一的设备,其中至少安装一个处 理器以在该比较评分较低且品质等级也较低时将该地址数据认定为未 知数据。

9.符合权利要求6至8中之一的设备,其中至少安装一个处理 器,以便如果该地址是新的,它能产生一个附加的包含该地址数据的 地址记录。

10.符合权利要求9的设备,其中至少安装一个处理器能对每一 个地址记录记载如下4个状态之一: ·如果该地址记录是生成的,则记为新状态; ·如果有关地址数据来自不同的寄件人,则记为常用状态; ·如果有关地址数据有规律地被重新读取,则记为可靠状态; ·如果地址记录失效,则记为旧状态;
11.符合上述权利要求之一的设备,其中地址数据库被保密存储, 使得存储在中央数据库中的数据只能通过预先定义的规则处理,或者 存储在中央数据库中的某些数据能够通过预先定义的某个外部路径存 取。

12.符合上述权利要求之一的设备,进一步包括使用地址数据库 自动分拣邮件(1)的邮政分拣单元(26、28)。

13.一种利用记录所得的地址记录更新数据库存储器(44)中地 址数据库的方法包括: ·接受和处理邮件所示的地址数据; ·分拣该地址数据; 其特征为 根据预先定义的准则确定该地址数据的品质等级,将该地址数据 与存储在中央数据库(44)中的数据记录比较并根据该地址数据的品 质等级以及地址数据与存储的地址记录的比较结果来更新数据库存储 器(44)的内容。

14.符合权利要求13的方法,包括确定地址数据识别的可靠性 等级,并部分地依据该识别可靠性等级来确定品质等级的步骤。

15.符合权利要求13或14的方法,包括从地址数据中选择各名 称行,按预先定义的规则将这些名称行分离为单个元素,并部分地依 据这些名称行的选择和它们的分离来确定品质等级的步骤。

16.符合权利要求15的方法,包括将这些名称行的单个元素与 常用名称比较,据此确定常用性评分,并部分地依据常用性评分来确 定品质等级的步骤。

17.符合权利要求15或16的方法,包括从这些名称行获得某个 收件人的一个姓名,从该地址数据获得该收件人的一个地址,从地址 数据库读取居住在该地址的人员的登记姓名,将它们与收件人姓名比 较,并根据这一比较确定每个登记姓名的比较评分的步骤,某个比较 评分越高,收件人姓名和各自的登记姓名的符合程度越大。

18.符合权利要求17的方法,包括能在该比较评分较低且品质 等级较高时将该地址数据认定为新数据的步骤。

19.符合权利要求17或18的方法,包括能在该比较评分较高且 品质等级也较高时将该地址数据认定为已知数据的步骤。

20.符合权利要求17、18、19中之一的方法,包括能在该比较 评分较低且品质等级也较低时将该地址数据认定为未知数据的步骤。

21.符合权利要求18、19中20之一的方法,包括在该地址为新 地址时能产生一个附加的包含该地址数据的地址记录的步骤。

22.符合权利要求21的方法,包括能对每一个地址记录记载如 下4个状态之一的步骤: ·如果该地址记录是生成的,则记为新状态; ·如果有关地址数据来自不同的寄件人,则记为常用状态; ·如果有关地址数据有规律地被重新读取,则记为可靠状态; ·如果该地址记录失效,则记为旧状态;
23.符合上述权利要求13至22中之一的方法,其中地址数据库 被保密存储,使得存储在中央数据库中的数据只能通过预先定义的规 则处理,或者存储在中央数据库中的某些数据能够通过一个预先定义 的外部路径存取。

24.符合上述权利要求13至23中之一的方法,包括使用地址数 据库分拣邮件(1)的步骤。

25.带有计算机程序的数据载体,该程序能由计算机设备读取, 它被装载后能使该计算机设备具有如下功能:对含有记录所得的地址 记录的数据库存储器(44),该计算机设备可以用下列步骤更新其中 地址数据库: ·接受和处理邮件所示的地址数据; ·分拣该地址数据; 其特征为 根据预先定义的准则确定该地址数据的品质等级,将该地址数据 与存储在中央数据库(44)中的地址记录比较并根据该地址数据的品 质等级以及地址数据与存储的地址记录的比较结果来更新数据库存储 器(44)的内容。

26.能够由计算机设备读取的计算机程序,该程序被装载后能使 该计算机设备具有如下功能:对含有记录所得的地址记录的数据库存 储器(44),该计算机设备可以用下列步骤更新其中地址数据库: ·接受和处理邮件所示的地址数据; ·分拣该地址数据; 其特征为 根据预先定义的准则确定该地址数据的品质等级,将该地址数据 与存储在中央数据库(44)中的地址记录比较并根据该地址数据的品 质等级以及地址数据与存储的地址记录的比较结果来更新数据库存储 器(44)的内容。
展开

说明书

本发明涉及利用记录所得的地址记录更新地址数据库的设备和方 法,包括: ·至少一个接受和处理邮件所示地址数据的处理器; ·一个存储地址数据的存储器,它连接到至少一个处理器; ·一个其中存储有地址数据库的数据库存储器,它连接到至少一 个处理器。
一个这种类型的设备在JP-A9/57204中公开。
JP-A8/323299涉及一个地址数据库管理系统,该系统用于根据已 改正的退回邮件更新地址数据库。
该退回的邮件由某个阅读机读取, 改正后的数据存储在某个存储器中。
该管理系统根据该退回邮件上给 出的数据自动更新数据库。
一个能够按照改正后地址对邮件进行分拣 的邮件分拣机连接到该数据库管理系统。
这份文件不涉及不采用改正 后退回的邮件更新现有数据库的问题。
JP-A9/314067描述一个邮件分拣装置和方法。
所示设备包括从邮 件读取地址信息和按该地址信息产生一个地址编码的手段。
作为一个 替代方法,地址信息也可以手工输入。
该地址编码与某个地址信息数 据库中的内容进行比较。
如果该地址编码不能准确和该数据库中的某 个地址相符,则向操作人员显示该地址编码和可能的正确地址。
该操 作人员就能够,譬如说,将该邮件上的收件人名称与那些可能正确的 地址中的各收件人名称比较,确定后者中哪一个是正确的。
然后这个 正确地址就被打印到该邮件上供进一步自动分拣。
这份文件在假设地 址数据库正确时有效。
JP-A9/75862描述一个邮件分拣机。
它包括一个视频编码终端。
机器操作人员输入某个用户的编码。
该机器通过与某个数据库进行比 较来评估该用户编码的正确性。
这份文件没有提到更新地址数据库。
JP-A9/57204涉及一个自动邮件分拣设备中采用的更新地址数据 库的问题,本权利要求书以此为界定。
在这样一个邮件分拣设备中,有一个阅读邮件并将该地址数据转 换为一个地址编码的视频编码单元,譬如采用一个光学字符识别单 元。
该地址编码被存储在某个存储器中。
在这一分拣过程中,该地址 编码与存储在地址数据库中的地址数据进行比较。
如果比较结果表 明,该地址编码与存储在该地址数据库中的某个地址相符,它就被认 为是正确的,可供进一步分拣。
某些地址编码不与该数据库中的任何地址相符。
屏幕上就可能显 示出由该视频编码单元记录下的该邮件的图像。
该邮件分拣设备的操 作人员就仔细察看屏幕上出现的信息,并手工,譬如通过键盘,输入 后续分拣过程中必须使用的地址。
然而,上述JP-A9/57204也建议数 据库本身的更新,以使发生错误和/或出现地址编码与该数据库中某个 地址不相符的情况越来越不频繁。
为此,JP-A9/57204实质上建议如下:与该数据库中某个地址 不相符的邮件地址编码被存储在某个存储器内。
用单独一行来移去有 关的被拒识邮件。
在合适的时刻,该被拒识的邮件又被送回机器以便 根据更新后的读数来更新数据库。
原则上,邮件被拒识可能有两个原 因。
第一个原因是,光学字符识别系统也许没能识别一个或多个字符。
另一个可能是,所有字符均已被识别,但这样产生的地址编码并不与 该数据库中的某个地址相符。
在第一种情况下,会向系统操作人员显示视频编码单元记录的图 像。
操作人员根据这个图像决定如何改正这些不正确的字符。
作为一 个可选的操作,该数据库也可以通过对该手工改正后的地址进行模式 识别来加以更正或补充。
在第二种情况下,则用被认为是正确的新地 址信息对该数据库加以补充。
用本发明解决的问题涉及尽可能自动地更新一个地址数据库。
随 这样一种操作出现的问题可举例如下:该地址数据库将始终包含某些 准确性可以加以改善或含有少量错误的地址数据。
进一步讲,许多人 常常居住在并非他们家庭地址的临时地址内,譬如说他们在度假或在 医院住了一段时间。
在那段时间内,寄给他们的邮件就被投送到并非 他们家庭地址的某个地址。
不过,寄给他们的邮件上的地址是正确的, 应该不会引起分拣的混淆。
相应地,在这种情况下地址数据库不应进 行修改。
再有,许多人搬家时没有及时或没有以正确方式向邮政投递 部门通报他们的新家庭地址。
这时就需要修改地址数据库。
许多人还 接受寄到不同地址的邮件,譬如因为他们有一个家庭地址和一个营业 地址。
最后,邮政投递部门完全不知道某些人(譬如儿童)的任何地 址,而那些地址对监视分拣过程可能是有用的。
本申请的目的首先在于更新地址数据库时尽量避免这一类问题, 并获得尽可能可靠的数据。
为此,在导言中提到的这类设备的特征是,至少安装有一个处理 器来按照预先定义的准则确定该地址数据的品质等级,将该地址数据 和存储在数据库存储器中的地址记录加以比较,并根据该地址数据的 品质等级和与存储的地址记录的比较结果来更新数据库存储器的内 容。
在本发明的设备中,一个含有记录所得的地址记录的地址数据库 将根据邮件上打印的以及该设备接受到的地址数据被不断更新。
为实 现这一操作,另一种可选用的的方法是,邮件所示的这些数据可以由 以后手工输入这些数据的人读取。
不过,这些地址数据的读取最好还 是自动进行。
自动读取可以通过任何一种能用于这一目的已知技术来 实现。
地址数据库的更新完全自动进行,而不像以前的技术那样,要 在其地址数据读数与存储的地址记录不相符、并被该设备拒识的邮件 的基础上,依靠对地址数据库的手工改进来进行。
为此,符合本发明 的设备采用了某个根据预先定义的准则确定的、能显示该地址数据如 何好的品质等级。
该设备完全自动确定,这一品质能否使该地址数据 库按照这个地址数据加以更新。
在更新该地址数据库时,可以采用对所有邮件自动读取的地址数 据。
当然,也可以采用从中选择的一组数据。
譬如,在向不可用地址 投寄大量邮件的特殊时期,如圣诞节期间,可以考虑随机采样或避免 修该数据库。
又譬如,可以不处理手写地址或不理会明信片上的地址。
本发明也涉及利用记录所得的地址记录更新数据库存储器中地址 数据库的方法,包括 ·接受和处理邮件所示的地址数据; ·存储该地址数据; 其特征为 根据预先定义的准则确定该地址数据的品质等级,将该地址数据 与存储在数据库存储器中的地址记录加以比较,并根据该地址数据的 品质等级以及它与存储的地址记录的比较结果来更新数据库存储器中 的内容。
本发明也涉及带有计算机程序的数据载体,该计算机程序能由某 个计算机设备阅读,该程序被装载后,使该计算机设备具有利用记录 所得的地址记录更新数据库存储器中地址数据库的功能,采用步骤如 下: ·接受和处理邮件所示的地址数据; ·存储该地址数据; 其特征为 根据预先定义的准则确定该地址数据的品质等级,将该地址数据 与存储在数据库存储器中的地址记录加以比较,并根据该地址数据的 品质等级以及它与存储的地址记录的比较结果来更新数据库存储器中 的内容。
本发明也涉及能够由某个计算机设备阅读的计算机程序,该程序 被装载后,能使该计算机设备具有利用记录所得的地址记录更新数据 库存储器中地址数据库的功能,采用步骤如下: ·接受和处理邮件所示的地址数据; ·存储该地址数据; 其特征为 根据预先定义的准则确定该地址数据的品质等级,将该地址数据 与存储在数据库存储器中的地址记录加以比较,并根据该地址数据的 品质等级以及它与存储的地址记录的比较结果来更新数据库存储器中 的内容。
下面将参考几幅例图对本发明加以说明,这些例图只用于演示本 发明,而不仅限于图形本身。
图1是一件邮件的示例,它提供某个收件人的地址数据和某个寄 件人的地址数据; 图2是一个设备的示例,该设备能在更新某个具有地址记录的数 据库时使用; 图3是一个流程图,它显示更新某个数据库内地址记录的过程中 的几个步骤; 图4、图5和图6给出了图3中某几个步骤的详细说明。
图1所示为一封信,它提供某个收件人的地址数据2和某个寄件 人的地址数据7。
信件1可能已有一枚邮票8。
也可能该邮件已经由 机器或类似装置盖了邮资已付印戳而没有邮票8。
还有一种可能情况 是,邮件上提供的地址数据也许还有一个编码形式的增补或者只有编 码。
这个编码可以是一维或两维条形码。
该邮资已付印戳的邮资也可 能已经合并在这样的一个条形码中。
这时,该条形码也称为“电子邮 票”。
举例来说,收件人的地址数据包括名称行3、公司名称4、街道 地址5、城镇及邮政编码6。
寄件人的地址数据可以按类似的样式组 成。
这样的一封信1可以用某个自动分拣机来分拣。
自动分拣的一个 示例如图2所示。
譬如说,信件1被放在传送带10上。
传送带10引 导信件1通过图象扫描仪12,该扫描仪产生邮件上显示收件人地址数 据2、或者如图所示还包括寄件人地址数据7的那一面的图象。
图象 扫描仪12将记录下的图象送到处理器14。
经过图象扫描仪12扫描后,信件1由传送带10送到能在信件1 上打印条形码的条形码打印机26。
这个条形码包含最后分拣时要使用 的更详细的信息。
通过条形码打印机26后,信件1被传送带10送到 分拣机28,它阅读打印的条形码并据此将信件1送到专门的通道30、 32、34、36……。
图象扫描仪12、条形码打印机26和分拣机28被连接到处理器14。
处理器14也被连接到操作人员可以借以输入数据的工具,如一个鼠 标18和一个键盘16。
处理器14还被连接到合适的存储器,举例说, 包括一个硬盘29和一个图象存储器22,处理器14在图象存储器中存 储由图象扫描仪12读取的、含有地址数据的图象,既包括收件人的 地址,也包括寄件人(如果有的话)的地址。
处理器14也被连接到显示工具24,譬如一个监视器。
处理器14自动控制图象扫描仪12、条形码打印机26和分拣机28 来完成分拣过程。
其中进行分拣的方法本身是已知的,这里无须进一 步说明。
在符合图2的装置中,处理器14被连接到一个电话网,譬如PSTN 40(公共交换电话网)。
作为一个补充,可以在处理器14和PSTN 40之间接一个附加处 理器15,这个附加处理器15,譬如说,可以执行通过PSTN发送和 接受数据的操作来减轻处理器14的负荷。
这可以包括数据缓冲、通 过PSTN 40建立和其它处理器的通信,特别是执行一项或多项本发明 框架下需要的、但不是分拣过程本身已经要求的操作。
譬如对分拣过 程而言,通过图象扫描仪提供的图象来获得收件人的名称(公司名称 和/或私人)或者寄件人数据7就不是必须的。
一个中央处理器42也连接到PSTN 40。
该中央处理器42还连接 到中央数据库存储器44。
图2中标明,处理器14通过电缆38(1)(作为另一种选择,也可 以先通过处理器15)连接到PSTN 40,图中有几个这样的连接38(2)、 38(3)、38(4)……。
其它的这些连接是要表明,几个这种具有本地处 理器和本地分拣手段的装置可以连接到该PSTN 40。
它们都可以通过 PSTN 40与中央处理器42通信。
然而也能够想到,本发明还可以应用于本地装置,处理器14(作 为另一种选择,也许还连同处理器15)也可以直接连接到中央数据库 存储器44。
中央数据库存储器44由一个包含地址记录的数据库组成。
在本 发明的情况下,一个地址记录至少包括一个名称行3、一个街道地址 5、以及一个城镇和邮政编码6。
名称行中的名称可以是个人姓名,但 也可以是公司名称,或者两者都有。
有时会出现两个(或多个)名称 行,譬如既显示个人姓名,又显示公司名称。
当然,在地址记录中也 可能加入更多的相关数据。
图3按粗轮廓显示了更新中央数据库存储器44中的地址记录时 采取的步骤。
在这一更新过程中采用的步骤大致如下。
该邮件上的数据被提交给某个人和/或者某个机器识别过程,目的 在于获得与邮政服务有关的数据。
存储在图象存储器22中的图象经过处理器14(作为另一种选择, 也可能和处理器15联合)分析,建立与收件人、也可能还与寄件人 相关的一个或多个地址块。
对每个地址块进行分析,在分析时评估该 地址块中各行的性质。
该地址块中的每一行都被分段,就是说,评估 是对构成该行的逻辑上一致的元素进行的,譬如“首字母”或“街道 地址”。
作为一种可选的方式,对被发现的元素的内容可以进行标准 化处理,各种情况都以标准格式显示。
在识别过程中所作的每一个评估都产生一个评估记分来表示该识 别结果的(不)可靠性程度。
差的识别结果会导致检测结果被认为不 可使用而遭到拒绝。
在识别过程中可以使用已有的、经过确认的参考 数据,在这种情况下可以考虑那些包含姓氏、邮政编码、街道地址、 城镇和某个特定国家(譬如荷兰)的取件地点的文件。
这些参考数据 储存在一个存储器中,可以用于对该识别结果作更仔细的评估,甚至 可以用来改正以前的识别结果。
譬如,一个已经识别但却不存在的邮 政编码在与包含已有邮政编码的、经过确认的文件比较后就可能得到 改正。
现在更详细地解释图3。
目前荷兰每天大约有2400万件邮件在6个不同的分拣中心通过 自动邮政分拣系统(APSS)自动处理。
按功能来讲,一个这种分拣 中心相当于图2的中央部分。
图象扫描仪12生成每个邮件1上地址 这一面的数字图象,该图象被送到处理器14,该处理器将图象存储到 图象存储器22。
数字图象中的地址被处理器14定位,然后该地址被 自动读取。
在图3流程图的第一步“APSS收集”46,邮件上的地址 数据暂时被就地存储在图象存储器22中。
图象中地址数据内出现的 字符借助人们已知的光学字符识别(OCR)技术加以认定。
可以为邮 件上出现的字符到数字字符的转换确定一个字符识别可靠性等级,该 字符识别可靠性等级取决于邮件上字符的准确程度、图象扫描仪12 的读取过程和OCR过程的品质。
手写字符要比印刷字符更可能给出 不正确的结果。
最好只用邮件1上那些机器书写的、而且邮政编码/门牌号码组合 6被正确读取的地址数据来更新中央数据库44中的地址数据。
对邮件 分拣过程本身而言,要尽可能考虑OCR过程产生的所有数据,自然 也包括那些手写地址的数据。
对于更新中央数据库存储器44而言, 手写地址邮件上的地址数据最好被认为是不够可靠的。
要对借助OCR技术从记录下的图象获得的地址数据进行补充, 可以采用由人手工输入的数据。
这里所说的数据是指邮件上已经由处 理器14认定、但却无法根据图象中的字符针对街道地址、邮政编码 和城镇自动获得实际地址数据的数据。
在分拣过程中这些邮件被拒 绝,并被放到一边供手工处理。
某个雇员通过监视器24尽可能多地 从图象读取该地址并手工处理这些邮件,再通过输入工具16、18手 工输入他/她确认的地址,此后处理器14仍然能够将该正确指令送到 条形码打印机和分拣机。
进一步可以想到的是,上述雇员亲自从原始 邮件上读取地址数据。
也可以想到,从邮件获得的、用于更新数据库的地址数据已经在 别处手工输入,生成了含有地址数据的数据文件,譬如用软盘或通过 互联网,文件被读取后就提交到中央处理器42。
中央处理器42可以通过网络连接PSTN 40(或通过任何其它的 通信连接)和处理器14(或15)通信,以便请求调用存储在图象存 储器22中的图象。
请求被接收后,中央处理器42可以在扫描所得的 地址数据中添加任何需要的管理数据。
举例说,管理数据包括扫描该 地址数据的分拣中心、扫描该地址数据的日期和一个序列号。
中央处 理器42然后就能够将已经接受到的扫描地址数据集中存储在任何合 适的存储器中。
譬如,它可以是中央数据库存储器44之外的一个独 立的数据库。
“APSS收集步骤”46之后,执行分段/标准化步骤48。
如图4 所示,在这一步,扫描得到的、被调用(步骤482)的每一个邮件的 地址数据被分离成有关的元素。
步骤483从收件人的地址数据中选择 姓名行3,步骤484再将它分离成元素。
对单个元素赋予含义,如称 谓、教名、头衔等等。
然后单个元素可以标准化处理,各种情况按标 准格式显示。
如果有公司名称4,也要进行分析。
这样就产生了一个 地址记录,它包括姓氏和/或公司名称以及有关属性,如首字母、中缀、 后缀等等。
按照预先定义的算法,步骤485根据地址记录的数据确定某个总 体识别可靠性等级。
字符识别可靠性等级被当作一个要素包括到这个 总体识别可靠性等级之中。
该总体识别可靠性等级也考虑到了邮件自 身地址数据的书写错误和/或打印错误。
步骤486对分段(分离为单个元素)过程中的分段品质也确定一 个评分。
总体识别可靠性等级和分段品质都包括在地址记录之中。
两种等级,即总体识别可靠性等级和分段品质就可以在随后实际更新 中央数据库存储器44中的地址记录时加以利用。
然后由中央处理器42执行常用性测试50(见图5)。
为此,中央 处理器42有一份荷兰现有姓氏的文件。
这个文件存储在连接到中央 处理器42的一个存储器(未画出)中。
经步骤48从地址数据分离出 来的每一个姓氏都在步骤501中和现有姓氏比较,并在步骤502中检 查是否符合语法规则。
对出现的教名和任何公司名称也进行同样的操 作。
借助于预先定义的算法,在步骤503中对每一个姓氏、教名和任 何公司名称都确定一个常用性等级,并添加到地址记录中去。
街道地址数据5(或邮政信箱号)以及邮政编码和城镇组合6一 经图象扫描仪12显示就由处理器14进行检查以便确定它们是否存 在,因为这些数据是邮件分拣过程需要的。
在当前的实际应用中,门 牌号码的后缀,如“上面”、“背面”、“第二层”、“II”等等没有被检 查。
在步骤52“编址”中,这些门牌号码后缀都根据常用缩写词清单 作标准化处理。
譬如,“TO”(“opp”)与“togenover”(“对面”)同义。
又如,“1-hoog”(“一楼”)与“1c”(“1st”)以及“i”同义。
在步骤52中,对每一组街道或路名、号码、邮政编码及城镇的 组合,中央处理器42检查中央数据库存储器44存储的数据库中有没 有与之相符的数据。
如果没有,该地址就显示为“新的”。
这一事实 被添加到扫描所得的地址记录中(步骤522)。
中央处理器42然后从中央数据库存储器44的中央数据库中读取 扫描得到的地址记录内该地址(包括后缀)中记录下的所有名称。
扫 描得到的名称3和4与中央数据库内记录下的名称相比较。
如果可能, 任何首字母、教名、称谓、姓氏和后缀都会相互比较。
对某个地址扫 描得到的名称3和名称4会被赋予一个比较评分,该评分包括了与记 录下的名称的各个组成部分,譬如说与首字母、称谓、教名、姓氏、 后缀等等比较的品质和结果。
根据对某个扫描所得地址数据的比较评分、分段品质、常用性等 级和总体识别可靠性等级,中央处理器42确定某个扫描所得地址记 录是否为新地址、已知地址或未知地址。
实现这一操作要采用品质等 级,它最好至少依据如下准则中的一个:分段品质、常用性等级和总 体识别可靠性等级。
譬如说,品质等级可以是这三个准则的算术平均 值。
举例说,将状态设置为“新”、“已知”和“未知”可以按如下规 则进行: —如果比较评分较低,品质等级较高则扫描所得的地址数据是 新的; —如果比较评分较高,品质等级也较高则扫描所得的地址数据 是已知的; —如果比较评分较低,但品质等级也较低则扫描所得的地址数 据是未知的。
这一状态的赋值在步骤56“决策”中进行。
对已知地址记录,其统计数据在同一步骤中更新。
对此下面将更 详细地进行讨论。
对新的和/或未知的地址记录,中央处理器42可以在中央数据库 存储器44中生成一个新地址记录。
更新与已知地址记录有关的统计数据,举例来说,可以采用如下 步骤。
数据元素出现的频度可以按分拣中心记录,从而确定某个地址元 素的分布区域。
也可以记录上次在一个分拣中心读取某个地址记录的 日期。
这样就可能在中央数据库中记录下,譬如说,去年某个特定地 址记录在某处出现于一件邮件上的日期。
这样就可以确定该地址记录 在某邮件上连续两次使用的时间间隔。
举例来说,为了确定这一时间 间隔,可以查看某个近期的间隔或更早先的间隔。
也可以确定在一个 分拣中心连续两次读取该地址记录的平均时间长度。
如果该平均时间 间隔随着时间推移发生显著变化,就说明该地址记录必须加以修正。
寄件人的地址数据7也能够被记录并存储到某个存储器。
那么确 定品质等级值时也就可以采用寄件人的地址7。
总之可以假定,从当 地官方注册机构发出的邮件包含非常可靠的收件人地址数据2。
最好 不用数据库44本身产生的目的地地址来确定数据库44中地址的准确 性程度。
如果存储了寄件人的地址数据,也能够记录下同一个地址是否经 常向某个地址元素发送邮件。
如果某个目的地地址仅被一个寄件人地 址频繁使用,那么准确性不一定很高。
使用同一个目的地地址的寄件 人地址越多,准确性也越高。
根据这些数据,每一个地址记录都可以被赋予一个状态,譬如新、 常用、可靠或旧。
举例来说,可以采用如下规则进行赋值。
当第一次 编辑某个地址记录时,状态为新。
从不同的寄件人和/或不同的分拣中 心数次接收到某个地址记录后,它就变成常用的。
如果在邮件中有规 律地遇到一个常用地址记录,该地址记录就可以是可靠的。
规律性是 根据某邮件上连续两次读到该地址记录的平均时间间隔来确定的。
果上述间隔的平均持续时间变得比预先定义的间隔长,就可以将一个 可靠地址反过来转变为常用地址。
如果不再遇到某个地址记录,它的 状态就成为旧。
如果近来在某邮件上读到某个地址记录的时间间隔越来越长,这 就表示,举例来说,收件人搬家了,就可以判定该地址记录应当废止。
示例 现在举例说明一个识别过程。
假定被提交的仅仅是一个只读出有 效邮政编码的数据。
举例说,一个地址块内容如下: BTT Port Medapersice Pohtnus 5838 5858GJ Riksdijk NL 而被读邮件1上显示的却是: PTT Post Mediaservice Postbus 5858 5858GJ Rijswijk NL 每个字符被读取时都有一定的识别准确性,对每一行可以确定一 个平均可靠性等级。
譬如,第一行为60%,第二行为75%,最后一 行为65%。
总体识别可靠性等级就是60%、75%和65%的平均值66.6 %。
另一种方法是,在确定识别准确性时认为第一行是决定性的。
在这种情况下,分段后生成3行。
第一行划分为3个词,第二行 划分为2个词,第三行也划分为2个词外加一个单独的标志。
假定地 址第三行是一个邮政编码和城镇,但仅因为两个元素之间有很大的间 隔(Riksdjjk和NL),第三行就被赋予一个低的分段评分,譬如40%。
第二行应当包括道路或街道名称和号码(也可能还有后缀),因为其 结构与预期的相符,所以有高的分段评分,譬如90%。
第一行有三个 元素,各有3、4、7个字符,对姓氏和公司名称而言是一个好的结构。
它的分段评分,譬如取为80%。
平均分段评分就是70%。
该名称行中没有已知的前缀、中缀或后缀,也没有头衔和类似内 容。
这说明它牵涉到一个公司名称。
在第二行中进行查看可以认定门 牌号码有无后缀,如果有的话,后缀是什么。
在本例中没有后缀,从 而可以识别,这里涉及的内容是邮政信箱。
所以没有什么需要进行标 准化处理。
常用性检查可以是与现有个人姓名和公司名称比较。
比较会产生 一个评分。
在完全对应的情况下评分就是100%,如果完全不同就是 0%。
举例说,与“PTT Post Mediaservice”比较评分可能为65%,而 与“PTT Post Brieven”比较为25%,与Sijthof Pers比较为0%。
比较评分可以通过匹配算法计算,但要与向所读地址(Postbus 5858)注册的个人和/或公司名称比较。
譬如说,后者可能是如下公司: PTT Post Mediaservice、DMdata和Dataprofs。
与PTT Post Mediaservice 比较是65%,与DMdata和Dataprofs比较是0%。
显然,与PTTPost Mediaservice的比较评分是最高的。
现在,一个基于规则的系统就能确定在当前情况下(准确性66.6 %、分段70%、常用性65%、比较评分65%),该数据元素能否被认 为是已知的、未知的或是新的。
举例说,对新数据元素的要求是品质 等级(譬如总体识别可靠性等级、分段和常用性的平均值)大于80% 且比较评分低于80%。
再举例说,对已知数据元素的要求是品质等级 和比较评分均高于95%。
任何不在这一范围内的数据都被认为是未知 的。
进一步实施计划 图2表明中央数据库存储器具有一个数据库的情形。
不过,在中 央数据库存储器的数据库的基础之上,还能够加一个包含全体中央数 据库之部分地址记录的附加数据库。
这部分数据的选择根据特殊的决 策规则进行。
譬如,这部分选中的地址记录只包括那些准确性超过特 定界限的地址记录。
这些可靠的地址记录,举例说,可以供第三方使 用。
在提供一个包含从中央数据库存储器选择数据的附加数据库的情 况下,可以有一项规定,即作为包括在该附加数据库存储器中的一项 附加决策规则,数据选择必须符合私有立法下的相关法规。
为使数据 存储符合私有立法,中央数据库本身可以放在一个黑匣内。
存储在其 中的数据,举例说,只能通过也放在这个黑匣内的保密的输出路径存 取。
在这种场合下,可能采用一个电子密钥,作为另一种选择,它也 可以是公用的。
这样,在对扫描所得的地址数据元素的可用性的决策过程中, 最好采用:(1)它的出现频度,(2)其中的变化和(3)寄件人的分布 区域。
原则上,可以为此建立一个基于规则的系统。
另一种方法是, 中央处理器可以带有一个神经元网络或类似装置。
一般来说,一个地 址数据元素在某个邮件上读取的日期越近,它的可用性就越好。
如果 它出现得足够频繁(常用状态),那么向该地址发送邮件的不同寄件 人的数量越大(常用状态),它的品质等级,譬如用分段品质和识别 可靠性等级表示的品质等级,也就越高。
上面已经描述了更新中央数据库的各个步骤由中央处理器42执 行的一个实施计划。
然而正如前面所述,这些步骤也可以由处理器14 (或者作为一个可选情况,部分地由处理器15)执行,尤其是当需要 更新的数据库是一个只在本地存在的地址数据库、而且它储存在与处 理器14(或15)相连的存储器之中。
对该设备和方法的附加可能性叙述如下。
当用图象扫描仪12进行显示时,寄件人地址数据7也可以被扫 描。
譬如处理器14可以认定寄件人地址数据7与PTT POST(即邮政 电报电话局)(或分拣处)本身的数据相符。
从后者产生的数据将与 中央数据库存储器中44的数据相符。
这样的数据最好不要合并到图 象存储器22中,以预防中央数据库存储器中可能出现的错误每次都 会对自身加以确认。
对名称行3的各个名称,除了头衔之类以外,有时在邮件上还添 加了人们的工作头衔。
这些数据也可以存储在中央数据库存储器44 之中。
这些工作头衔在编辑上述附加数据库时可能是重要的。
当然,在前面说明的分拣过程中也可以使用中央数据库44。
展开

查看更多专利详情信息请先登录或注册会员

相关专利类别推荐

获取手机验证码,即可注册成为会员

专利详情咨询

咨询内容

姓名

手机

验证码

用户登录

手机号

手机验证码

提示

不能再减了!!!

提交成功

八月瓜客服中心已经收到您的信息,正在为您派遣知识产权顾问。知识产权顾问会携带贴心的服务以闪电搬的速度与您联系。

扫一扫关注八月瓜微信 创业一手掌握