Разбор почтовых адресов

 
 
 Например: Спб, Марш. Жукова, 44 128 - синоним "Спб" для Санкт-Петербург, сокращение "Марш."
Арзамас-16, Репина, д.1, кв. 34 - история переименований городов
Спб, Салтыкова-щедрина, 44 128 - история переименования улиц
Московская обл., г. Ногинск-9, ул. Юбилейная, д.4, кв. 34 - исправление типа элемента - "пгт" вместо "г"
ул Xоламская , 3 - восстановление пропущеных элементов
москва, льва толсотого , 12 - исправление опечаток
балашиа, некраова 4 59 - исправление опечаток
г москва ,пр 60 лет октября, , , 23/-137 - распознавание варианта написания

RCO Address Parser — серверный компонент для Oracle Database, предназначенный для обработки почтовых адресов Российской Федерации, хранящихся в виде неструктурированного текста.

Продукт извлекает из текстовой адресной строки компоненты адреса, сохраняет их в структурированном виде в базе данных (единый справочник адресов), проверяет корректность адресной информации на основании эталонной базы КЛАДР и производит, при наличии возможности, исправление опечаток и восстановление пропущенных элементов адреса.

Продукт ориентирован на массовую обработку неструктурированной адресной информации, хранящейся в таблицах баз данных. Скорость обработки адресов — от 100 до 300 адресов в минуту в зависимости от условий применения.

Продукт предоставляет программный интерфейс на PL/SQL для ведения единого справочника адресов, а так же интерактивную web-страницу для тестирования и изучения продукта.

При создании продукта были использованы технологии анализа текста и нечеткого поиска, прошедшие апробацию в таких продуктах как RCO Fact Extractor и RCO for Oracle.

Устраняемые виды ошибок/опечаток во входных данных:

  • Использование схожих по написанию латинских букв вместо кириллических;
  • Опечатки («ул Перера» исправит на «ул Перерва»);
  • Пропуск разделителей между адресными элементами;
  • Пропуск ключевых слов (ул., г. и т.п.) в элементах адреса;
  • Неполнота задания адреса (при условии уникальности заданных элементов, например, адрес «ул Xоламская , 31» преобразует в «индекс 361823, респ Кабардино-Балкарская, р-н Черекский, с Герпегеж, ул Холамская, дом 31»);
  • Преобразование римских цифр в арабские;
  • Использование старых названий городов и улиц (списки синонимов генерируются при загрузке КЛАДР, отсутствующие в КЛАДР синонимы могут быть добавлены при помощи API) «Арзамас-16, Репина, д.1, кв. 34» преобразует в «индекс 607188, обл Нижегородская, г Саров, ул Репина, дом 1, кв. 34»;
  • Автозамена часто встречающихся устойчивых сокращений («проф.» вместо «профессора», «ак.» вместо «академика» и т.д.).

Восстанавливаемая адресная информация

  • Почтовый индекс;
  • Код КЛАДР;
  • Пропущенные элементы адреса.

При разборе адреса иногда возникают неоднозначности. В этом случае компонент генерирует множество гипотез и выбирает наилучшую. Для оценки используются, в частности, такие критерии глубина отождествления с эталонным классификатором, степень лексикографического сходства анализируемого адреса с эталонным и ряд других. При этом для последующего анализа, а также для использования в интерактивном режиме помнимо наилучшей гипотезы отдельно сохраняются пять следующих наилучших гипотез-кандидатов и их интегральные оценки.

Требования к системе:

  • Тактовая частота процессора: 2400МГц;
  • Объем оперативной памяти: 1Гб;
  • Объем свободного места на диске: 3 Гб (для индексов) + 100 Мб (установочный пакет системы);
  • Операционная система: Windows 2003 Server (возможен перенос на другие ОС);
  • СУБД: Oracle 10g database.


e-mail: info@rco.ru
© 2018 www.rco.ru