Давайте сначала посмотрим, что из себя представляет тот новый сервис, с которым принудительно собирались объединить БД Ak55. На гланой странице нового сервиса сейчас указано: <<В нашей базе: 11876 завершившихся забегов и 328605 обработанных результатов, в том числе 115610 привязаны к бегунам>>. Ткнем по одной из ссылок и читаем далее: <<Из 328605 результатов, уже добавленных в базу: 4769 результатов привязаны к участникам КЛБМатчей; у 57668 результатов указан id участника забегов parkrun.>>. Что-то не сходится. 4769+57668=62437. Откуда ж тогда взялись остальные 53173 результата, якобы привязанные к участникам? Очень просто: это те результаты из БД Ak55, которые создатели нового сервиса при «полном освобождении» от данных БД Ak55, решили сделать своими, то есть попросту - украсть, авось, не заметят. Замечаю, указываю авторам новшеств на их воровство. Ранее один из админов ПроБЕГа А-Р очень удачно вступил в дискуссию на марафоруме, дав ссылку на новую страницу результатов одного из форумчан, Робинзона. В ней оказалось 75 строк-результатов. Ой, какая беда, создатели нового сервиса трудились-трудились, а от их труда осталось всего ничего. На самом же деле из этих 75 результатов 72 – краденые, ни авторы нового сервиса, ни админы сайта их не вводили, они оставлены в числе тех 53 тыс недочищенных из БД Ak55. Зайдите на страницу Робинзона
http://base.probeg.org/runner/14/. В мою БД не входили его результаты на 100 км в Молодечно, марафоне в Морозовске и на карнавальной 20-ке в Королеве. Остальные 72 были полностью сохранены из моей БД, причем вместе с моими ошибками и моими комментариями. Как только я сообщил об этом, все колонки кроме результата, якобы взятые из оригинальных протоколов (фио, год/возраст, группа, место в группе), а также колонка «комментарий», созданная мною, были полностью очищены. Заметали следы. Плохо замели. Почитайте статистические данные на странице Робинзона: <<Результатов в зачёт Матчей: 75 . Из них есть в БД результатов: 72 >>. В какой это такой БД есть только 72 результата в зачет КЛБ-Матча, если на самом деле в зачет пошло 75? Если бы это была так называемая БД КЛБ-Матча, то в ней были бы все 75 результатов, и выделять отдельно 72 смысла не имело. Ответ тот же, что и ранее: эти 72 результата из БД Ak55. В персональной странице участника авторы нового сервиса слово БД оставили, а имя автора этой БД затерли, чтобы скрыть своё воровство. Так что, если бы авторы нового сервиса обошлись без воровства, страница Робинзона выглядела бы еще плачевнее: всего 3 результата. Понимаю, что сейчас последует возражение, что это, мол, данные из БД КЛБ-Матча. Но – вернемся к началу, к цитате из нового сервиса: к участникам КЛБ-Матчей привязаны только 4769 результатов, куда эти 72 робинзоновских резалта не входят. Для меня остался непонятным только один вопрос: почему в расширенной статистике Робинзона при 75 результатах КЛБ-Матча, в том числе при 72 результатах из моей БД, авторы нового сервиса насчитали только 71 финиш! Это при том, что у Робинзона не было ни одного схода!
Для чего потребовалось столь длинное рассуждение? Для того, чтобы понять, что такое вот неуклюжее воровство потребовалось Постникову и Ко только лишь дя приукрашивания своих достижений, которых на самом деле еще нет. Нет у него 115 тысяч привязанных к бегунам результатов. По крайней мере 53 тысячами, украденными из моей БД он гордится не может. Но и 57 с лишним тысяч результатов паркранов идентифицированы отнюдь не в новом сервисе, а в системе самого паркрана. В новом же сервисе они фактически неидентифицированы, и их придется идентифицировать по новой. Например, мне, автоматический идентификатор нового сервиса приписывает 7 паркранов, Я и рад бы поучаствовать, только у нас в городе его по-моему нет. Кроме того, я против включения паркранов в БД, о причинах – позже. Остальные 200 с лишним тысяч результатов, уже введенных в новый сервис, с точки зрения объединения с существовавшей БД интереса вообще не представляли: да, это реальные результаты из реальных протоколов, но без привязки к конкретным бегунам их можно рассматривать только как «белый шум» или «помойку», а использовать только для вывода протокола целиком, но не результатов конкретного участника. Планов о том, кто, как и когда будет разбирать этот «шум» или «помойку», у авторов нового сервиса не было. Предполагаю, что они решили для себя, что этим заниматься буду именно я, но ошиблись.
В итоге, что же готов был готов представить Постников для объединения с БД Ak55, в составе которой на тот момент присутствовало более 400 тысяч записей? Только 4769 идентифицированных результата, из которых после очередного обновления БД Ak55 и так вошли бы в состав объединенной базы? Да я не против был такого объединения! Выделите человека из админов КЛБ-Матча под это дело, и мы наверняка договорились бы о порядке и сроках объединения БД-КЛБ-Матча и БД Ak55. Нет, Постников очень хотел разбавить мою четко персонифицированную БД своей нераспознанной «помойкой», которая в силу более позднего времени включения в объединенную БД всегда оказывалась бы наверху, а наверху, как все знают, плавает известно, что, но всегда не известно, чьё. Против такого вот принудительного объединения я категорически возражал, предлагал идентифицированный раздел сохранить отдельно в старой базе, а нераспознанный присутствовал бы в новом сервисе. Против этого был уже Постников. Чем это кончилось – вы все видели. Распознанный материал прекратил существование, а нераспознанный так и плавает по верху нового сервиса: данных много, а информации – не очень. Чтобы чуток приукрасить унылую картину, решили грабануть из старой базы 53 тыс. идентифицированных записей, только замести следы воровства толком не удалось.
В заключение остановлюсь на муссируемой теме о том, что, мол, Ak55 вручную занимается персонификацией результатов, а если ввести автоматическую идентификацию, то все пойдет быстрее и веселее. Рассуждения дилетантов, абсолютно не знакомых с используемой технологией, похожие на умышленную дезинформацию сродни «пробирке Колина Пауэлла».
Я использую 2-х этапную автоматическую идентификацию с разными наборами критериев идентификации, программа реализации которой либо дает заключение об однозначной идентификации, либо оставляет возможность для принятия решения оператору, то есть мне. Лишь после это действительно наступает этап проверки правильности автоматической идентификации (бывают редкие ошибки, последний пример – пропущенный результат тихвинского Александра Белова. Такая ошибка влечет небольшую перенастройку системы, исключающую последующие аналогичные ошибки) , он же – этап ручной идентификации участников, не идентифицированных в автоматическом режиме. Последний этап – присвоение номеров впервые засветившимся участникам. Например, таких на последнем сочинском полумарафоне набралось более 700, почто 40% от всех участников. Такой вот ручной режим.
Успех автоматической обработки протокола сильно зависит от формата протокола, применяемого организаторами. Этому очень способствует использование единого формата протокола, разработанного сайтом ПроБЕГ под началом Владимира Смолина. Например, участников пробегов Елены Скоблиной можно идентифицировать в автоматическом режиме практически на 100%. В протоколах использующей этот же формат протокола команды КЛБ «Сенеж» успех автоматической идентификации 90-95%. Отличные протоколы готовит на своих пробегах Дмитрий Ерохин, хотя и в своем формате, автоматическая идентификация до 95%. На 70% поддаются автоматической идентификации участники протоколов СПбФЛА – БН, ДЖ, Пушкин-СПб. Большие трудности для автоматической идентификации создают протоколы крупных новосозданных групп: newrunners – не более 50% успеха автоматической идентификации, russiarunners – 20-40% . На Иркутских пробегах успех автоматической идентификации близок к 0, равно как и в случаях с рукописными версиями протоколов или фотоизображениями протоколов. В последнем случае использование FineReader особой пользы не принесет, так ка этот сервис плохо работает с таблицами со смешанным (буквенным и числовым) содержанием, путает русские и латинские символы.
Насколько я понял, авторы нового сервиса ПроБЕГа изначально вообще не собирались заниматься идентификацией участников по протоколам, потом Чернов неожиданно вызвался легко сделать это… Но он совершенно не в курсе проблемы, никакой методики идентификации у них нет. Поэтому говорить о том, что они решат эту проблему быстрее и лучше может лишь тот, кто может лишь говорить. Быстрее всего можно наполнить псевдо-БД голыми протоколами без идентификации участников, что сейчас и происходит с новым сервисом. Сам Чернов в переписке со мной признал, что увеличение числа идентифицированных участников за единицу времени возможно только при УХУДШЕНИИ качества идентификации (могу привести фрагмент переписки), правда он не сказал насколько ввиду полного незнания проблемы. Точность идентификации результатов участников в своей БД я оцениваю в 98%. При разработке эффективного алгоритма автоматической идентификации новым сервисом ее точность не превысит 60% - это моё очень оптимистичное предположение. Но пока таких алгоритмов и программ у Чернова-Постникова нет