Магадан

"Магадан" окончательно поселился по адресу яндекс.ru. Мы открываем серию коротких (а иногда длинных) постингов с рассказом о том, что было сделано за это время.

Начнем с рассказа про изменения в обработке русскоязычных текстов.
В новую поисковую программу добавлено множество улучшений, например:

немного умнее определяется, что такое слово -- например, "C++" и "Европа+" теперь ищутся как единое целое (по ним не находятся слова "C" и "Европа"),
в поиске, кроме слов из текста страницы, участвуют перевод и транслитерация частей URL. Благодаря этому поиск понимает, что "mail" -- это "почта", а "bmw" -- это "бмв",
увеличена обучающая выборка для статистического морфологического анализатора, что повысило точность распознавания фамилий и географических названий.
Между прочим,

Яндекс умеет искать тексты с дореволюционной орфографией. Скажем, по запросу [кафедра Ветхого завета] найдется "ка?едра Ветхаго Зав?та", и наоборот. Если необходимо найти только слова со старой орфографией, можно ограничить поиск точной формой, взяв слова в кавычки: ["Б?лый, бл?дный, б?дный б?съ"]. При этом поиск старается отличить такие слова от украинских. Например, по запросу [мiнiстр] найдется только украинское слово "мiнiстр" и не найдется русское "министр". В то же время, когда нужны старые русские слова с "i", например, по запросу [мiр], находится и русское слово "мир".


Хотите получать самые актуальные новости сайта на свои мобильные устройства? Подписывайтесь на нас в Яндекс Дзен! 


Подпишитесь на канал «Женский журнал Судьба» @destinyrubot в Telegram: https://telegram.me/destinyrubot

Комментарии (0)

добавить комментарий

Добавить комментарий

показать все комментарии
Информация

Посетители, находящиеся в группе Гость, не могут оставлять комментарии к данной публикации.

Пожалуйста, авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий.