25
Доклад «Найди 10 отличий. Решение задачи наполнения на примере интернет- магазина электроники» Автор Белоусов Евгений Витальевич

найди 10 отличий

Embed Size (px)

Citation preview

Page 1: найди 10 отличий

Доклад «Найди 10 отличий. Решение задачи наполнения на примере интернет-магазина электроники»

АвторБелоусов Евгений Витальевич

Page 2: найди 10 отличий

Интернет-магазин электроники

АвторБелоусов Евгений Витальевич

Page 3: найди 10 отличий

Критерии ранжирования многостаничных сайтов?

• Юзабилити• Дизайн• Текстовая составляющая

АвторБелоусов Евгений Витальевич

Page 4: найди 10 отличий

Текстовая составляющая многостраничного сайта

• Проработанная внутренняя структура, перелинковка

• Высокий информационный вес, высокая средняя уникальность

АвторБелоусов Евгений Витальевич

Page 5: найди 10 отличий

Пример «рабочего» запроса для Интернет-магазина

АвторБелоусов Евгений Витальевич

1. Обзоры2. Карточки товаров с

расширенным описанием3. Стандартные карточки

товаров, содержащие лишь технические характеристики

Page 6: найди 10 отличий

Самый популярный тип страниц

АвторБелоусов Евгений Витальевич

Page 7: найди 10 отличий

Найди 10 отличий

Page 8: найди 10 отличий

Стандартные решения для повышения разнообразия карточек товаров?

• Мета-данные (title, keywords, description ) – автогенератор

• URL – ЧПУ через modrewrite• Хлебные крошки

АвторБелоусов Евгений Витальевич

Page 9: найди 10 отличий

Обшая информация

АвторБелоусов Евгений Витальевич

Для ipod nano 6 16gb Silver

Для ipod nano 6 16gb Green

Page 10: найди 10 отличий

Общая информация

АвторБелоусов Евгений Витальевич

Для ipod nano 6 16gb Silver

Для ipod nano 6 16gb Green

Вы можете купить «название товара», позвонив по телефону указанному на сайте …

Page 11: найди 10 отличий

Где взять уникальные тексты?

• Написать – долго, требуется специалист

• Купить – дорого, нет гарантий качества материала

• Генерировать - относительно быстро, специалист требуется на этапе настройки

АвторБелоусов Евгений Витальевич

Page 12: найди 10 отличий

Что отдает страница?

АвторБелоусов Евгений Витальевич

Page 13: найди 10 отличий

Что отдает страница?

АвторБелоусов Евгений Витальевич

Минимальный набор данных

Page 14: найди 10 отличий

Что еще можно использовать?

Для поиска - транзакционные маркеры запросов для SEO

Для посетителя – наименование, категория товара, характеристики, стоимость.

АвторБелоусов Евгений Витальевич

Page 15: найди 10 отличий

Создаем шаблон

АвторБелоусов Евгений Витальевич

Page 16: найди 10 отличий

Результаты работы генератора

• 17 000 000 000 – вариантов текста• Время работы генератора – 3 года.• Более 90% сгенерированных текстов

практически не отличаются друг от друга.

АвторБелоусов Евгений Витальевич

Page 17: найди 10 отличий

Как проверить тексты на уникальность Между собой?

– Алгоритм шинглов– Фильтрация на этапе генерации– Генерация текстов по шаблонам в случайном порядке,

отдельно для каждой категории

АвторБелоусов Евгений Витальевич

Page 18: найди 10 отличий

Алгоритм шинглов

АвторБелоусов Евгений Витальевич

Постепенный перебор отрезков текста, сравнении их между собой. Шаг между отрезками выбирается равным одному слову.

Сравнение осуществляется уже на этапе генерации.

Page 19: найди 10 отличий

Случайный порядок генерации

АвторБелоусов Евгений Витальевич

Отказываемся от последовательного перебора вариантов при генерации в пользу случайного перебора.

Это позволяет получить до 80% уникальных текстов уже на третьем часе работы алгоритма.

Page 20: найди 10 отличий

Результаты работы алгоритма

АвторБелоусов Евгений Витальевич

С заданными параметрами уникальности текстов в 95%, на выходе мы получаем чуть более 500 вариантов.

Количество обусловлено вкраплениями в шаблоне служебных переменных, которые снижают общий параметр уникальности.

Чтобы увеличить число вариантов, раскрыть потенциал шаблона, мы будем учитывать наличие служебных слов, стоп-слов при определении допустимого параметра уникальности.

Page 21: найди 10 отличий

Допустимый процент схожести

Допустимый процент схожести рассчитывается по принципу:

ДПС=95% - КСП/(ОЧС-СС)

где ДПС- допустимый процент схожести текстов, КСП – общее количество служебных слов параметров, ОЧС – общее число слов, СС –стоп слова.

АвторБелоусов Евгений Витальевич

Page 22: найди 10 отличий

Отсев дублей

АвторБелоусов Евгений Витальевич

При средних 100 словах на выходе, 25 стоп словах и 6 служебных, допустимыйПроцент схожести текстов составляет 85%.

Количество текстов на выходе ~1000

Page 23: найди 10 отличий

Размещение на сайте

– Одна страница – один текст навсегда– Каждый текст уникален– Новая страница получает текст– Для каждой группы товаров работают

свои шаблоны

АвторБелоусов Евгений Витальевич

Page 24: найди 10 отличий

Размещение на сайте

АвторБелоусов Евгений Витальевич

Page 25: найди 10 отличий

Результаты

– технология быстрого наполнения сайта с большим количеством страниц, без потери качества.

– собраны необходимые данные для будущих модулей, перелинковки.

– увеличена средняя уникальность карточек товаров и, как следствие, всего сайта.

– использование транзакционных связок в текстах увеличило показатели видимости сайта по средне- и низкочастотным запросам

АвторБелоусов Евгений Витальевич