Как работают алгоритмы отслеживания веб-спама

costin

Пожалуйста, объясните, каким образом поисковики отфильтровывают бесполезные для юзеров спамные сайты. Интересуют, конечно, Google и Yandex.
Я понимаю, что в двух словах это растолковать сложно, но вдруг у кого-то из форумчан получится на пальцах растолковать это мне, гуманитарию.
В интернете нахожу только или примитивные "сео для чайников" или научные выдержки с формулами на 3 строки. За средним вариантом обращаюсь сюда.
Доброфорум, выручи ссылками на годные статьи (можно на английском). А может кто-то согласиться встретиться со мной и объяснить? Оплачу ужин и засыплю форумными плюсиками!
Заранее спасибо!

antcatt77

Пожалуйста, объясните, каким образом поисковики отфильтровывают бесполезные для юзеров спамные сайты. Интересуют, конечно, Google и Yandex.
например, через проверку сколько времени реальный пользователь проводит на таком сайте

Glofish

погугли например, по словам "АГС фильтр яндекса". в целом вроде берется штук сто разных параметров сайта и по ним по формуле выводится говно сайт или нет.

Eva3712

Пожалуйста, объясните, каким образом поисковики отфильтровывают бесполезные для юзеров спамные сайты.
Для того, чтобы понять, как поисковики их отфильтровывают, нужно понять, по какому принципу сайты попадают в выдачу и какие есть способы повлиять на поисковую выдачу.
Например, можно погуглить по ключевому слову "черное SEO" ( http://www.cy-pr.com/articles/seo/5420 ).
Собственно, задача поисковиков - распознать использование нечестных методов накрутки, вводящих их в заблуждение, и убрать такие сайты из выдачи.

a7137928

а ты, собственно, с какой целью интересуешься? :)

pita

Мб статью в Cosmopolitan пишет %)

a100243

например, через проверку сколько времени реальный пользователь проводит на таком сайте
ну не может же пользователь одновременно сидеть на яндекс-браузере и на хроме. Так что единовременно только один поисковик знает эту информацию.

costin

Я готовлюсь к собеседованию, и это единственный "проседающий" у меня вопрос. Активно читаю литературу по этой теме, но столкнулась с проблемой, что технической базы все-таки не хватает.

rishar

Не забывай про яндекс.метрику
А гугл точно учитывает поведенческий таргетинг?

Glofish

АГС (фильтр)
АГС — фильтр поисковой системы «Яндекс», призванный минимизировать фактор постороннего влияния на результат поисковой выдачи. С помощью данного алгоритма «Яндекс» заносит сайты в черный список. Со временем фильтр усовершенствовался, получая названия АГС-17, АГС-30 и АГС-40.
История создания
Об уже действующем на тот момент фильтре АГС-17 было объявлено в 2009 году одновременно с запуском усовершенствованного фильтра АГС-30. По словам специалистов «Яндекса», АГС-30 несет более полный алгоритм, основывающийся на большем количестве факторов (около ста)[1]. Фильтр позволяет отсеивать (исключать из поисковой выдачи) страницы с повторяющимся или некачественным содержимым сайтов. В 2013 году запущен фильтр АГС-40, лишь с обновленным под современные реалии алгоритмом[2].
Официально «Яндекс» не обнародовал происхождение названия АГС. Считается[кем?], что названия версий фильтра происходят от маркировки автоматических станковых гранатометов, использующихся в Российской армии.
Назначение
Фильтр предназначен для борьбы с сателлитами, созданными не для людей, а для заработка размещением на них тематических ссылок на основной сайт (продвигаемый сателлитами) или оплаченных ссылок с бирж. На таких сайтах может располагаться большое количество некачественной и ненужной информации, которая не несет в себе какой-либо пользы для посетителей.
Принцип действия
Алгоритм фильтра засекречен, однако имеются некоторые официально подтвержденные сведения. Наложение АГС — это результат совпадения нескольких факторов, которые по отдельности на попадание сайта под фильтр не влияют:
торговля спам-ссылками на сайте,
небольшой возраст сайта,
число входящих ссылок на ресурс мало по отношению к исходящим ссылкам,
низкое количество уникальных посетителей на сайте,
неуникальное содержимое.
Это далеко не полный список, однако эти факторы являются подтвержденными[источник не указан 226 дней]. Существует также множество других нюансов, которые могут повлиять на наложение фильтра АГС.
Довольно часты ситуации, когда фильтр накладывается на сайт неоправданно, так как алгоритм работает нестабильно[источник не указан 226 дней]. Специалисты «Яндекса» оперативно работают над проверкой всех заявок от владельцев сайтов на снятие фильтра с действительно качественных ресурсов, которые попали под фильтр по ошибке.
После наложения фильтра АГС сайт несколько месяцев перестает индексироваться поисковой системой «Яндекс». После применения фильтра в индексе остается чаще всего главная страница сайта, в некоторых случаях — еще несколько страниц. По прошествии некоторого времени сайт снова появляется в поисковой выдаче, и снова подвергается проверке. Если фильтр снова определяет сайт как некачественный, происходит повторное наложение фильтра. В дальнейшем сайт может быть полностью заблокирован для индексирования поисковой системой «Яндекс».
С 21.04.2014 АГС 40 не удаляет сайты из выдачи, а обнуляет ТИЦ.

rishar

Интересуют, конечно, Google и Yandex.
Алгоритмы, которыми пользуются поисковики закрыты. Т.е. точный алгоритм знают только разработчики яндекса или гугла. Алгоритмы могут меняться раз 2-4 недели.
Есть много сеошников, которые пытаются эти алгоритмы предугадать. Можно попробовать найти их статьи, но в любом случае надо с ними быть аккуратными - так как их данные могут устареть или вообще не соответствовать реальности.
Судя по текущим обсуждениям, яндекс на настоящий момент опирается на следующие данные:
1. Качество контента. Тексты должны быть уникальными (не повторяться на других сайтах без ошибок. Есть какой-то анализ "человечности" текстов - т.е. текст должен быть написан простым языком для человека.
2. Ссылки на сайт. Последние 10 лет это был основной фактор. Чем больше ссылок на сайт есть - тем лучше. При этом, если ссылка идет с сайта с высоким рейтингом (ТИЦ) - то ссылка ценится выше. Так же анализируется окружение ссылки, т.е. если сайт посвящен пластиковым окнам, а ссылка имеет текст "порно без смс" - она может не учитываться.
Недавно яндекс заявил, что по некоторым тематикам он отменяет ссылочное ранжировани (учет ссылкок) - но при этом СЕОшники все равно заявляют, что ссылки работают.
Где тут правда - не известно. Может быть Щеглофф может сказать более подробно основываясь на его данных.
3. Поведенческий фактор. Сколько пользователь просматривает страниц на сайте, как долго находится на сайте и т.д.
4. Возраст домена, как часто обновляются данные. Насколько сайт продуман для пользователя и для робота (перелинковка, карта ссылок).
Есть еще сотни различных параметров, которые может учитывать поисковая система.
Основная задача сеошников - предугадать действия алгоритма. Основная задача поисковика - выбрать подходящий контент и забанить сеошников, которые пытаются продвигать спамные сайты.
Ответ на твой основной вопрос такой: Поисковики анализируются все эти данные и банят спам-сайты. Очевидно, что на спам-сайте не будет много уникального интересного контента, люди не будут там зависать часами читая его или давать на него ссылки. На эти данные и опирается яндекс. Ушлые сеошники пытаются "оптимизировать" сайт: делают на него ссылки, заказывают уникальный контент на фрилансе за 30р/1000 знаков, даже поведенческий таргетинг накручивать пытаются.
Идеальный пример сайта с позиции поисковика - википедия. Уникальный контент, который написан для людей и достаточно часто обновляется, огромное количество ссылок с различных сайтов и форумов, высокая вовлеченность пользователей (много просмотренных страниц, переходы с одной страницы на другу, частые возвраты на сайт старый домен.

costin

Спасибо огромное!
У меня еще вопрос. Используются ли в этих алгоритмах инструменты big data analysis? (не знаю, как это по-русски, анализ больших массивов данных, наверное) Например, гугловские n-граммы при отслеживании искуственно сгененрированных текстов.
Мне предстоят вопросы типа "какой алгоритм Вы бы предложили для отслеживания такого-то вида спама и как бы Вы (как спаммер) обходили бы этот и существующие алгоритмы"
Вот как обмануть алгоритм, если я не знаю этого алгоритма? :(

rishar

Используются ли в этих алгоритмах инструменты big data analysis?
Насколько я понимаю, big data analysis - это общий термин для работы с большим массивом данных. Поэтому очевидно, что такие алгоритмы используются - так как индекс яндекса и гугла - это и есть большие данные :) Возможно, одни из самых больших в интернете.
Сделать релевантную выдачу - это главный приоритет поисковика. Поэтому все алгоритмы, которые у них есть могут быть использованы. В том числе и для анализа текстов (я писал там выше про человечность текстов).
Что именно и кто использует - рассказать тебе смогут только топ-менеджеры поисковиков :)
На второй вопрос я не знаю что ответить.
Все конкретно зависит от задачи, компании и что от тебя хотят услышать.
Но я бы направлял идеи в сторону человечности сайта. Т.е. если есть задача продвинуть коммерческий сайт в выдаче - я бы не покупал 100000 ссылок и гигабайты контекта, а бы работал над юзабилити сайта, над качеством контекта и удобством использования.
Впрочем, если это техническая позиция где-то в серой SEO конторе, то они от тебя хотят услышать совсем другое.

c3po

Даже по этой теме видно, что ты нифига не разбираешься в области. На собеседовании это тоже станет ясно через 15 минут, даже если подготовишься и нахватаешься типа умных слов. Не лучше ли честно признаться, что ты новичок, но очень хочешь развиваться? По крайней мере, у собеседующих не останется этого противного чувства, что их пытались неумело обмануть.

costin

Впрочем, если это техническая позиция где-то в серой SEO конторе, то они от тебя хотят услышать совсем другое
Еще раз спасибо большое за дельные разъяснения! Ради "контор" я бы Вас беспокоить не стала. Хочу именно разобраться, хотя бы на базовом уровне, а время ограничено. Поэтому и обратилась за помощью.

Martika1

> Ссылки на сайт. Последние 10 лет это был основной фактор.
Насколько я понимаю, это миф. Вероятно, идущий от сеошников. Ссылочный фактор — лишь один (возможно, главный) компонент статического ранга, но статический ранг в целом — заметный, но не преобладающий вклад в общее ранжирование. Вроде бы, "поведенческий фактор" (а в первую очередь, банальные клики) даёт самый большой вес в ранжирование.
> точный алгоритм знают только разработчики яндекса или гугла
Это не вполне верно. Если под "точным алгоритмом" понимать оценку вклада основных факторов, а также конкретное представление этих факторов в виде итоговой цифры — то да. Полностью же "точный алгоритм" (формулу) вообще никто не знает, это функция от дикого множества сигналов, не обязательно линейная (у Яндекса — существенно нелинейная конкретный вид (грубо говоря, коэффициенты и пороги) функции тренируется каждый раз заново, причём реализация отдельных сигналов писалась наверняка разными людьми.

a7137928

Ради "контор" я бы Вас беспокоить не стала. Хочу именно разобраться, хотя бы на базовом уровне, а время ограничено. Поэтому и обратилась за помощью.
Так куда собеседуешься-то? В яндекс? В гугл?
Тебе правильно написали, ты сходу ничего заботать не сможешь на достаточном уровне. Я тебе еще правильно напишу: если ты реально туда идешь, то ничего знать, скорее всего, и не надо, потому что проверять будут не знания, а здравый смысл и умение их получать. По крайней мере, так обычно декларируется.
Тем не менее, если тебе реально хочется что-то узнать, то делай вот что.
1. идем в википедию и читаем http://ru.wikipedia.org/wiki/%CF%EE%E8%F1%EA%EE%E2%FB%E9_%F1...
Упражнения:
- что надо читать вместо русской википедии, на которой очень мало инфы?
- что надо читать дальше? Какие запросы задать в поисковик, чтобы двигаться дальше?
2. Надо найти какой-нибудь спам в интернете
Упражнения:
- представь, что ты - независимая контора, которая занимается поиском веб-спама, а потом продает примеры найденных сайтов поисковикам. Какой из описанных видов спама ты, скорее всего, вообще не сможешь обнаружить? Какой вид спама тебе будет найти проще всего?
- найди примеры того вида спама, в интернете.
Подсказка: при поиске учти, что в гугле и яндексе алгоритмы поиска спама могут быть круче, и там может спама не оказаться. Тогда пробуй искать в системах "второго эшелона" - мейл, бинг, нигма. Может быть, проще найти спам будет в зарубеже, или в глубоких страницах поисковика (т.е. с первой убрали, а глубже остался).
3. Глядя на найденные виды спама, придумай какой-нибудь способ, как можно было бы поймать этот спам. Как его поймать, если ты поисковик, и у тебя куча информации (кстати, какой?). Или что делать, если ты частная контора, у которой кучи информации нет, зато есть куча денег.

costin

И снова я к Вам за помощью. Компания анонсирует один из этапов собеседования как проверку моих аналитических способностей. Из туманных намеков я поняла, что необходимо будет решать некие абстрактные проблемы, используя:
- логику
- приблизительные подсчеты (estimation)
- поведенческие факторы (behavior suggestion)
- анализ (analysis)
- инструменты принятия решений (decision)
Кто-нибудь когда-нибудь с таким сталкивался на собеседованиях? Можете что-либо посоветовать?
Может, есть какие-то универсальные схемы принятия решений, приоритезации или назначения подзадач?
Поделитесь, пожалуйста, опытом и своими соображениями.
Спасибо!

FieryRush

Ну это типа задачи - сколько заправок нужно в ну йорке или почему крышки люков круглые.

Eva3712

Компания анонсирует один из этапов собеседования как проверку моих аналитических способностей.
Аналитические способности - они либо есть, либо их нужно развивать. Попробуй порешать задачи с braingames http://www.braingames.ru/?displayOpts=default

costin

Ну это типа задачи - сколько заправок нужно в ну йорке или почему крышки люков круглые.
а есть какая-то универсальная логичная схема их решения?

geva

Нету, но если будущий начальник напирает на такие задачи больше, чем нужно. то это универсальный логичный признак того что придется работать с долбоебом.
универсальный метод - показать, что ты не пасуешь перед незнакомой задачей и с ходу броситься ее решать.

a7137928

- логику
- приблизительные подсчеты (estimation)
- поведенческие факторы (behavior suggestion)
- анализ (analysis)
- инструменты принятия решений (decision)
это какой-то высококачественный булшит
"Инструменты принятия решений decision", ох етить. Мне кажется, они эту херню дословно перевели с английского, не особо затрудняясь тем, как это правильно будет по-русски, и какие у нас выражения используются для этих понятий. Или они тут про машинное обучение методом decision trees?
Порешай "логические задачки" про бензоколонки, это классика. Кажется, какие-то такие задачи тебе и должны давать.
Кстати, в тему классики:
Сэр Эрнеcт Резерфорд, президент Королевской академии и лауреат Нобелевской премии по физике рассказывал такую историю:
Однажды к нему обратился коллега за помощью. Он собирался поставить самую низкую оценку по физике одному из своих студентов, в то время как тот утверждал, что заслуживает высшего балла. Оба — преподаватель и студент — согласились положиться на суждение третьего лица, незаинтересованного арбитра. Выбор пал на Резерфорда. Экзаменационный вопрос гласил: «Объясните, каким образом можно измерить высоту здания с помощью барометра?».
Ответ студента был таким: «Нужно подняться с барометром на крышу здания, спустить барометр вниз на длинной верёвке, а затем втянуть его обратно и измерить длину верёвки, которая и покажет точную высоту здания».
Случай был и впрямь сложный, так как ответ был абсолютно полным и верным! С другой стороны, экзамен был по физике, а ответ имел мало общего с применением знаний в этой области.
Резерфорд предложил студенту попытаться ответить ещё раз. Дав ему шесть минут на подготовку, он предупредил его, что ответ должен демонстрировать знание физических законов. По истечении пяти минут студент так и не написал ничего в экзаменационном листе. Резерфорд спросил его, сдаётся ли он, но тот заявил, что у него есть несколько решений проблемы, и он просто выбирает лучшее.
Заинтересовавшись, Резерфорд попросил молодого человека приступить к ответу, не дожидаясь истечения отведённого срока. Новый ответ на вопрос гласил: «Поднимитесь с барометром на крышу и бросьте его вниз, замеряя время падения. Затем, используя формулу, вычислите высоту здания».
Тут Резерфорд спросил своего коллегу преподавателя, доволен ли он этим ответом. Тот, наконец, сдался, признав ответ удовлетворительным. Однако студент упоминал, что знает несколько ответов, и его попросили открыть их.
— Есть несколько способов измерить высоту здания с помощью барометра, — начал студент. — Например, можно выйти на улицу в солнечный день и измерить высоту барометра и его тени, а также измерить длину тени здания. Затем, решив несложную пропорцию, определить высоту самого здания.
— Неплохо, — сказал Резерфорд. — Есть и другие способы?
— Да. Есть очень простой способ, который, уверен, вам понравится. Вы берёте барометр в руки и поднимаетесь по лестнице, прикладывая барометр к стене и делая отметки. Сосчитав количество этих отметок и умножив его на размер барометра, вы получите высоту здания. Вполне очевидный метод.
— Если вы хотите более сложный способ, — продолжал он, — то привяжите к барометру шнурок и, раскачивая его, как маятник, определите величину гравитации у основания здания и на его крыше. Из разницы между этими величинами, в принципе, можно вычислить высоту здания. В этом же случае, привязав к барометру шнурок, вы можете подняться с вашим маятником на крышу и, раскачивая его, вычислить высоту здания по периоду прецессии.
— Наконец, — заключил он, — среди множества прочих способов решения данной проблемы лучшим, пожалуй, является такой: возьмите барометр с собой, найдите управляющего и скажите ему: «Господин управляющий, у меня есть замечательный барометр. Он ваш, если вы скажете мне высоту этого здания».
Тут Резерфорд спросил студента, неужели он действительно не знал общепринятого решения этой задачи. Он признался, что знал, но сказал при этом, что сыт по горло школой и колледжем, где учителя навязывают ученикам свой способ мышления.
Студент этот был Нильс Бор (1885–1962 датский физик, лауреат Нобелевской премии 1922 г.

Некоторые люди считают, что если ты собеседуешься на менеджера, то ответ про "продать управляющему барометр за информацию о высоте здания" должен быть первым.

costin

Порешай "логические задачки" про бензоколонки, это классика.
и как их решать?

LEON3000

я тебе ещё в прошлой теме писал про книгу "Как сдвинуть гору Фудзи", прочти, она небольшая, довольно забавная.

Dimon12

вестимо используя логику
всяческие предположения, приближения и здравый смысл

costin

я тебе ещё в прошлой теме писал про книгу "Как сдвинуть гору Фудзи", прочти, она небольшая, довольно забавная.
блин, я подумала, что это сарказм такой форумный
Спасибо, уже читаю!

a7137928

и как их решать?
Как узнать, сколько бензоколонок в Нью-Йорке?
1) Возможно, это классическая, известная задача. Поискать ответ в интернете. Например, там может быть ответ про какой-то другой город. Используя соотношения числа жителей и числа машин на 1000 человек, высчитать ответ про Нью-Йорк.
2) Узнать, нет ли конторы, у которой есть точные данные. Позвонить и спросить. Если данные продаются, то узнать цену.
3) найти в интернете карту всех бензоколонок Нью-Йорка и пересчитать их вручную. Если займет слишком много времени, нанять людей.
4) разбить карту Нью-Йорка на кварталы, случайным образом выбрать несколько (достаточно много) кварталов, обойти их ногами и посчитать бензоколонки. Либо не ходить ногами, а посчитать на карте.
Здесь каждый способ решения имеет свои характеристики по шкалам "точность", "скорость получения ответа", "стоимость получения ответа". Конкретный способ решения нужно выбирать, исходя из того, что тебе требуется минимизировать/максимизировать в конкретной ситуации.
Например, если тебе нужен максимально быстрый и точный ответ, но нет ограничения на деньги, ты будешь покупать данные. При максимальной скорости, нулевых деньгах, но без высоких требований к точности, ты можешь поискать ответ в интернете. И т.д.

geva

Также, если должность хоть мало-мальски менеджерская, приветствуются ответы "Отдам приказ: прапорщик, установите радиомачту"

a7137928

Также, если должность хоть мало-мальски менеджерская, приветствуются ответы "Отдам приказ: прапорщик, установите радиомачту"
ну, вот на этот счет не уверен
все ж таки она не в армию собеседуется
может не прокатить

rishar

Поделитесь, пожалуйста, опытом и своими соображениями.
Привет.
Обычно на собеседовании тестируют те навыки, которые будут использоваться или будут полезны на будущей работе.
Поэтому, если ты уверена, что будут вопросы по логике, аналитике, принятию решений - то эти навыки у тебя должны быть. К сожалению, выучить из за пару дней не получится. Любой адекватный босс поймет, что навыков у тебя нет - лишь поверхностные знания.
Поэтому, я бы советовал честно говорить, что про это не знаешь - но готова все выучить.
Если порассуждать о высоких материях, то все это, имхо:
- логику
- приблизительные подсчеты (estimation)
- поведенческие факторы (behavior suggestion)
- анализ (analysis)
- инструменты принятия решений (decision)
производные простой математики: статистики , логики, арифметики.
Если у тебя не техническая должность - то глубоких познаний в математике не надо, надо просто понимать где и как ты можешь обсчитать те или иные данные. Способность к оценке тоже очень важна.
Например, если тебе зададут вопрос про парковки в НЙ, ты должна выдать некий алгоритм, опирающийся на открытые данные (или на закрытые, если они необходимы по которому можно оценить количество. (например, население НЙ, площадь, плотность населения района, потоки движения, наличие паблик транспорта и т.д.). Это покажет твою возможность здраво рассуждать и принимать решения опираясь на данные.
Аналогично с принятием решений. Есть 100500 разных техник, но большинство из них опираются на некие метрики (например, возможная прибыль компании, использование ресурсов, осуществимость идеи и т.д.).
Сейчас очень быстро развиваются технологии, и найти почти любую информацию можно за несколько минут в своем смартфоне. Поэтому важно умение искать. Например, если тебе задают какой-то вопрос, если не знаешь ответ или не знаешь, как этот ответ выработать - можно спросить "я могу погуглить/поискать в яндексе"? В целом, правильно задав вопрос в поиске вполне можно найти ответы на многие вопросы HR-ов, так как они типовые.
В качестве практики, попытайся найти информацию на свои вопросы и почитать разные алгоритмы оценки, принятия решений, поведенческие факторы.
PS Куда хочешь устроится?

costin

PS Куда хочешь устроится?
Напишу после результатов собеседования, то есть на следующей неделе, хорошо?
Спасибо за как всегда обстоятельный ответ!

costin

В общем, я прохожу собеседования в Гугл. Прошла уже 3 телефонных и 1 скайп интервью. Теперь лечу на финальное собеседование в Дублин.
Спасибо огромное всем, кто помог!
, , , , ,, , , , , - словами не описать, как я вам благодарна
- за книгу "Как сдвинуть гору Фудзи" отдельное спасибо. Именно она помогла справиться с ебанутыми гугло-вопросами.
Я бы написала подробно, как проходили интервью и какие каверзные вопросы задавали, только отдельную тему снесут в джоб, и ее там никто не найдет, а здесь как-то уже оффтопом это будет писать :)

rishar

В общем, я прохожу собеседования в Гугл.
молодец! А на какую позицию? Разработчик или аналитик/маркетолог?
Судя по тому, что очное собеседование в Дублине - скорее второе.

costin

скорее, аналитика

dhara360

Analytical Lead?

shale60

Я бы написала подробно, как проходили интервью и какие каверзные вопросы задавали, только отдельную тему снесут в джоб, и ее там никто не найдет, а здесь как-то уже оффтопом это будет писать
Пиши тут, интересно же :)

LEON3000

дада, пиши тут. интересно же!

costin

дада, пиши тут. интересно же!
давайте уже после финального дублинского, ок? извините, пожалуйста, но у меня сейчас совсем не о том голова болит, ботаю круглые сутки, еще и с текущей работой приходится совмещать

shale60

Удачи! Ждём :)
Оставить комментарий
Имя или ник:
Комментарий: