MyTetra Share
Делитесь знаниями!
Screaming Frog SEO Spider
Время создания: 21.01.2019 16:12
Автор: alensav
Текстовые метки: сканированме, сайт, конфигурация
Раздел: MyTetra - INTERNET
Запись: xintrea/mytetra_db_alensav/master/base/154807633875vnd8uzs5/text.html на raw.githubusercontent.com

Screaming Frog SEO Spider

Screaming Frog SEO Spider — десктопная программа для сканирования сайта. Незаменимый инструмент при проведении технического аудита.


Ключевые функции программы:


Поиск битых страниц и страниц с редиректами. Отображение анкоров и самих документов, на которых находятся ссылки на данные страницы.

Поиск страниц с короткими, длинными, дублирующимися тегами title, а также с тегами title, содержимое которых совпадает с тегом h1.

Поиск страниц с короткими, длинными, дублирующимися и отсутствующими мета-тегами description.

Поиск страниц, на которых тег h1 встречается более одного раза или не встречается вовсе.

Поиск изображений с большим размером, а также с отсутствующими и длинными атрибутами alt и title тега img.

Отображение информации по meta-тегам, управляющими поисковыми роботами (атрибуты rel="canonical", rel="next", rel="prev" тега link).

Поиск страниц по заданному фрагменту, выгрузка содержимого определенных тегов по регулярному выражению (например, можно спарсить все h5 заголовки или все тексты на сайте).

Поиск дублей страниц по хэш-сумме исходного кода.

Отображение структуры сайта и уровня вложенности страниц. Визуализация данных.

Проверка времени загрузки страниц.

==============================================================

ПРЕИМУЩЕСТВА ПРОГРАММЫ / СЕРВИСА

Сканирование как всего сайта, так и вручную заданного списка страниц

Поддержка API Google Analytics и Google Search Console (Google Webmaster)

Возможность в любой момент приостановить сканирование, сохранить проект и закрыть программу, а при следующем запуске продолжить с того же места

Генерация файла sitemap.xml с расширенными настройками

Использование произвольного User-Agent

Отображение кодов ответа сервера для всех найденных страниц

Гибкие настройки сканирования и отображаемой информации

Настройка перенаправления URL-адресов (работает как локальный htaccess)

Поиск страниц, в коде которых имеется вручную заданный текст/фрагмент кода

Расширенные возможности выгрузки данных в CSV

Возможность отобразить древовидную структуру сайта

Возможность просканировать определенные разделы/страницы на сайте, либо наоборот, исключить их при сканировании

Огромное количество отображаемой информации по SEO о найденных страницах

Сканирование сайтов, требующих авторизацию через базовую аутентификацию

Поддержка Proxy

=====

SCREAMING FROG SEO SPIDER

Регулярный аудит сайта – это неизменная часть работы любого оптимизатора. Один из наиболее удобных инструментов для этого – эта программа. Разберемся, как в ней работать.


10 июля 2017 года

1219

Достаточно долго одним из лидеров в области аудита сайтов был такой инструмент, как Xenu, однако несколько лет назад к нему в компанию добавилось другое полезное приложение – Screaming Frog SEO Spider, о котором и пойдет речь в этой статье.


Программу разработал опытный британский сеошник; она существует как в бесплатном, так и в платном варианте. Естественно, бесплатная версия отличается несколько меньшим функционалом, а также ограничением на количество страниц, которые можно отсканировать: не более 500. Поэтому для аудита крупного сайта предпочтительнее выбрать платную версию.


Основной функционал Screaming Frog SEO Spider

Останавливаться подробно на покупке и скачивании Скриминг СЕО Фрога мы не будем: для этого достаточно базовых умений компьютерного и интернет-пользователя. Вместо этого рассмотрим основной функционал seo frog, представленный последовательно во всех ее вкладках:


Internal. Как понятно из названия, вкладка посвящена внутренним ссылкам. Здесь можно получить ключевую информацию обо всех страницах сайта (их, при желании, можно отсортировать по алфавиту). Достаточно кликнуть по URL какой-либо страницы, чтобы увидеть достаточно подробные данные о ней. В разделах вкладки «in links» и «out links» можно просмотреть отдельные данные о входящих и исходящих ссылках соответственно, что поможет откорректировать внутриссылочный вес каждой страницы. Также можно получить информацию о расположенных на странице картинках, заголовках, мета-тегах, размере страницы в байтах, уровне ее вложенности по отношению к главной странице интернет-портала, и так далее.


External. Эта вкладка, напротив, посвящена внешним ссылкам. Она включает в себя полный список сайтов, на которые со станиц вашего ресурса ведут открытые ссылки. Для каждой из них можно узнать тип, кодировку, уровень вложенности соответствующей страницы и другие данные.


Response Codes. Здесь содержится информация обо всех редиректах сайта: адреса страниц, исходящих ссылок и, что самое важное, коды и статусы ответа веб-сервера. В контексте оптимизации сайта пристального внимания заслуживают страницы с кодами 404 (Not Found), 302 (Found) и 301 (Moved Permanently). Особенно важно грамотно настроить 301 редирект.


URI. Это отдельная вкладка, целиком и полностью посвященная «проблемным» страницам сайта. Их адреса могут попасть сюда по разным причинам: например, если в их названии присутствуют символы, которых нет в ASCII; если длина адреса превышает 115 символов; если адрес является динамическим; если страницы дублируются; и по ряду других. То, что какая-то страница попала на эту вкладку, еще не значит, что с ней гарантированно что-то не так – однако это повод лишний раз проверить ее и, при необходимости, внести корректировки.


Page Titles. Здесь собрана информация о тайтлах всех страниц сайта. Соответственно, тут можно узнать, на каких страницах не оказалось тайтлов (и добавить их, поскольку они крайне важны для продвижения); где тайтлы совпадают с H1 (что также лучше исправить); у каких страниц одинаковые тайтлы (и это, опять же, лучше откорректировать, сделав Title разных страниц уникальными); где размер тайтла выходит за пределы рекомендуемой длины в 60-70 символов.


Meta Description. Суть вкладки примерно аналогична предыдущей, только здесь речь идет уже не о Title, а о Description всех страниц сайта. Тут так же можно узнать, на каких страницах нет мета-тега, на каких он чрезмерно длинный, на каких – дублируется с других страниц, и так далее, после чего принять необходимые меры.


Meta Keywords. Это то же самое, но для прописанных Keywords. Поскольку в нынешних реалиях прописывать их практически бессмысленно, эта вкладка не несет в себе особой ценности.


H По аналогии с несколькими предыдущими вкладками, здесь можно получить информацию об H1 всех страниц и откорректировать их, если где-то они слишком длинны, дублированы или вовсе отсутствуют.


H В этой вкладке можно посмотреть полный перечень заголовков второго уровня для каждой страницы и, опять же, наметить планы по их корректировке в случае необходимости.


Images. Здесь можно получить информацию обо всех изображениях, которые загружены на сайт, и их весе. Вкладка полезна в контексте ускорения загрузки интернет-портала, которой можно добиться благодаря оптимизации картинок.


Meta&Canonical. В этой вкладке можно, во-первых, просмотреть мета-теги robots для каждой страницы: это теги, которые позволяют или запрещают поисковым роботам индексировать страницу и использовать размещенные на ней ссылки. Здесь же можно получить информацию о канонических ссылках rel=canonical для всех страниц, то есть адресах, которые будут индексироваться при появлении дублей. Это также весьма существенная и периодически нуждающаяся в корректировке информация с точки зрения продвижения и оптимизации сайта.


Как сканировать сайт с помощью Screaming Frog SEO Spider?

Чтобы получить все перечисленные выше данные и возможность использовать их для оптимизации сайта, необходимо его просканировать в программе Screaming frog SEO Spider. Для этого достаточно ввести адрес сайта в соответствующее поле и нажать на кнопку «Start».


При этом важно знать, что все поддомены программа воспринимает как внешние ссылки. Поэтому в том случае, если вы хотите, чтобы они расценивались как часть основного ресурса, понадобится пометить галочкой пункт «Crawl All Subdomains» в разделе меню «Spider Configurations».


При помощи SEO Spider Tool можно сканировать не только весь сайт, но и какой-либо его раздел: для этого достаточно ввести его адрес в поле и нажать на кнопку «Start». В то же время, определенные разделы можно исключать из анализа: для этого нужно зайти в пункт меню «Configurations». В разделе «Exclude settings» этого пункта вы можете задать правила исключения конкретных разделов сайта из общего процесса сканирования.


Для удобства просмотра и использования результатов анализа сайта, полученных при помощи Screaming Frog SEO Spider, их можно преобразовать в более привычный и комфортный для восприятия Excel-формат. Чтобы это сделать, достаточно воспользоваться кнопкой «Export».


Создание Sitemap.XML

Файл Sitemap.XML должен лежать в корневой папке сайта и содержать подробную, точную информацию обо всех его страницах, датах их обновления и приоритетах просмотра. Он важен по многим причинам, и в первую очередь – для эффективной работы поисковых роботов. В этой связи особенно полезной представляется такая дополнительная функция программы Screaming Frog, как создание карты сайта. Для этого нужно воспользоваться пунктом меню «Sitemaps» после того, как вы просканируете весь интернет-портал. Во вкладке «Pages» можно будет добавить в карту дополнительные элементы (например, страницы, которые были закрыты от индексирования), после чего нажать на кнопку «Next».


Таким образом, Screaming Frog SEO Spider – это современный многофункциональный инструмент, который может дать оптимизатору практически всю необходимую информацию для успешной работы с сайтом.

==============

Рассмотрим полный цикл настройки программы и проведения технического аудита сайта.


Первичные настройки Screaming Frog

У программы нет русской локализации, но базовых знаний английского языка достаточно. Настройки находятся на главной панели задач под кнопкой Configuration -> Spider.



На первой вкладке Basic находятся базовые настройки. Тут программе указываем парсить определённые типы URL и поддомены сайта. Можно отключить парсинг ненужного, что существенно скажется на скорости работы. Внимание стоит обратить на раздел Robots.txt. Программа по умолчанию следует его правилам, поэтому стоит поставить отметку, которая отвечает за их игнорирование. Вдобавок можно назначить директиву показывать все заблокированные страницы.



На вкладке Limits устанавливаются лимиты парсинга. При проверке больших сайтов, ошибки носят однотипный характер, а компьютеру может не хватить памяти. Для комфортной работы следует установить глубину по вложенности на уровне 4–5, как указано на скрине. Можно установить лимит на длину URL и общее количество.



В разделе Advanced надо сразу отметку тут. Это указание сразу остановить парсинг при максимальном использовании памяти. В противном случае программа просто закроется и данные будут утеряны.



В разделе Preferences устанавливаются максимальные и минимальные рамки длины Title и Description, чтобы в конечном отчёте видеть списки страниц, которые отклоняются от нормы.



Аудит можно проводить не для всего сайта целиком, а для определённого его раздела или можно исключить из парсинга определённые адреса. Для это необходимо указать нужные URL в Configuration -> Include (чтобы проверить только определенный раздел) и Configuration -> Exclude (чтобы исключить раздел). Вводить исключения нужно в формате http://site/category/*.



Важным моментом настроек является установка лимитов скорости. Заходим в Configuration -> Speed. Не все сайты выдержат агрессивное сканирование. Если не хотите уложить его спать, лучше установить лимиты URL. Начать можно с отметки 10.



После начала нужно обратить внимание на показатели внизу. Если текущая скорость (Average) ниже допустимой (Current), как на скрине, то парсинг проходит нормально. В противном случае лимит стоит указывать ниже допустимой скорости.



Полезной функцией настроек является установка фильтров в Configuration -> Custom -> Search. Можно получить данные, которые содержат или не содержит определённый текст или код.



Последним этапом настройки для тех, кто работает через прокси-сервер станет указание IP в Configuration -> Proxy.



После окончания настройки программы, следует сохранить их как стандартные, чтобы в следующий раз не пришлось повторять все действия заново.



Аудит с помощью Screaming Frog SEO Spider


Интерфейс состоит из основного рабочего поля, вкладками аудита сверху и теми же вкладками только в правом сайдбаре. Мне лично, удобней перемещаться по сайдбару.



Internal

Здесь мы найдём всю информацию по результатам анализа кроме внешних ссылок с сайта и фильтров, которые установили. Данные можно отфильтровать по нужному типу как специальной опцией, так и в сайдбаре.


Поиск пустых страниц

На этом этапе можно отследить пустые страницы и те, на которых очень маленькое количество контента. Для этого надо выгрузить HTML отчёт.



1. В хls файле необходимо найти колонку WordCount

2. Переносим колонку к URL

3. Выставляем фильтр по возрастанию

4. На колонке StatusCode устанавливаем фильтр на код 200



Теперь перед нами список адресов с нулевым количеством символов. Скорее всего, они не несут ничего полезного посетителям. Код 200, нужно выставить, так как оцениваем только доступные страницы посетителям. Пустые можно закрывать от индексации в robots.txt или настраивать 301 редирект в зависимости от ситуации. Конкретно на скрине проблем нет.


Перелинковка сайта

По Level и Inlinks можно сделать выводы о вложенности и перелинковке сайта. По второй колонке можно посмотреть количесвто внутренних ссылок.



External

External отвечает за внешние ссылки с сайта. Ссылки с 404 кодом ответа исправляем либо удаляем.



Чтобы узнать страницы с битыми ссылками, необходимо смотреть на дополнительное нижнее рабочее поле, вкладку Inlinks. Чтобы выгрузить все внешние ссылки с источниками идем в Bulk Export -> All Inlinks в верхней панели инструментов.



Response Codes

Вкладка посвящена ответам сервера. Большинство должны давать код 200 — успех. К остальным следует присматриваться:


1. 3хх — коды, отвечающие за редиректы. Следует просмотреть правильно ли выбрана ситуация для использования и страница перенаправления. Это отдельная большая тема. Конкретно в этом случае видим много 301 редиректов, которые перекидывают посетителей с адресов без / в конце на страницы с ним. Довольно распространённая ситуация, можно сказать, классика. Такое решение было принято для избежания дублированного контента в поиске.



2. 4хх — удалённые страницы. Надо понимать сознательно ли были они были удалены. Обязательно проверить ссылки, которые ведут на 404. Действуем аналогично ситуации с внешними ссылками с сайта — Bulk Export -> All Inlinks.


3. 5хх — ошибки сервера. Чаще всего возникаю при падении сайта и решаются на стороне хостера.



URL

Следующим этапом аудита смотрим адреса нашего сайта. URL должны быть по возможности короткими, понятными, не содержать специальных символов. Отчёты этого раздела дадут разобраться насколько адреса нашего сайта ЧПУ (человекопонятный урл).


Non ASCII Characters — адреса, которые не соответствуют схеме кодирования ASCII. Или проще говоря запрещённые специальные символы или кириллица. С такими адресами могут возникнуть проблемы при проставлении ссылок.


Underscores — нижнее подчёркивание вместо дефиса. По сути, не является грубой ошибкой, Google даже рекомендует его использовать, но в списке он идёт на втором месте после знака дефиса.


Uppercase — верхний регистр в адресе. Идеально не использовать caps lock в URL.


Duplicate — на этот отчёт стоит обратить особое внимание. В нём указываются страницы с одинаковыми адресами, скорее всего, дублями контента. Для них необходимо использовать 301 редирект.


Parameters — страницы параметры, с которыми стоит как минимум ознакомится. Они содержат в своём адресе знаки ?, &. Чаще всего служат для вызова скриптов. Такие могут содержать одинаковый контент, и его стоит закрыть от индексации. Например, страницы сортировки в интернет-магазинах.


Over 115 Characters — адреса, которые превышают длину 115 символов. Идеально, чтобы ЧПУ был коротким и понятным.



Page Titles

Дальше проверяем Title — мощный фактор ранжирования в ПС.


Missing — страницы где отсутствует метатег Title.


Duplicate — страницы с дублированными Title. Это ошибка, так как этот метатег должен быть уникален. Стоит также проверить, не следствие ли это появления дублей.


Over 65 Characters — Title длиннее 65 символов, или того значения, которое было установлено в настройках. Считается, что оптимальная длина Title 56 — 70 символов.


Below 30 Characters — меньше 30 символов.


Same as H1 — повторяет заголовок. По этому поводу ведутся постоянные споры. Лично я не считаю это ошибкой, но стараюсь делать Title отличным от H1.


Multiple — метатег Title встречается несколько раз на странице.



Meta Description

Раздел посвящён метатегу Description. Краткое описание страницы, которое отображается в сниппете. Длина — до 160 символов, должно быть уникальным, содержать продвигаемые запросы и призыв к действию.


Missing — показывает, где метатег не заполнено.


Duplicate — страницы с дублированным Description. Считается, что текст описания должен быть уникальным. Еще это может быть признаком дублированного контента.


Over 156 Characters — Description длиннее 156 символов. Слишком длинный текст не помещается в сниппет и не будет увиден пользователями. Оптимальная длина — до 160 символов.


Below 70 Characters — меньше 70 символов. Слишком короткое описание не понравится поисковикам, и они будут брать текст со страницы.


Multiple — метатег Description встречается несколько раз на странице. Снова-таки ошибки, которые могут быть следствием использование нескольких SEO плагинов.



Meta Keywords

Метатег Keywords давно утратил свою актуальность. Тем не менее он может учитываться при ранжировании в поисковой системе Яндекс, согласно справке Вебмастера. В любом случае за спамность или неправильное его заполнение, наказание не последует. Максимум поисковики будут его игнорировать. По аналогии с другими метатегами можно проверить пропущенные, дублированные, множественное использование.



H1 и H2

Анализируем заголовки первого и второго уровня. Считается, что они должны быть отличными от Title, не быть слишком длинными. Заголовок первого уровня используется на странице только один раз, когда для второго ограничений нет. Мы можем увидеть все пропущенные, дублированные, слишком длинные заголовки. Особое внимание стоит обратить на Multiple в разделе H1 — несколько заголовков первого уровня на одной странице.



Images

Проверяем оптимизацию изображений. Картинки не должны занимать много места, чтобы не уменьшалась скорость загрузки страницы. Еще нужно заполнять alt картинки для того, чтобы указать поисковым системам, что на ней изображено. При заполненном alt, изображение становится доступным в поиске картинок в Яндексе и Google.


Over 100 kb — изображения больше 100 kb.


Missing Alt Text — не заполнен alt.


Alt Text Over 100 Characters — alt длиннее 100 символов.



Directives

Последняя вкладка, которой необходимо уделить особое внимание. Тут находится информация по использованию директивы canonical. Стоит просмотреть канонические страницы на предмет правильной работы: ссылка должна быть выбрана правильно отдавать код сервера 200. С помощью Reports -> Canonical Errors выгружаем все ошибки директивы.



Это основные моменты, на которые стоит обращать внимание при проведении аудита любого сайта. При постоянной практике, время на потраченное на него не занимает больше 10–15 минут, не считая парсинга. Программа Screaming Frog SEO Spider — лучший инструмент для выявления ошибок на своём сайте.





Так же в этом разделе: