Для проверки сайтов не всегда нужны платные SEO сервисы. Иногда хватит консоли linux. Ниже будет один скрипт для парсинга Title и Description + команда для wget с помощью которой можно найти все битые ссылки.
Парсинг Title и Description
Честно стырено там. Для начала надо установить wget, curl, xmllint и xpath
#apt install wget curl libxml2-utils libxml-xpath-perl
Далее создаём рабочую директорию например seo и туда кладём следующий скрипт:
#!/bin/bash
if [ $1 ]; then
rm -rf urls.txt metadata.tsv
wget -m $1 2>&1 | grep '^--' | awk '{ print $3 }' > urls.txt
rm -f metadata.tsv
echo -e "URL\tTitle\tMeta-Description\t" > metadata.tsv
while read -r url; do
curl -s "$url" > tmp_file
title=$(cat tmp_file | xmllint --html --xpath '/html/head/title/text()' - 2>/dev/null)
metadesciption=$(cat tmp_file | xmllint --html --xpath 'string(/html/head/meta[@name="description"]/@content)' - 2>/dev/null)
echo -e "$url\t$title\t$metadesciption" >> metadata.tsv
done < "urls.txt"
else
echo "Usage: ./extract.sh "
fi
rm -rf urls.txt tmp_file
Делаем файл исполняемым и можно использовать. Запуск обычный:
$./extract.sh https://example.com/
Скрипт зеркалирует веб-сайт, используя wget для создания списка всех URL-адресов. На втором этапе он снова извлекает все URL-адреса с помощью Curl и извлекает заголовки и метаописания.
Проверка на битые ссылки
Эта часть честно стырена там. Тут используется всего одна команда:
$ wget --spider -r -nd -nv -H -l 1 -w 2 -o url_error.txt https://example.com/