Сложные процессы Простым языком

Как отслеживать ссылки в сети, используя Python

admininfo.info May/2024

Сегодня я собираюсь показать вам, как перемещаться по ссылкам на странице с помощью Python ( очистка веб-страниц ), это может быть очень полезно для автоматического отслеживания содержимого на веб-сайте и не нужно делать это вручную. В программе, которую я привожу, каждая ссылка получается при чтении html, вы можете изменить программу для поиска определенного контента и показывать только те ссылки, в которых вы заинтересованы.

Вы также можете выполнить очистку веб-страниц, используя файл robots.txt или файлы Sitemap, которые есть на веб-сайтах.

примечание

Показанный код работает в Python 3.x, если вы хотите запустить его в версии 2.x, вам придется внести небольшие изменения.

Тогда я оставляю код:

 очередь на импорт import urllib.request import re from urllib.parse import urljoin def download (page): try: request = urllib.request.Request (page) html = urllib.request.urlopen (request) .read () print ("[ *] Загрузить OK >> ", страница) кроме: print ('[!] Ошибка загрузки', страница) return None return html def crawlLinks (page): searchLinks = re.compile ('] + href = ["'] ( . *?) ["']', re.IGNORECASE) queue = queue.Queue () queue.put (page) посещения = [страница] print (" Поиск ссылок в ", страница) while (queue.qsize ()> 0): html = download (queue.get ()), если html == нет: продолжить ссылки = searchLinks.findall (str (html)) для ссылки в ссылках: link = urljoin (page, str (link)) if (link не в гостях): cola.put (ссылка) visit.append (ссылка), если __name__ == "__main__": trackLinks ("http://www.solvetic.com")

Первое, что мы делаем, это импортируем необходимые библиотеки для регулярных выражений (re), чтобы использовать очередь (queue), делать запросы и читать страницу (urllib.request) и для построения абсолютных URL-адресов из Базовый URL и другой URL (urljoin).

Код разделен на 2 функции
скачать

Это помогает нам загрузить HTML страницы. Это не нуждается в подробном объяснении, все, что он делает - это запрос на нужную страницу, читает ее html, если все идет хорошо, он показывает сообщение OK Download, и если он не показывает, что произошла ошибка (здесь мы могли бы показать информацию об ошибке), в конце возвращает чтение html или None.
rastrearEnlaces

Это основная функция и будет проходить через каждую ссылку. Давайте объясним это немного:

Мы создаем переменную с регулярным выражением, которое помогает нам находить ссылки в html.

Мы начинаем переменную типа очереди с начальной страницы, это поможет нам сохранить ссылки в «порядке», который мы обнаружили. Мы также инициируем переменную типа списка с именем посещения, которую мы будем использовать для сохранения ссылок при их посещении, это делается для того, чтобы избежать бесконечного цикла, представьте, что страница x ссылается на страницу y, а это в свою очередь на страницу x все время будем вставлять эти бесконечные ссылки.

Ядром функции является цикл while, который будет выполняться, пока в очереди есть ссылки, поэтому мы проверяем, что размер больше 0. В каждом проходе мы берем ссылку из очереди и отправляем ее в функцию загрузки, что html вернет нас, мы сразу же найдем ссылки и проверим, посетили ли мы его, если нет, добавим его в очередь и в список.

примечание

Может показаться, что список остался, но из очереди мы будем удалять и удалять ссылки, поэтому проверка будет неправильной, возможно, ссылка, которую мы посетили некоторое время назад, и ее больше нет в очереди, но она будет в список

Последняя часть кода, уже находящаяся вне функций, будет отвечать за выполнение кода. На следующем изображении вы можете увидеть снимок бегущего кода, отслеживая решение.

Если вы хотите, чтобы вы могли помочь себе с библиотекой для Python, которая называется BeautifulSoup, с ней вам будет очень легко обращаться, я рекомендую это сделать.

Если вы хотите код, вот почтовый индекс:

RecorrerEnlaces.zip 646 байт 281 скачиваний

СТАТЬЯ ПО ТЕМЕ Как скрыть или показать экран Android уведомлений WhatsApp

WhatsApp - одно из наиболее часто используемых приложений для обмена мгновенными сообщениями на данный момент. WhatsApp, насчитывающий более 1,2 миллиарда активных пользователей, радикально изменил способ общения в последние годы.

Отправка сообщений и файлов через чат WhatsApp стала повседневным делом для общения, будь то в сфере повседневной и личной жизни, а также в других областях, таких как работа. С помощью чатов WhatsApp мы можем собирать всевозможную информацию о человеке из его разговоров, и иногда бывает сложно сохранить конфиденциальность, если он попадет в плохие руки.

В этом случае приложение показывает уведомления на экране блокировки нашего телефона по умолчанию, но может оказаться, что по разным причинам мы не хотим, чтобы они появлялись, чтобы предотвратить доступ любопытных глаз к личной информации. Именно по этой причине сегодня в TechnoWikis мы объясним, как скрыть или показать уведомления WhatsApp как в индивидуальных чатах, так и в групповых чатах на экране блокировки нашего Android-устройства...

Как добавить папки в контекстное меню для отправки в Windows 10: Windows 10 предлагает несколько практических утилит для выполнения повседневных задач гораздо более простым способом, одна из этих задач реализована в контекстном меню, щелкнув правой кнопкой мыши, что дает нам различные варианты использования, и одной из самых ярких является опция Отправить на с помощью которого выбранный элемент, папка или файл можно сжать, отправить на рабочий стол в виде ярлыка, отправить в другие приложения или отправить его другим устройствам на том же локальном компьютере: Одним из преимуществ, которые предлагает нам Windows 10, является возможность настройки этого меню
Как ограничить громкость вашего iPhone или iPad и улучшить качество звука: В настоящее время, по мнению экспертов, проблемы со слухом в последние годы усиливаются. Одной из основных проблем, которая усилила проблему, является постоянное использование наушников. Использование наушников целесообразно, так как таким образом мы не будем мешать окружающим, но всегда с достаточной громкостью, поскольку, если громкость п
Решение Батарея Windows 10 не обнаружена: Существуют различные компоненты, которые играют фундаментальную роль в поведении нашего портативного оборудования, и батарея, несомненно, является одной из самых деликатных, поскольку без нее оборудование просто не включается или должно быть постоянно подключено к энергии, которая производит что «портативная» личность будет потеряна. Поэтому, как пользователи портативного оборудования, мы должны соблюдать особую осторожность с аккумулятором, но что произойдет, если сама система не обнаружит аккумулятор, даже когда мы знаем, что он присутствует и функционирует, есть несколько причин, поэтому мы
Как активировать параметры разработчика на Samsung Galaxy S10: Системы Android содержат скрытые параметры, которые обычный пользователь не может увидеть невооруженным глазом. Эти дополнительные параметры или параметры разработки особенно применимы к экспертам-тестировщикам, которым необходимо активировать определенные параметры и тем самым проверить функциональность на уровне программного обеспечения. Эти настройки, которые после их активации могут использоваться для любых целей, имеют максимальную цель при тестировании приложений, которые обычно выполняются через USB-соединение, и при тестировании на симуляторах. Но чтобы иметь все эти возможности в наших
Как проверить оперативную память с помощью инструмента в Windows 10: Если наш компьютер работает медленно, одной из возможных причин может быть плохое состояние оперативной памяти. Это может быть следствием нескольких факторов и, следовательно, может привести к неправильной работе. Важно, чтобы мы знали о том, как работает наша команда, поскольку плохое управление может привести к негативным изменениям, таким как крайняя медлительность при попытке выполнить

Как отслеживать ссылки в сети, используя Python

СТАТЬЯ ПО ТЕМЕ Как скрыть или показать экран Android уведомлений WhatsApp

Список постов

Читайте сегодня

Статьи от подписчиков

СТАТЬИ

ЧИТАЙТЕ ТАК ЖЕ

НЕДАВНИЕ ПОСТЫ

Популярные посты

Рекомендуем

АКТУАЛЬНО СЕГОДНЯ

Как отслеживать ссылки в сети, используя Python

СТАТЬЯ ПО ТЕМЕ Как скрыть или показать экран Android уведомлений WhatsApp

Список постов

Читайте сегодня

Статьи от подписчиков

СТАТЬИ

Категории

ЧИТАЙТЕ ТАК ЖЕ