This is a mirror of official site: http://jasper-net.blogspot.com/

Скрейпинг сайтов с .Net и WatiN

| Thursday, March 11, 2010
Рано или поздно у каждого разработчика появится соблазн «скачать» какой-нибудь сайт, либо для того чтобы получить или проанализировать определенный контент, либо просто доказать себе что это в его (её) силах. На самом деле, получить доступ к HTML определенного сайта просто, но проблемы начинаются тогда, когда сайт требует авторизации или содержит контент в виде картинки (например капчу или текст). В этом посте я расскажу какими методами я получаю контент с сайтов и что я с ним делаю.
Как получить текст?

Первый инструмент который я использую называется WatiN. Этот фреймворк используется для интерактивного тестирования веб-приложений. С помощью него, ваша .Net программа может открыть браузер, перейти на определенную страницу, нажать на кнопку или проверить что открылось ожидаемое окошко. WatiN предоставляет более-менее объектную модель, с помощью которой можно разбирать страницу на ее DOM составляющие и вытаскивать из них информацию.

Read more: Дмитрий Нестерук – Статьи

Posted via email from jasper22's posterous

2 comments:

Anonymous said...

У нас в жж за такой пост бы закидали какашками в каментах:)

Anonymous said...

Подскажите, а у вас сквозную ссылку купить можно? Если да, сообщите цену на мыло, пожалуйста?