Нужно импортировать данные из протокола содержащегося в интернете на нескольких страницах. Урл страницы выглядит следующим образом:
http://www.site.ru/id=НОМЕР&page_id=1
На странице после шапки и номеров страниц лога
1 | 2 | 3 | 4 | 5 | >>
идет 50 строк с информацией, которую собственно и нужно импортировать в эксель.
При использовании встроенного экселевского механизма "Получить внешние данные Из Веба" столкнулся с рядом проблем:
1. Отдельно "50 строк с информацией" импортировать отказывается (нет стрелочки на которую нажимать), поэтому приходится главную таблицу импортировать - полностью страницу.
2. При импортировании на выходе получаю таблицу без форматирования, а мне нужно чтобы форматирование текста цветом сохранилось, на базе этого форматирования будет осуществляться дальнейший анализ.
3. Как сделать чтобы можно было сразу импортировать много страниц? В идеале задать глубину запроса для части урла page_id=1 и до 50 например, задать НОМЕР в урле (он для разных ситуация разный может быть), и еще задать интервал с которым можно обращаться к следующей странице (если очень быстро все страницы запрашивать сайт забанит айпи).
4. Можно ли сразу при импортировании отсекать ненужные строки, строки которые не содержат например заранее заданную подстроку "superpuper"? Я при обработке данных пользуюсь таким приемом [=ЕСЛИ((ПРАВСИМВ(A1;10))="superpuper";1;0)], зная что искомая подстрока всегда находится в конце текста и занимает ровно 10 символов, а потом фильтрую единички по этому столбцу. Мне не очень удобно потом с таблицей с фильтром работать, есть ли способ более красиво создать новую таблицу содержащую только строки с текстом "superpuper"?
Хотелось бы разобраться с этими нюансами в комплексе, но если будут какие-то отдельные советы по пунктам, то тоже буду очень рад.