Страница 1 из 11
Форум » Проекты Megarelizer » MegaRelizer - программа для оформления релизов » Парсинг контента (получение данных из интернета)
Парсинг контента
OFFOSORG Дата: Вторник, 05.01.2016, 18:03 | Сообщение # 1
Новичок
Группа: Пользователи
Сообщений: 14
Статус: Offline

эх, знал бы я в совершенстве С# :D
По своей натуре являюсь кажется мазохистом - ни один нормальный человек не будет от "нечего делать" собирать всю базу данных названий игр, фильмов... ранее используя сторонний софт, найденный на просторах интернета, я научился "вытаскивать" сей список... однако получение его не быстрое, да и данные имеют свойство устаревать, думаю над тем, как бы "обработать" сей свойство...
Сейчас уже понимаю, что написать скрипт это плевое дело. Для кинопоиска проблем никаких (давным давно и не правда я выкладывал сюда свой скрипт, уж не знаю, может уже устарел). Однако кинопоиск даст нам лишь фильмы, а как быть с играми? Для игр есть ag.ru, однако парсить с него, мягко говоря непросто... Ранее я думал что это и невозможно так как ссылки там имеют не id игры, а само название игры. Однако на днях по счастливой случайности я обнаружил, что ag.ru скрывает нормальный вид ссылок от нас: там существуют ссылки, на конце которых id игр, и уже пройдя по которым нас переадресовывает. Учитывая тот факт, что id можно использовать, это значительно упрощает написание скрипта. Но парсер такой же смертный как и мы с вами) я о том, что парсер ищет таким же поиском на сайте что и обычный человек и уже результаты он и обрабатывает, а там, как возможно некоторые знают, ссылки игр ненормального вида (без id). Поэтому на данный момент я вижу только один вариант при котором будет возможным использовать скрипты для ag.ru - использование сторонней базы данных, которая бы содержала ненормальный вид ссылок и соотносила бы ему нормальную запись. После такого вывода не уверен что буду использовать данную программу, думаю легче написать что-то кривое, но свое... одну программу для получения базы данных для ag.ru, другую для парсинга. А может и вовсе для ag.ru сделать целую базу данных, а затем прога-релизер будет тырить информацию. Просить данные проекта у админа не смею права, хотя учитывая что наш админ занятой человек, думаю хоть какую то пользу, но я бы принес проекту. Всем спасибо за внимание!D

upd: самое "тяжелое" в возможной базе это постеры, которые мы можем использовать при оформлении. Но по своему опыту, эти постеры с кинопоиска не берутся просто так, для того чтобы удовлетворять правилам ресурса куда заливаем, необходима некая обработка картинки, например урезать немного... да и нужна нам всего одна картинка... поэтому если мой проект и будет, но картинок там не будет... а если так, то сделать оффлайн программу на сколько это возможно, это здорово... 1 раз просканировал сайты, создал базы данных (да, я не говорю что это будет быстро), и потом используешь загруженные данные хоть без интернета под рукой. Проблемой лично для меня пока что является устаревание данных, как бы сделать повторное сканирование куда быстрее, либо с показом изменений с последнего сканирования.





Сообщение отредактировал OFFOSORG - Вторник, 05.01.2016, 18:48
 
Админ Дата: Вторник, 05.01.2016, 19:07 | Сообщение # 2
Группа: Администраторы
Сообщений: 136
Статус: Offline

OFFOSORG, существуют универсальные парсеры информации, с помощью которых можно выгружать любую информацию и отсутствие айди материалов этому не помеха. Для поддержки базы в актуальном состоянии можно периодически повторять операцию или подписаться на обновления и выгружать только новые материалы.

Знаю один такой парсер Content Downloader, но есть и другие.

Так что незачем что-то придумывать, готовых инструментов предостаточно.



 
OFFOSORG Дата: Вторник, 05.01.2016, 21:47 | Сообщение # 3
Новичок
Группа: Пользователи
Сообщений: 14
Статус: Offline

Ого, оперативно же Вы) Благодарю
Да уж, хорошая программа, а то я уже искал, как бы мне велосипед изобрести :D
ого, это не велосипед... тут уже ракету изобрели, пока я над велосипедом бился, вот это функционал... большое Вам спасибо, что осведомили

upd: жуть, на что способна данная программа... она может вообще всё что мне нужно, вы меня прям спасли от самого себя сказав про нее
эх, у кого нибудь есть активированная версия? поделитесь пожалуйста кому не жалко(
(если не найду, придется всё таки изобретать велосипед)





Сообщение отредактировал OFFOSORG - Среда, 06.01.2016, 04:56
 
Админ Дата: Среда, 06.01.2016, 11:19 | Сообщение # 4
Группа: Администраторы
Сообщений: 136
Статус: Offline

OFFOSORG, в интернете есть крякнутые старые версии, но лицензионная стоит не такие большие деньги, чтобы отказываться от возможности использовать весь доступный на сегодняшний день функционал. 

Эту программу легко можно применять вместо всяких оформлялок релизов ( в том числе мегарелизер;) ). Все равно их в основном используют только для оформления, а такие операции как создание скриншотов, формирование медиаинфо, делаются в специализированных программах и потом руками добавляются в текст релиза. Причем в Content Downloader нет, как в оформлялках релизов, ограничений на скачивание информации с сайтов. Загрузить можно все, что угодно.

Так что эта программа стоит своих денег и должна быть в комплекте всех, кто занимается граббингом, парсингом и постингом интернет контента).



 
Форум » Проекты Megarelizer » MegaRelizer - программа для оформления релизов » Парсинг контента (получение данных из интернета)
Страница 1 из 11
Поиск:


MegaRelizer
Наши партнеры
Яндекс цитирования Яндекс.Метрика