Semalt: 3 чекори до scraping преку веб-страница

Веб-scraping, исто така наречена екстракција на веб податоци или собирање на веб, е процес на вадење податоци од веб-страница или блог. Овие информации потоа се користат за поставување мета-ознаки, мета-описи, клучни зборови и линкови до некоја страница, подобрување на вкупните перформанси во резултатите од пребарувачот.

Две главни техники се користат за избивање на податоци:

  • Разгледување документ - Вклучува XML или HTML документ што се конвертира во датотеките DOM (Document Object Model). PHP ни овозможува одлично продолжение ДОМ.
  • Редовни изрази - тоа е начин за стружење на податоците од веб-документите во форма на редовни изрази.

Проблемот со податоците за стружење на веб-страницата на трети страни е поврзан со неговите авторски права затоа што немате дозвола да ги користите овие податоци. Но, со PHP, можете лесно да ги избришете податоците без проблеми поврзани со авторските права или низок квалитет. Како програмер PHP, можеби ќе ви требаат податоци од различни веб-страници за цели на кодирање. Еве ние објаснивме како да ги добиете податоците од други страници ефикасно, но пред тоа, треба да имате предвид дека на крајот ќе добиете датотеки index.php или scrape.js.

Чекори 1: Создадете формулар за да ја внесете URL адресата на веб-страница:

Како прво, треба да креирате форма во index.php со кликнување на копчето Поднеси и да ја внесете URL-адресата на веб-страницата за стружење на податоците.

<form метод = ”post” name = ”scrape_form” id = ”scrap_form” acti>

Внесете URL на веб-страница за да ги избришете податоците

<input type = "input" name = "website_url" id = "website_url">

<input type = "доставувај" име = "достави" вредност = "Поднеси">

</form>

Чекор 2: Создадете PHP функција за да добиете податоци за веб-страница:

Вториот чекор е да се создадат гребење на функцијата PHP во датотеката scrape.php, бидејќи тоа ќе помогне да се добијат податоци и да се користи библиотеката за URL. Исто така, ќе ви овозможи да се поврзете и да комуницирате со различни сервери и протоколи без проблем.

функција scrapeSiteData ($ website_url)

ако (! function_exists ('curl_init')) {

умре ('CURL не е инсталиран. Ве молиме инсталирајте и обидете се повторно.');

}

$ навивам = curl_init ();

curl_setopt ($ навивам, CURLOPT_URL, $ website_url);

curl_setopt ($ навивам, CURLOPT_RETURNTRANSFER, точно);

$ излез = curl_exec ($ навивам);

curl_close ($ навивам);

поврат на излез од $;

}

Еве, можеме да видиме дали PHP-CURL е инсталиран правилно или не. Треба да се користат три главни cURL во областа на функциите и curl_init () ќе помогне во иницијализирање на сесиите, curl_exec () ќе го изврши, а curl_close () ќе помогне да се затвори врската. Варијаблите, како што се CURLOPT_URL, се користат за поставување на URL-адресите на веб-страницата што треба да ги избришеме. Вториот CURLOPT_RETURNTRANSFER ќе помогне во складирањето на избришаните страници во варијабилната форма, наместо во неговата основна форма, што на крајот ќе ја прикаже целата веб-страница.

Чекори3: Запишете специфични податоци од веб-страницата:

Време е да се справите со функционалностите на вашата PHP-датотека и да го избришете специфичниот дел од вашата веб-страница. Ако не ги сакате сите податоци од одредена УРЛ-адреса, треба да ги уредувате користете ги CURLOPT_RETURNTRANSFER променливите и да ги потенцирате деловите што сакате да ги избришете.

ако (издадете ($ _ ПОСТАТ ['достави'])) {

$ html = scrapeWebsiteData ($ _ ПОСТОТ ['website_url']);

$ start_point = strpos ($ html, 'Најнови пораки');

$ end_point = strpos ($ html, '', $ start_point);

$ должина = $ end_point- $ start_point;

$ html = супстрат ($ html, $ почетна точка, $ должина);

ехо $ html;

}

Ви предлагаме да ги развивате основните знаења за PHP и Редовните изрази пред да користите некој од овие кодови или да изрежете одреден блог или веб-страница за лични цели.

mass gmail