Semalt: HTML қиюға арналған нұсқаулық - кеңестер

Веб-мазмұн көбінесе құрылымдалған немесе HTML форматында болады. Әр бет мазмұны түріне қарай ерекше түрде ұйымдастырылған. Егер біреу веб-ақпараттарды алғысы келсе, бұл әркімнің құрылымды және жақсы ұйымдастырылған түрде алуын қалайды. Бұл құжатты бөлісуден бұрын оны қарау, талдау және ұйымдастыруға қажетті уақытты үнемдеуге көмектеседі. Алайда, құрылымдалған форматты алу оңай емес, өйткені көптеген веб-сайттар адамдардың үлкен көлемде деректерді жинауына жол бермеу үшін мұндай опцияны ұсынбайды. Кейбір сайттар адамдарға жылдам және оңай ақпарат алу мүмкіндігі бар API интерфейстерін ұсынады.

Мұндай жағдайларда сізде «қырғыш» деп аталатын бағдарламалық жасақтаманың көмегінен басқа амал қалмайды. Бұл пайдаланушыларға пайдалы форматта ақпарат жинауға және деректер құрылымын сақтауға көмектесетін компьютерлік бағдарламаны қолданатын әдіс.

Lxml және сұрау

Бұл XML және HTML жылдам талдау мен бағалауға көмектесетін және уақытты үнемдеуге көмектесетін кең ауқымды қырғыш кітапхана. Сондай-ақ, талдау процесінде шатасқан тегтермен жұмыс істеу пайдалы. Бұл процедурада сіз кірістірілген urllib2 емес, Lxml сұрауларын қолданасыз, өйткені ол тез, мықты және тез қол жетімді. Lxml және pip орнату туралы сұраныстарды қолдану арқылы оны орнату оңай.

HTML қайрау үшін келесі қадамдарды орындаңыз

Импорттан бастаңыз - мұнда сіз HTML файлын Lxml-ден импорттайсыз, содан кейін сұраныс импорттаңыз. Сұрауды қолданыңыз, содан кейін шығарғыңыз келетін мәліметтерді қамтитын веб-парақты іздеңіз, HTML модулімен талдаңыз, содан кейін талданған деректерді ағашқа сақтаңыз.

HTML байт түрінде енгізуді күтетіндіктен, мәтіннен гөрі бет мазмұнын пайдалану керек. Сіз талдаған деректерді сақтаған ағашта қазір HTML құрылымы ағаш құрылымында болады. Сіз ағаш құрылымын XPath және CSSelect әртүрлі тәсілдермен жүргізе аласыз.

XPath ақпаратты алуға немесе оны HTML немесе XML сияқты құрылымдалған форматта алуға көмектеседі. XPath элементтерін алудың әртүрлі тәсілдері бар. Оларға Firefox немесе Chrome инспекторына арналған Firebug кіреді. Chrome браузерін пайдалану кезінде ақпаратты тексеру оңай, өйткені тексеруді қажет ететін элементті «тінтуірдің оң жақ түймесімен» нұқып, «Элементті тексеру» тармағын таңдап, берілген кодты белгілеп, тышқанның оң жағын басып, XPath көшірмесін таңдау керек. Бұл процесс сіздің парағыңызда қандай элементтер бар екенін білуге көмектеседі және сол жерден дұрыс XPath сұранысын құру және Lxml XPath дұрыс қолдану оңай.

Осы қадамдарды орындау арқылы белгілі бір веб-тораптан Lxml және Requests арқылы шығарғыңыз келген барлық деректердің жойылғандығына кепілдік беріледі. Сізде ақпарат екі тізімнің жадында сақталады, енді ол сұрыптауға дайын. Сіз оны Python сияқты бағдарламалау тілі арқылы талдай аласыз немесе сақтап, бөлісе аласыз. Сондай-ақ, ақпаратты бөлісуден бұрын кейбір бөліктерін қайта жазғыңыз немесе өңдегіңіз келуі мүмкін.

mass gmail