Π£ Π½Π°Ρ Π²Ρ ΠΌΠΎΠΆΠ΅ΡΠ΅ ΠΏΠΎΡΠΌΠΎΡΡΠ΅ΡΡ Π±Π΅ΡΠΏΠ»Π°ΡΠ½ΠΎ Web-Π‘ΠΊΡΠ°ΠΏΠΈΠ½Π³ ΠΈ ΠΠ²ΡΠΎΠΌΠ°ΡΠΈΠ·Π°ΡΠΈΡ: ΠΠ°ΠΊ ΠΈΠ·Π²Π»Π΅ΡΡ ΠΈ ΡΠΎΡ ΡΠ°Π½ΠΈΡΡ ΡΠ΅ΠΊΡΡ Ρ Π²Π΅Π±-ΡΠΎΡΡΠΌΠ° ΠΈΠ»ΠΈ ΡΠΊΠ°ΡΠ°ΡΡ Π² ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡΠ½ΠΎΠΌ Π΄ΠΎΡΡΡΠΏΠ½ΠΎΠΌ ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅, ΠΊΠΎΡΠΎΡΠΎΠ΅ Π±ΡΠ»ΠΎ Π·Π°Π³ΡΡΠΆΠ΅Π½ΠΎ Π½Π° ΡΡΡΠ±. ΠΠ»Ρ ΡΠΊΠ°ΡΠΈΠ²Π°Π½ΠΈΡ Π²ΡΠ±Π΅ΡΠΈΡΠ΅ Π²Π°ΡΠΈΠ°Π½Ρ ΠΈΠ· ΡΠΎΡΠΌΡ Π½ΠΈΠΆΠ΅:
ΠΡΠ»ΠΈ ΠΊΠ½ΠΎΠΏΠΊΠΈ ΡΠΊΠ°ΡΠΈΠ²Π°Π½ΠΈΡ Π½Π΅
Π·Π°Π³ΡΡΠ·ΠΈΠ»ΠΈΡΡ
ΠΠΠΠΠΠ’Π ΠΠΠΠ‘Π¬ ΠΈΠ»ΠΈ ΠΎΠ±Π½ΠΎΠ²ΠΈΡΠ΅ ΡΡΡΠ°Π½ΠΈΡΡ
ΠΡΠ»ΠΈ Π²ΠΎΠ·Π½ΠΈΠΊΠ°ΡΡ ΠΏΡΠΎΠ±Π»Π΅ΠΌΡ ΡΠΎ ΡΠΊΠ°ΡΠΈΠ²Π°Π½ΠΈΠ΅ΠΌ, ΠΏΠΎΠΆΠ°Π»ΡΠΉΡΡΠ° Π½Π°ΠΏΠΈΡΠΈΡΠ΅ Π² ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΡ ΠΏΠΎ Π°Π΄ΡΠ΅ΡΡ Π²Π½ΠΈΠ·Ρ
ΡΡΡΠ°Π½ΠΈΡΡ.
Π‘ΠΏΠ°ΡΠΈΠ±ΠΎ Π·Π° ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ ΡΠ΅ΡΠ²ΠΈΡΠ° savevideohd.ru
Π ΡΡΠΎΠΌ ΡΡΠΎΠΊΠ΅ ΠΌΡ ΠΏΠΎΠΊΠ°ΠΆΠ΅ΠΌ Π²Π°ΠΌ, ΠΊΠ°ΠΊ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ Python Π΄Π»Ρ Π°Π²ΡΠΎΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΠΎΠ³ΠΎ ΠΈΠ·Π²Π»Π΅ΡΠ΅Π½ΠΈΡ ΡΠ΅ΠΊΡΡΠ° Ρ Π²Π΅Π±-ΡΡΡΠ°Π½ΠΈΡ ΠΈ Π΅Π³ΠΎ ΡΠΎΡ
ΡΠ°Π½Π΅Π½ΠΈΡ Π² ΡΠ°ΠΉΠ». ΠΡ Π²ΠΎΠ·ΡΠΌΠ΅ΠΌ Π²Π΅Π±-ΡΠΎΡΡΠΌ ΠΊΠ°ΠΊ ΠΏΡΠΈΠΌΠ΅Ρ ΠΈ Π½Π°ΡΡΠΈΠΌΡΡ ΠΏΠ°ΡΡΠΈΡΡ ΠΈ ΠΊΠΎΠΏΠΈΡΠΎΠ²Π°ΡΡ ΡΠ΅ΠΊΡΡ ΠΈΠ· ΡΠ°Π·Π½ΡΡ
ΡΡΡΠ°Π½ΠΈΡ ΡΠ΅ΠΌΡ Π½Π° ΡΠΎΡΡΠΌΠ΅. Π‘ ΠΏΠΎΠΌΠΎΡΡΡ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠΈ requests ΠΌΡ Π·Π°Π³ΡΡΠ·ΠΈΠΌ HTML-ΠΊΠΎΠ΄ ΡΡΡΠ°Π½ΠΈΡ, Π° Ρ ΠΏΠΎΠΌΠΎΡΡΡ BeautifulSoup ΠΏΡΠΎΠ°Π½Π°Π»ΠΈΠ·ΠΈΡΡΠ΅ΠΌ Π΅Π³ΠΎ ΠΈ ΠΈΠ·Π²Π»Π΅ΡΠ΅ΠΌ Π½ΡΠΆΠ½ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅. ΠΠ°ΡΠ΅ΠΌ ΠΌΡ ΡΠΎΠ»ΡΠ΅ΠΌ Π²ΡΠ΅ ΡΠ΅ΠΊΡΡΡ Π² ΠΎΠ΄ΠΈΠ½ ΡΠ°ΠΉΠ» Π΄Π»Ρ ΡΠ΄ΠΎΠ±ΡΡΠ²Π° Π΄Π°Π»ΡΠ½Π΅ΠΉΡΠ΅ΠΉ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ. ΠΡΠ»ΠΈ Π²Π°Ρ ΠΈΠ½ΡΠ΅ΡΠ΅ΡΡΠ΅Ρ Π²Π΅Π±-ΡΠΊΡΠ°ΠΏΠΈΠ½Π³, Π°Π²ΡΠΎΠΌΠ°ΡΠΈΠ·Π°ΡΠΈΡ ΠΈΠ»ΠΈ ΡΠ°Π±ΠΎΡΠ° Ρ Π΄Π°Π½Π½ΡΠΌΠΈ ΠΈΠ· ΠΈΠ½ΡΠ΅ΡΠ½Π΅ΡΠ°, ΡΡΠΎΡ ΡΡΠΎΠΊ ΡΠΎΡΠ½ΠΎ Π΄Π»Ρ Π²Π°Ρ!
Π‘Π°ΠΌ ΠΊΠΎΠ΄ (Π½Π° Π΄Π°ΡΡ ΠΏΡΠ±Π»ΠΈΠΊΠ°ΡΠΈΠΈ ΡΡΠ°ΡΡΠΈ ΡΠ°Π±ΠΎΡΠ°Π» Ρ 4ΠΠΠ 8-):
import requests
from bs4 import BeautifulSoup
def extract_text_from_page(url):
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.content, 'html.parser')
post_contents = soup.find_all('div', class_='post_body')
text = '
'.join([post.get_text() for post in post_contents])
return text
else:
print(f"Failed to retrieve the page. Status code: {response.status_code}")
return None
def main():
base_url = "https://4pda.to/forum/index.php?showt..."
page_number = 0
posts_per_page = 20
total_pages = 153 # ΡΡΡΠ°Π½ΠΈΡΡ ΡΡΠΈΡΠ°ΡΡΡΡ Ρ 0, ΠΏΠΎΡΡΠΎΠΌΡ 152 + 1
with open('output.txt', 'w', encoding='utf-8') as output_file:
for _ in range(total_pages):
url = f"{base_url}{page_number}"
page_text = extract_text_from_page(url)
if page_text:
output_file.write(page_text + '
')
print(f"Processed {url}")
page_number += posts_per_page
if _name_ == "__main__":
main()