Процес сканування веб-сторінок
- Визначте цільовий веб-сайт.
- Зберіть URL-адреси цільових сторінок.
- Зробіть запит до цих URL-адрес, щоб отримати HTML сторінки.
- Використовуйте локатори, щоб знайти інформацію в HTML.
- Збережіть дані у файлі JSON або CSV або в іншому структурованому форматі.
- Зареєструйте веб-API.
- Створіть аналізатор JSON.
- Створіть набір даних JSON.
- Створіть мережу знань.
- Створити трансформацію.
- Створіть робочий процес.
Загалом, ось основні етапи того, як отримати дані з Інтернету:
- Визначте тип даних, які ви хочете отримати та обробити.
- Знайдіть, де відображаються дані, і побудуйте шлях копіювання.
- Імпортуйте та інсталюйте необхідні передумови.
- Напишіть сценарій вилучення даних і реалізуйте його.
Джерела даних веб-сервісу використовувати пул підключень для отримання даних. Тобто кожне джерело даних має власний пул HTTP-з’єднань, щоб уникнути створення нового для кожного запиту та повторно використовувати існуючі.
процес
- Створіть вихідне HTTP-з’єднання.
- Створіть цільове підключення для реляційної бази даних і протестуйте його.
- Створіть формат для корисного навантаження, яке повертає веб-служба, швидше за все, JSON або XML.
- Link Connection і Format і перевірте відповідь для веб-служби в EXPLORER.
Поки це законно збирати загальнодоступну інформацію з загальнодоступних веб-сайтів, дії з копіювання веб-сайтів можуть порушувати закони про добросовісне використання, закони про конфіденційність і закони про авторське право або становити порушення контракту.