Skip to content
Uudet virat
  • Systemkrav för Windows 11
  • Windows 11 nolldagssårbarhet gör vem som helst till administratör
  • Windows 11 får omgjorda 2D-emojis
  • Hur man installerar drivrutiner och valfria uppdateringar på Windows 11
  • Hur man återställer raderade filer med winfr easy mode på Windows 10
onioni tech

Vain yksi tekninen sivustoz

  • Home
  • Technology News
  • Linux
  • Windows
  • Mac
  • Hardware
  • Internet
  • More
    • Opinions
    • Productivity
    • Smart Home
onioni tech

Vain yksi tekninen sivustoz

  • Home
  • Technology News
  • Linux
  • Windows
  • Mac
  • Hardware
  • Internet
  • More
    • Opinions
    • Productivity
    • Smart Home
onioni tech

Vain yksi tekninen sivustoz

Home - Internet - Hur man använder ett dataskrapningsverktyg för att extrahera data från webbsidor

Data Miner-funktion

Hur man använder ett dataskrapningsverktyg för att extrahera data från webbsidor

    fredag maj 7, 2021

Contents

  • 1 Hur man använder ett dataskrapningsverktyg för att extrahera data från webbsidor
    • 1.1 Hur fungerar Data Miner?
    • 1.2 1. Ställ in Data Miner
    • 1.3 2. Ladda data
    • 1.4 3. Sök efter ett recept
    • 1.5 4. Sidtyp
    • 1.6 Steg 5: Gör dina rader
    • 1.7 6. Dela upp dina data i kolumner
    • 1.8 7. Berätta för Data Miner hur man kommer till nästa sida
    • 1.9 8. Berätta för Data Miner var du ska klicka eller bläddra för att ladda data
    • 1.10 9. Spara och kör receptet
    • 1.11 Jag har problem; finns det ett enklare sätt?

Hur man använder ett dataskrapningsverktyg för att extrahera data från webbsidor

Om du kopierar och klistrar in saker från webbsidor och manuellt lägger dem i kalkylark vet du antingen inte vad dataskrapning (eller webbskrapning) är, eller så vet du vad det är men är inte riktigt angelägen om idén om lära sig att koda bara för att spara några timmar med att klicka.

Hur som helst finns det många verktyg utan datakodning utan kod som kan hjälpa dig, och Data Miners Chrome-tillägg är ett av de mer intuitiva alternativen. Om du har tur kommer uppgiften du försöker att redan inkluderas i verktygets receptbok och du behöver inte ens gå igenom pek-och-klicka-stegen som är involverade i att bygga din egen.

Hur fungerar Data Miner?

Data Miner hjälper dig att få bort data från webbsidor och till snyggt formaterade Excel / CSV-filer genom att titta igenom texten på sidorna du har laddat. Det betyder att du måste vara åtminstone bekväm med HTML för att känna igen några mönster, men inget för omfattande. Avancerade HTML- och / eller JavaScript-färdigheter hjälper säkert med vissa uppgifter men är inte nödvändiga för de flesta saker. Du bör också ha åtminstone grundläggande kalkylarkompetens så att du kan vara säker på att din produktion är ren och organiserad.

1. Ställ in Data Miner

Data Miner Extension

Med hjälp av Chrome eller en annan Chromium-webbläsare, installera tillägget. Tilläggets pickaxe-ikon visas i verktygsfältet och genom att klicka på den kommer du till en sida där du kan skapa ett konto. Den gratis versionen ger dig 500 skrapor i månaden, vilket nog räcker för dig om du inte gör något varje dag.

2. Ladda data

Data Miner Load

Navigera först till den sida du vill extrahera data från. Om du har flera sidor med data eller om något av det är gömt bakom knapparna, är det okej – det finns sätt att hantera det. För närvarande behöver du bara ett representativt prov så att programmet vet vad du ska leta efter.

3. Sök efter ett recept

Data Miner Recept

Öppna sedan Data Miner och kontrollera fliken ”Offentlig” för befintliga recept. Om du är på en populär webbplats kan det hända att någon annan redan har skapat en process för att få den data du letar efter, vilket skulle spara en hel del tid. Webbplatser som Google, Amazon och Twitter har till exempel massor av recept tillgängliga för att direkt ladda ner länkar, priser, text och annan information. Du kan testa recepten genom att klicka på knappen ”Kör” för att se en förhandsgranskning av kalkylbladet som Miner genererar. Du kan också justera befintliga recept för att passa dina behov genom att trycka på knappen ”Redigera”.

4. Sidtyp

Datatillverkare sidtyp

Okej, så inga färdiga recept fungerade för dig. Det är okej, du kan göra din egen. Klicka bara på knappen ”Nytt recept” för att starta.

Ditt första val är ”Lista sida” eller ”Detaljsida.”

Välj “Lista sida” om du försöker få flera rader med data från en enda sida. Du kanske till exempel vill ladda ner länken och sidrubriken för varje sökresultat eller få datum och innehåll för inlägg i ett flöde. Det här är förmodligen den vanligaste typen och den som vi använder här som en demo. (Stegen för en detaljsida är i stort sett desamma.)

Välj “Detaljsida” om du har mycket olika information om en sak på en sida – en produktsida, till exempel, där du måste ta tag i pris, beskrivning, länk och betyg och placera allt i en enda rad.

Steg 5: Gör dina rader

Data Miner Row Select 4

Tryck på ”Sök” -knappen och flytta musen tills den gula markeringsrutan täcker all information du behöver för en enda post i ditt slutliga kalkylblad. Om du till exempel laddar ner sökresultat måste du markera ett tillräckligt stort område för att inkludera titel, URL och beskrivning, som du kan lägga i separata kolumner i nästa steg. För att göra ditt val, tryck på Flytta nyckel. Oroa dig inte om du av misstag klickar; Data Miner sparar alla dina receptförlopp även om du navigerar bort från sidan.

Du vill sedan markera minst en av rutorna i avsnittet ”Elementets klasser” eller ”HTML-elementtyp”. Helst ser du att valet replikeras för att täcka varje element på sidan som är i samma kategori som det du valt.

Data Miner Row Select 5

Om du upptäcker att väljaren inte täcker allt du behöver, försök att välja bara ett av elementen och trycka på ”Välj förälder”. Detta kommer att göra lådan större och förmodligen fånga allt du behöver. Om inte, kan du behöva gräva lite i HTML och identifiera klasserna och typerna av de element du behöver. När du är osäker trycker du på ”Välj förälder” tills rutan är så stor som den kan bli utan att täcka mer än en lista, eftersom detta ger dig mer flexibilitet när du väljer kolumner.

Data Miner ger dig alternativet ”Visa elementets HTML” längst ner och låter dig också skriva in anpassade väljare. Om du vill säga, ta tag i alla länkar på en sida med klassen ”produkt”, du kan bara skriva in a.product. Det är här en del grundläggande HTML / CSS-kunskaper verkligen kommer till nytta.

Data Miner Row Select 6

När du väl är tillbaka i huvudradmenyn ska du se ett ”Radantal” med antalet poster som ditt recept skapar i ett kalkylark. Om det inte fångar allt måste du dubbelkolla ditt radval.

6. Dela upp dina data i kolumner

Data Miner Col Select 1

När du väl har valt all data för dina rader, är det dags att se allt bra ut genom att dela upp det i olika kolumnkategorier. Varje val du gör här bör vara ett underavsnitt av rutan du valt för dina rader.

Data Miner Col Select 2

För att skapa en kolumn skriver du bara in ett namn på den och använder Sök-knappen för att välja vad du vill extrahera, precis som du gjorde för raderna. De vanligaste uppgifterna är förmodligen text, URL eller bild-URL. Att få webbadresser genom att hålla muspekaren över textlänkar kan vara lite knepigt; du kan behöva trycka på ”välj förälder” tills du når en nivå där elementtypen är <a>, som är HTML-taggen för länkar.

Data Miner Col Select 1

För att se till att du har rätt typ av data i din kolumn, tryck bara på ögonikonen till höger om varje kolumn namn, bredvid numret som visar hur många kolumner som har valts. Detta visar en förhandsgranskning av varje radpost för den kolumnen. Om något är avstängt, gå tillbaka och justera taggarna och typerna du valde för att identifiera raderna. Var inte rädd för att öppna HTML-visaren och leta efter mönster associerade med den data du försöker fånga.

7. Berätta för Data Miner hur man kommer till nästa sida

Data Miner Nav 1

Om du har flera sidor med data att extrahera vill du antagligen inte klicka igenom alla och köra ditt recept om och om igen. För att komma runt det, berätta bara för Data Miner var du hittar navigeringsknappen den behöver klicka för att komma till nästa sida. Var noga med att inte säga att den klickar på något som “Sida 2”, då går det bara till, ja, sida 2. Återigen, se till att du väljer en <a> och använd testnavigeringsknappen för att se till att den fungerar.

Data Miner Nav 2

8. Berätta för Data Miner var du ska klicka eller bläddra för att ladda data

Data Miner Actions Element Klicka

Vissa sidor laddar inte data förrän du klickar på något eller bläddrar nedåt. Lyckligtvis kan Data Miner också göra dessa saker! Använd ”Sök” -verktyget högst upp (du borde vara ganska bra på för att välja det element du behöver manipulera, sätt sedan väljaren i lämplig ruta och testa den för att se till att den fungerar.

Att räkna ut exakt vilken väljare som kommer att aktivera elementet eller oändlig rullning kan vara svårt, men grundläggande HTML-kunskap och lite försök och fel kommer att få dig ganska långt här. De flesta saker du behöver manipulera här är JavaScript-baserade, men Data Miner behöver bara veta CSS-väljaren som är associerad med åtgärden för att aktivera den, så du behöver inte röra dig med någon kod i de flesta fall.

Nästa steg låter dig också lägga till anpassad JS för att göra ganska mycket vad du vill, men det är ganska avancerat och går utöver vad vi behöver för grundläggande skrapning.

9. Spara och kör receptet

Data Miner Save

Grattis! Nu är det dags att se om allt sammanföll. Kör receptet på sidan du är på och kontrollera förhandsgranskningen för att se om dina rader och kolumner gör vad de ska. Om inte, kan du gå tillbaka och redigera receptet.

Data Miner Run 1

Om allt fungerar som det ska, kan du använda knappen ”Nästa sida” för att berätta för skrapan hur många sidor den ska krypa och hur snabbt den ska gå / (att gå för fort kan få systemet att flagga dig som en bot.)

Data Miner Run Pagination

När du har all information du behöver kan du välja vilket filformat du vill använda för att ladda ner det.

Data Miner Excel Csv

Jag har problem; finns det ett enklare sätt?

Om Data Miner-programmet inte fungerar för dig finns det många andra dataskrapningsverktyg tillgängliga: ParseHub, Scraper, Octoparse, Import.io, VisualScraper, etc. Vissa av dem kan ha mer intuitiva gränssnitt och mer automatisering, men du måste fortfarande veta åtminstone lite om HTML och hur webben är organiserad. Vad som gör Data Miner särskilt trevligt för nybörjare är dess massbaserade receptbibliotek, vilket potentiellt kan hjälpa dig att undvika även det mest mindre mötet med koden. Det, i kombination med dess ganska generösa gratis månatliga skrappaket, gör det till ett mycket anständigt verktyg för de flesta behov.

#Hur #man #använder #ett #dataskrapningsverktyg #för #att #extrahera #data #från #webbsidor

How much onions deserves this post?

Click a onion to throw it!

Average rating 0 / 5. Vote count: 0

No votes so far! Be the first to rate this post.

Inläggsnavigering

Previous Article
Next Article

Senaste inläggen

  • Systemkrav för Windows 11
  • Windows 11 nolldagssårbarhet gör vem som helst till administratör
  • Windows 11 får omgjorda 2D-emojis
  • Hur man installerar drivrutiner och valfria uppdateringar på Windows 11
  • Hur man återställer raderade filer med winfr easy mode på Windows 10

Kategorier

  • Deals
  • News
  • Software Tools

Sitemaps

FINLAND | SWEDEN | NORWAY zz
Contact
ONIONI.FI
We use cookies on our website to give you the most relevant experience by remembering your preferences and repeat visits. By clicking “Accept”, you consent to the use of ALL the cookies.
Cookie settingsACCEPT
Manage consent

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary
Alltid aktiverad
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
SPARA OCH ACCEPTERA

Terms and Conditions - Privacy Policy