Web-Scrapying

"www.kitapyurdu.com" ve "www.kitapsepeti.com" web sitesini taramak ve farklı kategorilerdeki kitaplar hakkında bilgi toplamak için tasarlanmıştır. Örümcek, Python dilinde yazılmış olup web kazıma işlemleri için Scrapy framework kullanmaktadır.

Özellikler

Kategori sayfasını kazıyarak kitap bilgilerini, yazar, yayınevi ve fiyat gibi veriler toplar.
Sayfalama işlemini yöneterek her kategorideki birden çok sayfayı tarar.
Scrapy'nin XPath ve CSS seçicilerini kullanarak HTML yanıtından veri çıkarır.
Kazıma verilerini işlemek için özel ayarlar ve veri akışı (pipeline) kullanır.
Kazıma verilerini farklı collections ile MongoDb' de saklar

Item Pipelines

Bu Scrapy projelerinde, kazıma işlemi sonucunda elde edilen verileri depolamak için MongoDB'ye kaydeden iki adet öğe (item) pipeline tanımlanmıştır.

KitapyurduPipeline ve KitapsepetiPipeline

Bu pipeline, "www.kitapyurdu.com" ve "www.kitapsepeti.com" web sitelerinde kazılan verileri MongoDB veritabanına kaydetmek için kullanılır.

mongo_uri: MongoDB bağlantı URI'si.
mongo_db: MongoDB veritabanı adı.
collection_name: Kaydedilecek verilerin saklanacağı koleksiyon adı.

Database Örnek Kod Çıktısı:

 "category_title": "Akademik",
        "yeni_cikanlar": [
            {
                "book_name": "Fransa’da Yerel Yönetimler Ve Yerelleşme Reformları (Fransız İhtilalinden 2020’lere)",
                "book_publisher": "SON ÇAĞ YAYINLARI-AKADEMİK",
                "book_author": "  Turgut Atasoy",
                "book_price": 190.75
            },

MongoDB Çıktısı:

Quickstart

Repoyu klonlayın ve içine girin

git clone https://github.com/tayyipkorkmaz/Web-Scrapying.git
cd Web-Scrapying/smartmaple

Poetry'yi indirin ve bağımlılıkları indirin

python -m pip install poetry
poetry install
poetry shell

Spiderleri başlatın

poetry run python main.py

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
smartmaple		smartmaple
README.md		README.md
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Web-Scrapying

Özellikler

Item Pipelines

Quickstart

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Web-Scrapying

Özellikler

Item Pipelines

Quickstart

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages