Herkese Açık Kullanıcı Tarafından Oluşturulan İçeriği Çıkarmanın Yasallığı – PromptCloud

Yayınlanan: 2017-08-22

Bir web veri çözümleri şirketi olarak, web kazımanın yasallığı hakkında sık sık sorularla karşılaşıyoruz. Bu soruyu yanıtlamaya başlamadan önce, "web kazıma" terimini anlayalım. Basitçe söylemek gerekirse, ilgili bilgileri toplamak için web sayfalarından veri çıkarmayı içeren web taramasının (web sayfalarını bulma ve indirme) bir parçasıdır. Buradaki kilit faktör, bir botun (Google botuna benzer) bu aktiviteyi otomatik bir şekilde gerçekleştirmesi ve böylece bir kişinin manuel aktivitelerini ortadan kaldırmasıdır. Botlar içerik almak için web sayfalarına çarptığında, tarayıcı aracısının sayfaları arama şekline oldukça benzer şekilde davranırlar. Peki, neden “kazıma” etrafında bu kadar çok çember var? Bunun nedeni, öncelikle yerleşik protokollere saygısızlıktan kaynaklanabilir.

Herkese Açık Kullanıcı Tarafından Oluşturulan İçerik

Web'den veri taramak isteyen herkesin uyması gereken bazı temel kurallar şunlardır:

  • Robots.txt dosyası

Bu dosya, bir web sitesinin nasıl taranmak istediğini belirtir. Erişilebilir sayfaların, kısıtlanmış sayfaların listesini, açıkça belirtilen botların dışında, taramasına izin verilen veya taranması engellenen istek limitini içerir. robots.txt dosyasını okuma ve bunlara saygı gösterme hakkında daha fazla bilgi edinmek için bu gönderiye göz atın.

  • Kullanım Şartları

Bir diğer önemli kontrol noktası, bu verilerin diğer yönergelerle birlikte nasıl toplanması ve kullanılması gerektiğine ilişkin ayrıntılardan bahseden şartlar ve koşullar sayfasıdır. Bu sayfada bahsedilen hiçbir şeyi ihlal etmediğinizden emin olun.

  • Herkese açık içerik

Siteden izin almadığınız sürece, halka açık olan verilere bağlı kalın. Bu, verilere yalnızca oturum açarak erişilebiliyorsa, bunun botlar için değil site kullanıcıları için olduğu anlamına gelir.

  • Tarama sıklığı

robots.txt dosyası, botların siteye girebileceği tarama sıklığından ve hızından bahseder. Bu nedenle, buna bağlı kalmalısınız ve bunun belirtilmemesi durumunda, site sunucusunun isabetlerle aşırı yüklenmemesini sağlamak sizin sorumluluğunuzdadır. Bu, sıyırıcının kibar olduğundan emin olmak için gereklidir; sunucu kaynaklarını tüketmez ve gerçek kullanıcılara hizmet veremez.

Bu zorunlu kuralların dışında, bu gönderide ele alınan web kazıma için başka en iyi uygulamalar da vardır. İlk sorumuza geri dönersek, yani web kazıma yasal mı değil mi?—Yukarıda belirtilen kurallara uyuyorsanız, yasal çevrede olduğunuzu güvenle söyleyebiliriz. Ancak, tamamen güvenli tarafta olmak için bunu bir avukat tarafından doğrulamanız gerekir. Facebook vs. Pete Warden, Associated Press vs. Meltwater holdings, Inc., Southwest Airlines Co. v. BoardFirst, LLC ve daha fazlası gibi birkaç dava vakası olmuştur.

Bununla birlikte, etrafımızda daha büyük bir soru var - petabaytlarca kamuya açık veriyi (özellikle kullanıcı tarafından oluşturulan verileri) barındıran güçlü şirketler, bunlara erişim sağlarken seçici olmalı mı? Bu soru, temel olarak LinkedIn (Microsoft'a ait) ve hiQ Labs'ın dahil olduğu yasal işlemlerle ilgili son olaylara odaklanıyor. Deneyimsizler için hiQ Labs, makine öğrenimi algoritmalarını eğitmek için LinkedIn'deki herkese açık profillerden veri toplayan bir başlangıçtır. Mayıs ayında LinkedIn, hiQ'ya sosyal ağından veri toplamayı durdurmalarını söyleyen bir durdurma (C&D) mektubu gönderdi. Mektup, Craigslist Inc. v. 3Taps Inc. de dahil olmak üzere, kararın 3Taps aleyhine olduğu ve Craigslist tarafından uygulanan IP engelleme tekniklerini atladıkları için Bilgisayar Dolandırıcılığı ve Kötüye Kullanımı Yasası'nı ihlal ettiği tespit edilen birkaç davadan bahsediyordu. Ayrıca LinkedIn'in herkese açık verilere erişmesini engellemek için teknik önlemler uyguladığını da belirtmeliyiz. Ancak HiQ Labs, LinkedIn'in antitröst yasalarını ihlal ettiğini öne sürerek Haziran ayında LinkedIn'e dava açarak yanıt verdi.

HiQ'nun gündeme getirdiği en önemli sorunlardan biri, LinkedIn'in önceki teklifler tarafından caydırılabilecek kendi analitik ve veri bilimi çözümlerini sunmak istediğini belirten rekabete aykırı uygulamaları hakkındadır. Ayrıca, LinkedIn'in onu yıllardır bildiğini ve hatta belirli bir veri analizi konferansında hiQ'dan bir ödül bile aldıklarını belirtiyorlar.

Sorunların özüne gelince, LinkedIn'deki herkese açık profil sayfalarına erişmek için “yetkilendirme” gerekmediğini görebiliriz. Bu nedenle, LinkedIn'in bu verileri kazımanın, bir kimlik doğrulama gereksinimini atlayarak Bilgisayar Dolandırıcılığı ve Kötüye Kullanımı Yasası'nı ihlal edebileceği iddiasının güçlü bir temeli yoktur. Bu durumu özel yapan şey, hiQ'nun yalnızca kamuya açık olan verileri sıyırması, diğer durumlarda sıyırıcıların bildirimde bulunmaksızın kullanıcıların gizliliğini veya veri kullanımını ihlal etmesidir. Sadece manuel aktiviteyi düşünürsek, herkes her profile tıklayabilir ve tüm bilgileri kopyalamak için verilere bakabilir ve ardından verileri bilgisayar sistemine besleyebilir. Teorik olarak uygulanabilir olmasına rağmen, bu, büyük zaman ve insan gücü gerektireceğinden, veri toplamanın verimsiz ve hataya açık bir yoludur. Bu görevi otomatik ve tekrarlayan bir şekilde yapmak için programlanabilir botlara sahip olmamızın başlıca nedeni budur.

LinkedIn, arama motorlarının ağlarını tanıtmak için genel sayfalarını taramasına ve dizine eklemesine izin verir. O zaman neden diğer uygulamalar ve web siteleri de aynı verilerden yararlanarak eşit bir oyun alanı elde etmesin? Bu nedenle, üzerinde düşünülmesi gereken nokta şudur: Elektrik şirketlerinin, robotların web sitelerinden kamuya açık verileri sıyırmasını engelleme hakları var mı? Ayrıca, veriler kullanıcılar tarafından kamuya açık hale getirildiğinde, platform nasıl başkalarının erişimini engellemek için hak iddiasında bu kadar ileri gidebilir?

Dava sona ermemiş olsa da, son karar HiQ ve algoritmalarının verileri taramakta özgür olduğunu ve LinkedIn'in buna izin vermesi gerektiğini söylüyor. Yargıç, hiQ'nun hiQ'nun kamuya açık veri toplamasının Birinci Değişiklik tarafından korunan bir faaliyet olabileceği yönündeki savıyla rezonansa girdi ve aşağıdaki emri verdi:

LinkedIn, hiQ'nun bu genel profillere erişmesini önlemek için halihazırda teknolojiyi devreye soktuğu ölçüde, bu tür engellerin kaldırılması emredildi.

Daha fazla bilgi edinmek istiyorsanız, mahkeme kararının kopyasını indirmek için bağlantı burada.

Şimdilik, bu savaşı ve mahkemenin son tepkisini, veri çözümleri işindeki oyuncular için bir ifade özgürlüğü zaferi olarak görebiliriz. Bu aynı zamanda, tüm dünyanın görebileceği kamuya açık web sayfalarına erişmek için aksi takdirde ceza davalarına karışabilecek olan internet şirketlerinin de zeminini hazırlıyor. Top şimdi LinkedIn'in sahasında ve bu çok iyi bir serbest konuşma argümanı olabilir.

Nihai karar, LinkedIn ve hiQ Labs'in ötesine geçecek ve işletmelerin, hizmetleri tarafından barındırılan kamuya açık veriler üzerinde ne kadar kontrole sahip olacağı konusunda emsal teşkil edebilir. İnternet üzerinden kamuya açık verilere erişimde kesinlikle herhangi bir kısıtlama olmaması gerektiğine ve yeniliğin yasal olarak güçlü silahlanma veya küçük bir güçlü şirketler grubunun rekabet karşıtı gündemiyle sınırlandırılmaması gerektiğine inanıyoruz.