Knime – CALIGO

Citizen Data Scientist Approach in AI Era

Deniz Konak — Fri, 25 Dec 2020 14:10:41 +0000

Gartner defines Citizen Data Scientist as a person who develops/generates analytical models that use advanced analytics or predictive and prescriptive capabilities, but whose primary job function is outside the field of statistics and analytics. ( “Citizen Data Science Augments Data Discovery and Simplifies Data Science” )

In the light of Gartner’s definition, as a professional believing that Citizen Data Science approach makes Data Science and Advanced Analytics concepts accessible to a wider audience, my aim in this article is to describe Citizen Data Scientist and the basics of this role with questions and examples from different domains.

Let’s start with the very first two questions:

What is Citizen Data Science?

The Citizen Data Science, which has more or less similar but many different definitions, is defined as “The discipline that fills the gap between the development / application of Advanced Analytics methods performed by the Expert Data Scientist role and the role of Self-Service Data Analytics“. Based on this definition, Citizen Data Science approach can be used even in larger organizations for discovering new data, carrying out routine and applicable analytical tasks and adopting analytical approaches by wider users.

Who is Citizen Data Scientist?

With an alternative definition to Gartner’s, Citizen Data Scientists are powerful users who do not have deep math/stat and coding expertise but can adopt and internalize emerging technologies to meet the (medium to advanced) analytical needs required by their roles, eliminate dependencies on IT teams and enrich the process with their own deep business expertise.

For example, any earthquake researcher who aiming to understand earthquake behavior and tries to estimate a future effect can be named as also Citizen Data Scientist. Because she/he does not have to have a math/stat background and not responsible from new technical/theoretical developments but need to use Data Science approaches effectively to be able to analyze earthquakes with strong earthquake domain knowledge.

The Rise of Citizen Data Scientist

The main idea behind the rise of Citizen Data Scientist role can actually be explained with the most basic supply-demand principle of the economy. Since we are in AI Era and the volumes and coverage of Data are increasing day-by-day and so directly the demand of Data Scientists who can gather info and value form data is also increasing. But on the other hand, the supply of Data Scientist is not increasing as much. This demand-supply shortage led professionals question about their actual needs, and search for new alternative solutions.

This questioning brings Citizen Data Scientist and effective Citizen Data Science platforms on table, such as KNIME. This is already the natural consequence of developing technology and AI. Those platforms direct users with end-to-end automated solutions and enables Citizen Data Scientists to use them for leveraging value from data for multiple purposes. On the other hand, the use of such Citizen Data Science platforms bring efficiency and accelerate the end-to-end Data Science process with their pre-defined functionalities.

Citizen Data Science in Different Domains

As an alternative to earthquake researcher case, I would like to mention two different cases from different industries that Citizen Data Science ease the extract gain from data.

Case 1: Marketing in a Bank is one of the most important areas for use of Data Science tools to gain most proper information to identify true customer and manage campaigns most effectively. So, a team of marketing analysts has to use several advanced analytics methods and ML model tools for daily tasks and projects. But they do not have to be expert data scientists coming from math/stat background, they only need to use these technology tools combining with their marketing expertise. That brings the Citizen Data Scientists into the game, powerful Data Science users with strong marketing experience.

Case 2: HR department of an Automotive Firm having more than 300K employees worldwide needs to adopt analytical tools to correctly estimate employee performances and advanced analytics for 4K positions. Specialists working at this department have deep business understanding on the performance measurement and position requirements. Using automated Data Science technologies, HR specialists with a Citizen Data Scientist role can run required analyses and manage advanced analytics processes to measure the performance of quite a huge number of employees.

In the Era of AI, everything is becoming more and more automated day-by-day. Nowadays, being perfect only at coding becomes less meaningful, most of the programs have their own automatic coding extensions like Python’s Jupyter Notebook (Text2Code ). Therefore trying to understand technical and theoretical basics behind your needs and using technology is just enough to do your job effectively.

To sum up, I tried to explain the importance of Citizen Data Scientists for different domains. There are different platforms aiming to develop the idea of Automation in Data Science. I am using KNIME and exploring its many capabilities and still surprising from time-to-time when I see what it can do. You can give KNIME a try or any other one, but you should try at least one of such platforms.

I am also planning to show example case stories for different domains and different tasks at my future posts.

I hope you enjoyed reading this post!

Neden KNIME Server’a ihtiyaç duyuyoruz ?

Volkan Çamaş — Thu, 10 Dec 2020 12:13:18 +0000

Daha önceki yazılarımda KNIME ile ilgili ürünün kullanım alanları ve sertifikasyon sürecinden bahsetmiştim. Çalıştığımız kurumsal firmalarda ne zaman bir ürün kullanımı gündeme gelse ücretsiz bile olsa öncelikle governance, güvenlik,performans ve yetkilendirme konuları ön plana çıkmaktadır. Bu kadar kapsamlı ve çeşitli entegrasyonlar sağlayabildiğiniz bir ürün olunca da haliyle sadece desktop bir uygulama ile bu süreçleri yönetmek mümkün mü detaylarıyla incelemek istedim.

KNIME Analytics Platform, ücretsiz olarak indirilebilen bir desktop uygulamasıdır. Veri bilimi başlığı altında yer alan veri hazırlama, modelleme ve görselleştirme süreçlerini akış olarak tasarlayabileceğiniz bir platformdur.

KNIME Server, tasarlanan akışların ortak bir sunucuya taşınması ile birlikte yönetimi,izlenmesi ve başka uygulamalardan verinin sorgulanmasını amaçlamaktadır.

Genelde bu tip yazılım ürünlerinde bazı özelliklerin kısıtlı olduğunu görürüz ve kurumsal bir uygulamada kullanma ihtiyacınız olduğunda en gerekli özellikleri kullanılamadığından sizi yatırım yapmaya mecbur bırakır. Ancak KNIME Analytics Platform kullanırken böyle bir deneyim yaşamıyorsunuz, tüm özellikler açık ve herhangi bir son kullanım tarihi bulunmuyor. KNIME gelir modelini sadece eğitim, danışmanlık ve KNIME Server lisanslaması olarak konumlandırmış.

Aşağıdaki maddelerde de neden Analytics Platform kullanırken neden Server yatırımı yapmak gerektiği konusunda detaylı yorumlarıma yer verdim.

1- Takım Çalışması

KNIME Server ile birlikte hayatımızda değişen ilk şey takım çalışması/iş birliği olarak belirtiliyor. Server ile birlikte aslında klasik kurumsal uygulamalardaki paylaşım süreçleri hizmet olarak sunuluyor. Yani burada birim veya proje bazlı oluşturduğunuz akışlarınız artık kişisel bilgisayarlarınız yerine bir sunucuda tutulur hale gelmiş oluyor. (Yazılımcılar için TFS, iş birimleri içinse network sharing folder gibi düşünebiliriz.) Bu sayede kurumunuzdaki işler birimler arası paylaşıma mümkün hale gelmiş oluyor. Ayrıca bir sunucu üzerinde süreçleri yönetmenin yedekleme ve versiyonlama açısından da daha sağlıklı olacağı unutulmamalıdır.

2- Otomatizasyon

Veri hazırlığı ve raporlama süreçlerinde otomatikleştirme(scheduling) konusu olmazsa olmaz diyebiliriz. KNIME kullanıyorsanız ve tasarlamış olduğunuz akışınızın belirli periyotlarda çalışmasını bekliyorsanız bunun farklı opsiyonları olsa da ben en yaygın 2 yöntemi paylaşacağım.

Birincisi, KNIME web sitesindeki sıkça sorulan sorular ve stackoverflow aramalarında denk geldiğim bir yöntem. Windows task scheduler kullanarak tasarlamış olduğunuz akışınızı tanımlı bir zamanda tekrar tekrar çalıştırabilirsiniz. Bu yöntemi ücretsiz ve herhangi bir sunucuya ihtiyaç duymadan uygulayabilirsiniz. Burada sadece her gün çalışsın gibi bir beklentiniz var ise kendi bilgisayarınızın da o saatler çalıştığından emin olmalısınız !

knime.exe -consoleLog -noexit -nosplash -application org.knime.product.KNIME_BATCH_APPLICATION -workflowDir="workspace/Knime_project"

İkinci yöntem ise KNIME server satın aldığınızda web portal aracılığı ile sunucuya yüklediğiniz akışlarınızı akış adı ve periyot tanımlayarak hızlı ve kolay olarak uygulayabilirsiniz.

İlk yöntem biraz daha araştırma veya eğitim amaçlı daha bireysel bir kullanım için konumlandırılabilir. Biraz daha merkezi bir uygulama ve kompleks yapılar kurgulamaya ihtiyaç duyduğunuzda ise yönetim anlamındaki ihtiyaçlar ve operasyonel risklerin azaltılması için önerilen yöntem KNIME server üzerinde bu süreci yönetmek olacaktır.

3- Görselleştirme

Veri ile ilgili yapılan her projede günün sonunda görsel çıktılara ulaşmak yapılan işin okunurluğunu ve izlenmesini sağlamaktadır. Benim kişisel olarak beklentim klasik grafikleri çizsin yeterken, inceledikçe aslında iyi seviyede çıktılara kolayca ulaşmanın mümkün olduğunu gördüm. Ayrıca kod seviyesinde de size Javascript ve CSS olarak müdahale ettirdiğinden dolayı yapacağınız işin sınırı size kalmış denebilir.

Server olmadan da yukarıdaki çıktılara benzer grafikleri kendi bilgisayarınızda oluşturabilirsiniz. Ancak paylaşım konusunda herkes günlük/haftalık periyotlarla yenilen grafiklere bir portalden erişsin beklentiniz olursa sunucuya ihtiyaç duyacaksınız. Diğer türlü bu çıktıları alıp e-posta yoluyla göndermek de bir tercih olabilir.

4- Performans

Performans, neden bir server yatırımı yapalım konusunda bence en güçlü nedenlerden biri. Verilerinizi kurumunuzun veritabanlarından erişerek aldınız ancak analitik ihtiyaçlarınıza özel Knime komponentleri kullanma ihtiyacınız var. Verilerinizin boyutları da milyonlar seviyesine ulaşıyorsa burada kendi bilgisayarınıza büyük iş düşüyor, çoğu zamanda memory hataları almanıza neden olacaktır. Yani özetle hem kompleks hesaplamalar yapacağım hem de kullanmış olduğunuz veri seti kişisel bir bilgisayarda işlemek için çok büyük boyutlarda diyorsanız, server yatırımı yapmanız performans gibi bir kaygıdan sizi kurtaracaktır. Hele ki hızlı cevap almak istediğiniz ve anlık çalışsın diye düşündüğünüz ihtiyaçlarınız için konumlandırmak istiyorsanız, sunucu olmazsa olmaz diyebilirim. (Örn: Fraud Detection, Recommendation Engine vb.)

5- Entegrasyon

Sunucu yatırımı yapmak için en önemli nedenlerden biri de entegrasyon diyebiliriz. KNIME Server’a yüklediğiniz akışlarınıza artık REST API ile erişebilir hale geliyorsunuz. Bu özellik size farklı uygulamalar ile entegrasyon kurabilmenizi ve tasarladığınız süreçleri dış dünyaya açabilmenizi sağlıyor. Yukarıda örnek verdiğim Fraud Detection için bir model kurdunuz ve bunu transaction anında uygulamanızda kullanmak istiyorsunuz. Transaction anında ilgili Knime akışını tetikleyip işlemin fraud olup olmadığı bilgisini model sonucunuza göre sorgulama yapabilirsiniz.

Ayrıca sunucudaki bir çok farklı konuda da dışarıdan API ile erişim sağlayarak çözüm bulabilirsiniz. Örnek olarak

6- İzleme ve Yönetim

Ürün üzerinde farklı süreçler tasarlayıp genel kullanıma yaygınlaştırılmak istendiğinde hem izleme hem yönetim iki önemli madde diyebiliriz. İzleme altında sunucuda çalışan işlerin durumunu, sunucunun sağlığını izlenmesi gibi konular önem arz etmeye başlıyor. Yönetim başlığı altında ise ilk olarak yetkilendirme konusu hayatımıza giriyor. Çalışan işleri kimler tasarlayabilir,görebilir ya da çalıştırabilir yetkilerinin düzenlenmesi, farklı ekipler arasındaki ortak süreçlerin tasarlanması gibi ihtiyaçlar da yetkilendirme yetenekleri ile süreçlerinizi yönetebilirsiniz.

Bir sunucu kurulumu yaptığınızda da KNIME tarafından hazırlanmış Admin akışları default tanımlı olarak sunucuda yer almaktadır.

7- Metadata Analizi

Genelde bu tip ürünlerde kullanıcıların yaptıkları çalışmalar repository veritabanlarında tutulmaktadır. KNIME alışılanın aksine hazırladığınız her akış için bir knwf adında bir dosyada oluşturmaktadır ve herhangi bir databasede çalışamlarınızın detaylarını kaydetmemektedir. Bu dosyalar yine bir akış içerisinde XML formatına çevrilerek, workflowlar içerisinde kullanılan database objeleri nelerdir, hangi nodelar kullanılmış, çıktı olarak sonuçlar nelerdir gibi analizler çıkarmak mümkün hale gelmektedir. Ancak herkesin kişisel bilgisayarında Analytics Platform kullandığı bir senaryo düşünürsek böyle bir analizi yapmak mümkün olamayacaktı. Bu konuyla ilgili araştırma yaparken KNIME Hub’da denk geldiğim iki örneğe de aşağıda yer vermek istedim.

Data Lineage via KNIME WebPortal

Collect Workflow Information from KNIME Server REST API

Özet

Aslında yukarıda saydığım maddeler “enterprise” ihtiyaçlar ortaya çıktığında akla ilk gelen konular diyebiliriz. Burada ürünün öne çıkan özelliği, herhangi bir satın alma yapmadan ürünün ihtiyaçlarınıza cevap verip veremeyeceğini test edebileceğiniz bir ortam sağlamasıdır. Kendi deneyimlerim ve araştırmalarım sonucunda, desktop uygulaması olan Analytics Platform bireysel olarak inceleme ve analizleriniz için yeterli olacaktır ama daha yaygın bir kullanım planlıyorsanız KNIME Server almak en akılcı karar olacaktır.

KNIME üzerinde farklı denemeler yapmaya devam ediyorum, merak edenler olursa seve seve destek olabilirim. Ayrıca KNIME Forum‘a da yazarsanız büyük ihtimalle aynı gün probleminize ya da sorunuza cevap alabilirsiniz. Geçen haftalarda yapılan “Fall Summit 2020” de Level-2 sertifikasını da almaya hak kazandım. Sınav ile ilgili değerlendirmelerimi de ayrıca yazmayı planlıyorum.

Good at Theory? We are The King of the Jungle

Kerem Kabil — Thu, 03 Dec 2020 13:05:12 +0000

In my first post about KNIME, “How to Set Up an Oracle Connection” , I mentioned that the connection between KNIME and an Oracle Database. Now, we will take a glance at a simple classification workflow in KNIME.

Firstly, I would like to briefly talk about one of the advantages of KNIME provides.

Whatever analytical tool we use like Python, R, SQL etc., we need to use some coding things to carry out below general analytics steps. That means, no matter how good our theoretical knowledge is, it is quite difficult to do anything without coding skills. I have no intention to denigrate coding, on the contrary it is a crucial thing in data world and undoubtedly it will be. What I want to say is that coding can sometimes be an obstacle to one with high theoretical knowledge. In KNIME, our dependency on coding is reduced. That’ s the correct sentence. Generally, we can build analytical processes without any coding thing. That means, if we have a good theoretical knowledge about analytics, we are the king of the jungle!

Let’ s see the simple workflow shown below to prove that dependency on coding is reduced.

Before building a such workflow, we need to take a look at the following generalized steps,

Data Collecting and Understanding
Data Preprocessing
Modelling
Evaluating the Model

As we see above, we can easily built a classification model. KNIME can perform all processes with its nodes, all we need to do configuring the nodes. It will be quite easy, if we have a good theoretical knowledge.

Let’ s take a closer look at these four generalized analtyics steps in KNIME.

Data Collecting and Understanding

Each analytics process starts collecting data. Our data can be stored in different sources like database, .csv, .xls, .xml etc. To handle this, KNIME has a corresponding node for each data source to collect data. Some of these nodes are Oracle/ MySQL/ Postgre Connector, CSV Reader, Excel Reader, XML Reader respectively. As each node has its own configuration node, we can easily collect data by using this specialized configurations.

The image shown above shows our data collecting and understanding part for our sample. As our data is stored in an oracle database, we’ ve used Oracle Connector node to connect the data source. DB Query Reader has been used for retrieving data with a SQL query.

For data understanding, we’ ve used Data Explorer node. With this node, we can take a rapid glance at our data i.e we can see the types of attributes, how many missing values the data contains and distribution of each attributes etc.

Data Preprocessing

In our sample workflow, we don’t need to perform various preprocessing steps. For this data, all we need to do converting double typed attributes into integer and filling missing values. So, we’ ve used Double to Int and Missing Value nodes. Then, we’ ve used Partitioning node to perform splitting data into train and test set.

KNIME has various nodes for preprocessing like One To Many, String Manipulation, String to Number, Groupby etc. There are almost every node that may be needed for preprocessing. In parallel, KNIME has also another node for partitioning called X-Partitioner comes with X-Aggregator.

Modelling

In KNIME, all algorithms represents different nodes like any other operations. For algorithms under the predictive analytics (Logistic Regression, SVM, …) roof represents two nodes, Learner and Predictor. We train our model with Learner node. Then, we test our model with Predictor node by using train data comes from output of Partitioning node.

In our sample workflow, we’ ve used simple Decision Tree algorithms, and one can see this predictive algorithm represents with two different nodes shown above.

Evaluating the Model

At the end, builded model needs to be evaluated. To evaluate a model, Scorer nodes can be used. With this node, we can evaluate basic performance metrics (accuracy, recall, precision, Cohen’ s Kappa) of the corresponding model. Scorer node has two different types, Scorer and Scorer (JavaScript). While Scorer (JavaScript) offers an interactive output, Scorer offers simpler output, that’ s the difference between these two nodes.

One thing about Scorer nodes, these nodes can perform on a model with categorical target. If we have a model with numerical target like Regression, we need to use Numeric Scorer node.

So far, thanks to the advantages of KNIME provides, we’ ve seen that we can easily built an analytical model without any coding. Althought we are not dependent on coding here, sometimes it is necessary to use it. In case we need to use it, KNIME also handles this quite easily 🙂

KNIME Fall Summit Ardından

Deniz Konak — Wed, 02 Dec 2020 13:01:32 +0000

16 – 20 Kasım tarihlerinde gerçekleşen KNIME Fall Summit ardından organizasyona ve içeriklere dair düşüncelerimi sizlerle paylaşmak istedim.

İlk 3 günün farklı seviye eğitimler ve sınavlarla, 3. günden itibaren de farklı coğrafya ve sektörlerden KNIME kullanıcılarının başarı hikayelerini anlattıkları oturumlarla dolu 5 günlük bir organizasyon deneyimledik. Bunların yanı sıra, KNIME Time başlıklı, Analitik Platform ve Server ürünlerindeki en yeni gelişmelerin ve kullanım senaryolarının anlatıldığı oturumlar da oldukça ilgi çekici ve faydalı idi.

Daha kolay anlatabilmek için Summit değerlendirmemi 3 başlık altında ilerleteceğim;

1- KNIME Trainings & Certification

2- Use Case & Success Stories

3- KNIME Time

Tüm başlıklar için keyifli okumalar dilerim!

1- KNIME Trainings & Certification

Öncelikle bu bizim CALIGO olarak KNIME partneri olmamız sonrasında katıldığımız ilk KNIME Summit idi. Bu nedenle de eğitimleri ve sertifika sınav oturumlarını ayrı bir heyecanla bekledik.

Summit kapsamında KNIME tarafından planlanan L1, L2, L3 ve L4 olmak üzere her seviyede ve Data Science döngüsünün farklı aşamalarına odaklanmış 20’ye yakın eğitim gerçekleştirildi. Biz CALIGO ekibi olarak öncesinde de uzun süredir üzerinde çalıştığımız bu eğitimlerin pek çoğuna katılarak sonunda yapılan sınavda sertifikalarımızı aldık!

Eğitime katılan her birimizin istisnasız ilk yaptığı yorum, eğitim süresince sorulan her soruya, takılınan her noktaya çok çok kısa sürede ve detaylı bir yanıt aldığımız oldu. Tüm bu süreçte eğitmen de dahil tüm KNIME ekibinin eğitimi eksiksiz aktarmak ve anlaşılmayan nokta bırakmamak konusundaki eforu inanılmazdı. Buna dayanarak şunu söyleyebilirim ki, daha önce KNIME kullanıcısı olmasanız dahi eğitimler size tüm kapsamı özümsetmek konusunda amacına tam olarak hizmet ediyordu.

2- Use Cases & Success Stories

KNIME kendisini Data Science disiplininde iki temel faz olan geliştirme ve üretim aşamaları arasındaki geçişi sağlayan bir köprü platform olarak konumlandırıyor. Diğer bir ifade ile modellerin öğrenmesi ve üretim ortamına alınması aşamaları arasında bir kopukluk yaşamadan, Data Science uygulamalarınızı uygulamaya geçirebilir ve sonrasında izleme, yeniden geliştirme gibi süreçleri yine KNIME üzerinde yapabilirsiniz. Summit süresince üzerinde konuşulan başarı hikayeleri KNIME’ın sağladığı bu özellikler bütününün tümünün ya da belirli aşamalarının benimsenmesi ve projelerde hayata geçirilmesi hakkındaydı. Benim en çok ilgilimi çeken 2 başlığı paylaşmak istiyorum. Bu başlıklar dışındaki tüm oturumların videolarına yazının en altına eklediğim linkten ulaşabilirsiniz.

Customer Data Scoring & Data Privacy Using KNIME WebPortal, Speaker: James Grimes (Truata), Moderator: Cynthia Padilla (KNIME)

Sıfırdan kod yazmalarına gerek olmayacak bir platform arayışı ile KNIME ile çalışmaya başlayan Dublin merkezli Truata, müşterilerine sunduğu gizlilik temelli skorlama hizmeti için tüm süreçlerinde KNIME Server kullanımlarını ve karşılaşmayı bekledikleri zorlukları nasıl çözdüklerini bu oturumda anlatıyor. Birden çok müşteriye de hizmet verilen bu çözüm benim kişisel ve profesyonel olarak da ekstra ilgimi çekti. Skorlama süreçlerini yeniden değerlendirmek ve daha efektif hala getirmek isteyen ekipler için bu oturumu dinlemelerini muhakkak öneririm.

Integrated Deployment, Speaker: Zehra Hussein (Kasasa), Moderator: Phil Winters (KNIME)

KNIME ile nasıl tanıştıklarından başlayarak; ML flowlarının geliştirilmesi, üretime alınması ve düzenli iyileştirilebilmesi amacı ile KNIME kullanım deneyimlerini anlatan Kasasa, bu sayede küçük bir organizasyon olarak megabankalar ile nasıl rekabet edebildiklerine değiniyor. Daha küçük bütçelerle uçtan uca teknoloji çözümlerine dair fikir arayanlar bu videoyu izlemeli.

3- KNIME Time

KNIME, Server ürünü ücretli ama bir desktop uygulaması olan Analtik Platform kullanımı ücretsiz olan bir yazılım. Ve bu ücretsiz platformda kısıtlanmış herhangi bir özelliği bulunmuyor. Bunun yanında, çok çok gelişmiş ve aradığınız her soruya cevap bulabildiğiniz bir KNIME ekosistemi var. Bu ekosistem, KNIME Hub, Forum, Extensions ve ücretsiz eğitimler gibi pek çok bileşene sahip bir web platformu üzerinden sunuluyor.

Summit kapsamında yapılan KNIME Time oturumları da tüm bu ekosistem dahilinde var olan bileşenlerdeki son gelişmeleri bizim gibi kullanıcılara anlatmak ve KNIME’ın daha etkin kullanılmasına fayda sağlamak amacına hizmet ediyordu. Bu kapsamda hem analitik platform hem de server için nelerin yeni olduğu, neler üzerinde çalışıldığı ve tüm bu yeniliklere nasıl ulaşabileceğimiz konusunda yol gösterici oldu. Size de yol gösterebileceğini düşündüğünüz tüm KNIME Time oturumlarına hemen alttaki linkten ulaşabilirsiniz. (KNIME Time kayıtları biraz sayfanın aşağılarına doğru, vazgeçmeden sayfada ilerleyin)

Sevgiler,

Deniz

KNIME Fall Summit:

https://www.knime.com/knime-fall-summit-2020?utm_source=pardot&utm_medium=email&utm_term=&utm_content=&utm_campaign=Summit-Fall-2020

KNIME ile “Citizen Data Scientist” Yaklaşımına İlk Adım

Deniz Konak — Mon, 02 Nov 2020 12:56:55 +0000

Artificial Intelligence (Yapay Zeka), Machine Learning (Makine Öğrenmesi) ve Data Science (Veri Bilimi) başlıkları aslında çok yeni olmasalar da hızla gelişen teknoloji ve buna bağlı olarak artan veri büyüklükleri ile son yılların en trend başlıklarından oldular. Birbirleriyle farklı noktalarda kesişimleri olan bu kavramlar temel olarak Data Science disiplini ile Advanced Analytics çerçevesinde değerlendirilen uygulamalara temel oluşturuyorlar.

Uzun yıllardır hem profesyonel hayatta hem de öncesinde akademik ve öğrencilik hayatında SAS, MATLAB, Gauss, SPSS, R ve Python gibi kod ve node bazlı farklı programları kullanarak pek çok model geliştirmiş ve bu disiplini içselleştirmiş bir uzman gözünden bir yazı dizisi kaleme almak istedim. Gündeme getirmek istediğim konulardan biri, Data Science denilince akla gelen satırlarca kodlama gereksinimi artık gerçekten zorunlu mu? Yoksa artık kendine Citizen Data Scientist yaklaşımını benimsemiş Analitik Platformlar bu dünyada yeni bir akım mı yaratıyorlar?

Bu yazı dizininin ilk bölümünde aktif olarak R ve Python tecrübelerim sonrası, KNIME Analitik Platformu ile tanışma sürecimdeki ilk yorumlarımı ve karar noktalarımı paylaşmak istiyorum.

Pek çok farklı analitik programlama dili ve model geliştirme tecrübesi sonrası iş bilgisinin en az teknik/teknolojik bilgi kadar önemli olduğuna inanan biri olarak neden KNIME kullanmalıyım? KNIME öğrenme algoritmalarının uygulanması ve süreçlerin tasarlanması noktalarında nasıl konumlandırılabilir? Bu iki konu KNIME ile çalışmaya daha başlamadan cevaplarını bulmak için kafamda oluşturduğum temel iki soru başlığı idi. Sırasıyla bu başlıklar altını nasıl doldurdum birlikte bakalım.

Neden KNIME kullanılmalı?

Artifical Intelligence /Augmented Intelligence kavramlarının temel amacı olan insanın yapabildiği işlerin makineler tarafından yapılabilmesi yaklaşımı temelde Citizen Data Scientist yaklaşımı ile de örtüşmekte. Ve bu temelde Data Science alanında insan eliyle uzun uzun kodlar yazılması yerine, Citizen Data Scientist prensibini benimsemiş ve hali hazırda var olan node’lar üzerinden çalışan Data Science platformlarının kullanılmaya başlanması aynı düşünceye dayanmakta. Kendisine bu yaklaşımı benimsemiş olan KNIME platformu da Data Science disiplinini içselleştirmek isteyen herkesin öncelikli ihtiyaç olarak gördüğü kod öğrenme fazını atlatarak hızlıca üretmeye başlamasına yardımcı olacak şekilde geliştirilmiş. Uçtan uca tüm Data Science sürecine hizmet eden KNIME hem Data Engineer, hem Data Scientist hem de Data Analyst rollerinin ihtiyaç duyduğu gereksinimlere cevap veren bir platform. Bu sayede IT bağımlılıkları, çok yüksek kodlama maliyetleri ve süreçlerin her aşamasının farklı farklı uygulamalar ve platformlar üzerinde sürdürülmesi nedeniyle oluşan verimsizlik ve zaman kaybı konularını minimum seviyeye indirmek mümkün. KNIME ve benzeri analitik platformlar sayesinde aslında sadece Python ve R gibi kodlama dillerini bilenlerin kendilerine kolaylıkla Data Scientist diyemeyeceği, bu disiplinin en temelinde istatistik ve matematik bilgisi ile derin iş bilgisinin olduğu gerçeğinin daha iyi anlaşılacağı bir döneme geçiş yapıyoruz.

KNIME nasıl konumlandırılabilir?

Artık bütün şirketleri birer veri ve teknoloji şirketi olarak konumlandırabileceğimiz bir dönemdeyiz. Ve her şirketin öncelikli işlerinden biri elindeki veriyi işlemek ve kullanmak iken bu amaca kolaylık sağlayarak hizmet eden KNIME analitik platformunu, analitik çözümleri içselleştirmek ve kurum içinde yaygınlaştırmak, ve buna hızlıca adım atmak isteyen organizasyonlarda başından sonuna tüm analitik süreçlerin üzerinde ilerleyebileceği temel platform olarak konumlandırarak; veri yönetimi, analitik, risk-pazarlama gibi iş birimleri ve IT ekiplerinin aynı dili konuştuğu bir sinerji yakalamak çok mümkün.

Özetlemek gerekirse; Data Science ve Advanced Analytics disiplinlerine farklı açılardan bakıp, ilgili süreçlerin temellerinden olan iş bilgisi ve teorik birikimin veriyi ve ihtiyacı anlayıp yorumlamak konusunda herhangi bir yazılım dilini çok iyi bilmekten daha önemli olduğuna inanan ve uzun süredir de bunu tecrübe etmiş biri olarak, KNIME Platformunun Data Science ve Advanced Analytics disiplinine bakış açımızı değiştirdiğini ve bu disiplini daha erişilebilir bir noktaya getirdiğini söyleyebilirim. Diğer bir deyişle teorik model geliştirme yapmayan bir kullanıcının ihtiyaç duyduğu model için sıfırdan kodlama yapması ihtiyacı artık ortadan kalkıyor. Ve bu sayede pek çok farklı model üzerinde çalışmak ve optimal modele karar vermek süreci kolaylaşıyor.

Citizen Data Scientist

KNIME ile tanışmamın ve çalışmaya başlamamın benim için en büyük kazanımlarından biri de Citizen Data Scientist kavramını yakından tanımam ve her zaman inandığım teknik geliştirici olmayan kişilerin kodlama gurusu olmasının gerekmediği düşüncesine temel oluşturması oldu. Teknolojinin geldiği noktada bu yaklaşımın benimsenmesi ve yakın-orta vadede ulaşabileceği potansiyeli düşünmek beni gerçekten çok heyecanlandırıyor.

Kendi profesyonel görüşüm doğrultusunda geleceğe yönelik olasılıkları düşünürken sektördeki pek çok üst düzey profesyonelin bakış açısını ve teknolojik gelişmeleri yakından izleyip üzerinde çalıştığımız konuların akıbetlerine yön veren Gartner gibi şirketlerin Citizen Data Scientist kavramı ve buna bağlı disiplinler üzerine güncel araştırmalarını ve ilişkili yazıları incelemek düşüncelerimin önemli dayanak noktasını oluşturuyor.

Benim gibi düşünen ve Citizen Data Scientist kavramını merak eden pek çok kişi olduğuna inanıyorum. Bu nedenle bu yazı dizisinin 2. bölümünde Citizen Data Scientist kavramını etraflıca anlatıp, işimizi kolaylaştıracağı noktalara değineceğim. Sonrasında ise KNIME ile pek çok örnek üzerinden bu kavramın hayatımızı nasıl kolaylaştıracağını paylaşacağım.

KNIME Analytics: How to Set Up an Oracle Connection

Kerem Kabil — Mon, 02 Nov 2020 12:36:53 +0000

KNIME is an end to end data analytical tool. With its nodes, all analytical processes of data can be easily built.

Every data project starts with accessing the data. Like any other analytical tools KNIME has several ways of accessing different types of data. Our data may be stored as .csv, .xlsx, .txt etc. or in most of real-world cases the data is stored in a database. Here, our main focus is on accessing to data stored in a database.

At the image shown above, we can see different database management system nodes of KNIME. These connector nodes create a connection to corresponding databases. If we want to access to data stored in database, we must implement these nodes into our workflow. However, there is an important configuration difference between the connectors under the green roof and the connector under the orange roof. The difference is MySQL, PostgreSQL and Microsoft SQL Server have defined driver name, but Oracle not.

We have determined the difference between configuration of Oracle Connector and the others so far.

Now, we can see the configuration windows of KNIME Microsoft SQL Server Connector and Oracle Connector nodes. As we see, there is no defined driver name in Oracle Connector while Microsoft SQL Server has. If we have a look at configuration windows of MySQL Connector and PostgreSQL Connector as well, we will see a defined driver name.

All good, but what is the driver?

Driver or JDBC Driver defines and creates a connection between KNIME and corresponding database. So, if we want to create a connection between KNIME and a database, there must be a defined JDBC Driver.

Why is there no defined JDBC Driver in Oracle Connector Node?

Oracle JDBC Driver is not a part of the KNIME, because there is a license restriction of Oracle. So, if we need to use Oracle Connector in our workflow, Oracle JDBC Driver needs to be registered manually. For more detailed information:

https://kni.me/n/_fvEBQvrof1kSz-X

How to register Oracle JDBC Driver manually?

Firstly, we need to download Oracle JDBC Driver related to our database via https://www.oracle.com/database/technologies/appdev/jdbc-downloads.html. Which database release (11g, 12c, …) is installed in your system, we need to download Oracle JDBC Driver related to your own installed database. Having downloaded the Oracle JDBC Driver, we need to register that driver manually. To do that, please follow the following path:

File -> Preferences -> KNIME -> Databases

Now, click Add to register Oracle JDBC Driver manually.

Fill the ID and Name with Oracle, and select the Database Type with oracle. Having configured these parts, please click Add File to show Oracle JDBC file where located in your system. Then, click Find driver classes and KNIME find our driver class and version. Click OK and Apply and Close to quit.

Good, we have registered Oracle JDBC Driver manually. Let’s take a glance at Oracle Connector node again.

Perfect! Our Oracle Connector node has a Driver Name now.

To connect our database, we need to fill Hostname, Port, Database name and

Authentication with our database information and our credentials.

Having configured database information and authentication credentials correctly, please click Apply and see the traffic lights turn green. This means that we have now connected our database!

Let’s read a dummy table from our database.

Finally, we have reached our data! With DB Query Reader node, we can write SQL statements in KNIME, then click Evaluate to see our script results shown above.

Cheers!

Kerem

KNIME ile ilk buluşma

Volkan Çamaş — Fri, 25 Jan 2019 12:41:22 +0000

Bir süredir incelediğim KNIME ürünü ile ilgili bir yazı kaleme alarak ürün ile ilgili edindiğim tecrübeleri sizlerle de paylaşmak istedim.

Ürün adım adım iş parçacıkları oluşturup, sonra bunları bir iş akışı içinde tasarlayabileceğiniz bir ortam sunuyor. Aşağıdaki görselde bu işler neler olabilir kategorize edilmiş.

Veriye Erişim (farklı platformlar: file system, db, bigdata) >> Veri üzerindeki değişiklikler >> Veri analizi >> Görselleştirme >> Çıktılarımızın paylaşımı olarak sıralayabiliriz.

İlk olarak ürünün açık kaynak kodlu(github) ve ücretsiz olarak indirilip kurulum dahi gerekmeden kullanılmaya başlayabileceğinizden bahsetsem yanlış olmaz sanırım. Open-source zihniyetinin benimsenmiş olduğunu, ürünü ilk açtığınızda hemen karşınıza çok geniş olarak hazırlanmış örneklerle deneyimlemeye başlayabilirsiniz. Ee ben bunu ürünü indirdim ama kullanmayı nasıl öğreneceğim dediğinizde de farklı kaynaklar sunularak ürünü öğrenmek tamamen size bırakmışlar diyebilirim.

Bu yukarıdaki saydığım zihniyetten ötürü de firmaya ve ürüne ısınmanız çok vaktinizi almıyor haliyle. Kendim için örnek verecek olursam, yaklaşık 3-4 günlük bir sürede ürünün mantığını anlayıp farklı ihtiyaçlar için kullanmaya başladım diyebilirim.

Çalıştığımız bir müşterimiz her hafta düzenli olarak BDDK sitesine girip sektör verilerini içeren bir excel aldığını iletti. Sonrasında bu excel üzerinde filtreleme/gruplama benzeri süreçlerden geçirdikten sonra raporlarında bu veriyi kullanıyorlar. Bu dönemde KNIME incelemesi yaptığımdan bu süreci tasarlayabilir miyiz merak ettim. Yaklaşık yarım günlük bir sürede KNIME Workflow BDDK işini tasarladım. (Siz de bu akışı indirip çalıştırabilirsiniz!)

Aslında bu işi bir iş akışına dökmek hem işi görselleştirme konusunda yardımcı oluyor, hem de operasyon risklerden süreci arındırmış oluyor.

Kimler kullanabilir ?

Özellikle günlük iş akışında sıklıkla veri ile uğraşan herkesin bu ürünü incelemesinde fayda var. O yüzden bu sorunun cevabı için günümüz koşullarında bir çok farklı iş kolu sayılabilir. Finans bölümleri , iş zekası bölümleri , IT bölümleri vs.

Bu bir yazılım ürünü öğrenmek çok vakit alır diye düşünmeyin, indirin ve mevcutta yaptığınız bir süreci deneyin derim.

Hangi ihtiyaçlar için konumlandırabiliriz ?

Bana kalırsa hem çok teknik hem de çok basit ihtiyaçlar için konumlandırılabilir. Örneğin , bir ses dosyasını text bir dosyaya çevirip analiz de edebilirsiniz ya da bir excel dosyasını alıp filtreleme yaparak başka bir dosya da oluşturabilirsiniz.

Öncelikle benim de şu an üzerinde çalıştığım konu olan “Self-Service BI” projelerinde iş birimlerinin farklı veri ihtiyaçlarını karşılaması için konumlandırmak mantıklı görünüyor.
Rutin yapılan mutabakat, karşılaştırma, sorgulama işleri için biçilmiş kaftan denilebilir. Süreci bir kere tasarlamanız yeterli olacaktır, sonrasında sadece çalıştır demeniz yeterli.
Machine learning, data mining, data discovery gibi çok geniş olan başlıklar için de sunulan farklı çözüm noktaları mevcut.

Farklı ürünler ile entegre edebilir miyim ?

Entegrasyon sağlayabileceğiniz ürün sayısı da oldukça tatminkar görünüyor. Benim ilk olarak rastladığım ve ilginizi çekebileceğini düşündüğüm ürünleri aşağıda listeledim.

Big data platforms (Hive , Impala , HDFS , Apache Spark)
R , Python ve Java
Tensorflow , Keras

Süreçleri otomatize/schedule edebilir miyiz ?

Oluşturduğunuz workflowları schedule etmenin iki yöntemi var.

KNIME Server satın almak

KNIME server satın alarak süreçlerini schedule ederek bir web portal aracılığıyla çalıştırabilirsiniz.

2. Script oluşturarak windows scheduler

Bu süreç enterprise kullanım açısından biraz yönetmesi zor olsa da ikinci bir opsiyon olarak sayılabilir. (bknz)

Ön plana çıkan özellikleri nelerdir ?

Ürünü kullanmaya başlamak için sayabileceğim sebepler aslında bunlar.

Database push-down desteği
Forum ortamının olgunluk seviyesi
Örneklere erişim kolaylığı ve doküman zenginliği

Ürünün performansını nasıl değerlendirebiliriz ?

Bir desktop ürünü olduğunu düşünürsek aslında öncelikle sizin kullandığınız bilgisayarın donanım özelliklerine bağımlı diyebilirim. Yani kullandığınız bilgisayar ne kadar iyiyse o kadar iyi bir performans alabilirsiniz.

Daha hızlı performansa ihtiyaç duyan kritik ihtiyaçlarınız için ise server lisansı satın alarak bir sunucu üzerinde bu işlemleri yaptırmak mümkün. İhtiyacınıza göre bir konumlandırma yapmak en doğrusu olacaktır diyebilirim.

İlk yazım, okuyanlar için böyle bir ürünün var olduğunu ve başlangıçta sorulabilecek sorulara yanıt bulmanız içindi. Umarım faydalı olur.

Saygılar.