本科課程輔導

當前位置:首頁 > 留學生課程輔導 > 本科課程輔導 > 探索性數據分析(EDA)的關鍵步驟及類型

探索性數據分析(EDA)的關鍵步驟及類型

發布時間:2023-10-16 12:06

數據分析涉及各種清理、轉換、分析和創建數據模型的流程,以生成具體、有意義的信息。這些都有助于做出重要的實時業務決策。探索性數據分析對所有企業都很重要。它允許數據分析師在得出結論之前對數據進行分析。它還能確保獲得的結果是有效的,并適用于業務成果和目標。這篇關于探索性數據分析的文章提供了探索性數據分析(EDA)的關鍵步驟及類型。
探索性數據分析(EDA)的關鍵步驟及類型

一、什么是數據科學中的探索性數據分析?

探索性數據分析(EDA)是數據科學中機器學習和深度學習模型用于提取相關特征和趨勢的技術之一。因此,EDA 已成為數據科學工作者的一個重要里程碑。本文討論了 EDA 的概念、含義、工具和技術,以便為希望開始數據科學職業生涯的初學者提供完整的信息。文章還列舉了經常有效使用 EDA 推動業務發展的行業。

二、EDA 在數據科學中的作用

數據科學領域在當今的商業世界中非常重要,因為它通過分析收集到的大量數據,為做出重要的商業決策提供了許多機會。要深入了解數據,就必須從各個角度對其進行研究。高效的操作能夠做出有意義和有用的決策,因此,EDA 在數據科學中發揮著不可估量的作用。

三、探索性數據分析的目的

探索性數據分析的總體目標是產生有意義的見解,因此通常包括以下子目標:

識別和消除異常值;

確定時間和空間趨勢;

確定與目標相關的模式;

提出假設并通過實驗進行檢驗;

確定新的信息源.

四、EDA在數據科學中的作用

數據挖掘分析的作用基于對上述目標的利用。一旦制定了數據,所進行的分析將確定模式和趨勢,這將有助于采取所需的適當行動,以實現預期的業務目標。由于我們希望每位經理都能在特定的角色中執行特定的任務,因此我們希望適當的 EA 能夠為與特定業務決策相關的問題提供完整的答案。由于數據科學是關于建立預測模型的,因此模型必須考慮到最佳數據特征。這樣,EDA 就能確保有正確的模型和趨勢組件來訓練模型,以實現正確的結果,如成功的配方。因此,在正確的數據上使用正確的工具執行正確的 EDA 將有助于實現預期目標。

五、探索性數據分析(EDA)的步驟

?EDA 的關鍵要素是進行 EDA 所涉及的主要步驟。它們是

1.數據收集

如今,在人類生活的各個領域,如健康、體育、工業、旅游等,都會以各種形式產生大量數據。所有企業都知道通過正確分析數據充分利用數據的重要性。然而,這取決于通過調查、社交媒體和客戶反饋從不同來源收集必要的數據。如果不收集足夠的相關數據,就無法采取進一步行動。

2.發現并了解所有變量

在開始分析過程時,首先要關注可提供大量信息的可用數據。這些數據包含不同特征或特質的變量值,有助于理解它們并獲得有價值的見解。這需要首先確定影響結果的重要變量及其潛在影響。這一步對最終結果至關重要。 p

3.清理數據集

下一步是清理數據集,其中可能包含空值和無關信息。需要刪除這些信息,以便數據只包含與目標相關且重要的值。這不僅能縮短時間,還能降低進行評估所需的計算能力。預處理涉及到所有方面,如歸零、異常值檢測、異常檢測等。

4.確定相關變量

確定變量之間的相關性有助于找出某一變量與另一變量之間的關系。相關矩陣法可以清楚地顯示不同變量之間的相關性,進而幫助理解變量之間的內在關系。

5.選擇合適的統計方法

正如我們在以下章節中所看到的,根據數據的大小、是分類數據還是數值數據、變量的類型以及分析的目的,可以使用不同的統計工具。應用于數值結果的統計公式可以提供必要的信息,但圖形表示法更具吸引力,也更易于解釋。

6.結果的可視化和分析

分析結束后,需要仔細認真地查看結果,以便正確解讀。數據的散點趨勢和變量之間的相關性為適當修改數據參數提供了很好的啟示。數據分析人員應具備必要的分析技能,并對所有分析技術有透徹的了解。獲得的結果將與該特定領域的數據保持一致,并適用于零售、醫療保健和農業領域。

要掌握探索性數據分析,數據分析新手需要了解并實踐上述歐空局數據科學步驟。了解有關數據科學訓練營培訓計劃的更多信息。

六、探索性數據分析的類型

在單變量分析中,結果是一個單一變量,所有收集到的數據都歸于該變量。沒有因果關系。例如,12 個月的數據顯示了每個月生產的產品。在二元分析中,結果取決于兩個變量,例如工人的年齡,并與兩個變量(即工人的工資和每月支出)進行比較。

在多元分析中,結果取決于兩個以上的變量,如產品類型和銷售數量,并與產品價格、廣告費用和折扣進行比較。數據分析的變量可以是數字變量,也可以是分類變量。分析結果可以以數值、可視化或圖表的形式呈現。因此,還可進一步分為非圖形和圖形。

1. 一維非圖形

這是實際使用的所有數據分析類型中最簡單的一種。顧名思義,單變量是指只考慮一個變量,并收集和研究該變量(即所謂的總體)的數據。非圖形單變量數據分析的主要目的是找出總體數據分布的細節,并了解一些特定的統計參數。從分布角度評估的重要參數如下:

中心傾向: 這個術語指的是位于數據中心位置或中間區域的值。通常估算三個中心傾向參數:平均值、中位數和模式。均值是數據中所有值的平均值,而模式是出現次數最多的值。中位數是其左右兩邊觀測值相等的平均值。

范圍:范圍是數據中最大值和最小值之間的差值,表示數據在頂部和底部偏離平均值的程度。

方差和標準差: 另外兩個有用的參數是標準差和方差。方差是一種離散度量,表示數據集中所有數據點的離散程度。它是最常用的離散度量,是每個數據點與平均值之間差值的平均平方,而標準差是標準差值的平方根。標準差的值越大,說明數據的離散程度越高,而標準差的值越小,說明有更多的值聚集在平均值附近。

2.一維圖形

本節中的圖表基于 UCI 數據庫中的汽車 MPG 數據集。下面是一些常見的一維圖表類型:

條形圖和數字圖:這是一種非常簡單但功能強大的數據分析方法,用于以簡潔的格式呈現定量數據。它表示數據集中的值,保持每個觀測值的完整性,但將它們分開作為莖(起始數),其余或結束數作為葉。但如今條形圖使用得更多。

條形圖(柱形圖): 這些圖表用于顯示分組和未分組的數據。x 軸顯示變量的值,y 軸顯示觀察次數或頻率。條形圖非常簡單,可以快速了解數據,告知數據值,如中心傾向、方差、異常值等。條形圖是最簡單的基本圖表,它是一個柱形圖,其中每個柱形代表不同值的頻率,即數量或比例(觀察數與觀察總數之間的比率)。

條形圖有很多種,下面介紹其中的一些:

簡單條形圖:用于表示分類變量,使用矩形條,不同長度的條與變量值相對應。

多條形圖或分組條形圖:分組條形圖是呈現多組數據項進行比較的條形圖,其中使用一種顏色表示數據集中的特定系列。

百分比條形圖:這種條形圖以百分比的形式顯示每個觀測點的數據。下圖顯示的是帶有虛擬值的百分比條形圖。

餅圖:用于顯示數據中定量值的分布。如果數據集由分類變量組成,餅圖可以顯示它們之間的比較。此外,如果數據中有異常值,也可以很容易地識別出來。這些圖表在需要以百分比的形式進行比較時非常有用,例如,25%、50% 和 75%(四分位數)范圍內的數值。

3.無圖表的多元圖表

不帶圖表的多變量數據探索性分析技術通常用于使用交叉表或統計數據顯示兩個或多個變量之間的關系。

對于分類數據,制表法的擴展稱為交叉制表法,非常有用。對于兩個變量,交叉制表的方法是制作一個雙面表,列標題對應于一個變量的編號,行標題對應于兩個相反變量的編號,然后填寫所有具有相同水平對的受試者的計數。

對于每個分類變量和定量變量,我們可以針對變量的每個水平分別生成定量變量的統計信息。

4.多元圖形

在多元圖形中,圖形用于顯示兩個或多個變量之間的關系。在這里,結果取決于兩個以上的變量,而引起變化的變量也可能不止一個。

常見的多元圖形有以下幾種:

(A) 散點圖

針對兩個定量變量的基本 EDA 制圖技術是散點圖,其中一個變量在 x 軸上,另一個變量在 y 軸上,因此作為數據集中每個案例的點。這種方法可用于雙變量分析。

B) 多元圖表

多變量圖是一種控制圖,用于控制兩個或多個相互關聯的過程變量。這在過程控制等情況下非常有用,工程師可以從使用多變量圖表中受益。這些圖表允許在一張圖表上同時檢查多個參數。使用多變量圖的一個重要優勢是,它們有助于最大限度地減少業務流程控制圖的總數。使用 Seaborn 庫創建的配對圖就是多變量圖的一個很好的例子,因為它們有助于一次性直觀顯示整個數據集中所有數字變量之間的關系。

C) 執行圖

執行圖是隨時間繪制的數據折線圖。換句話說,執行圖直觀地顯示了時間序列中的流程性能或數據值。與匯總統計相比,可視化隨時間變化的數據能產生更準確的結果。趨勢圖或時間序列圖是運行圖的另一個名稱。下圖顯示了特定時期內的虛構銷售值。

D) 氣泡圖

氣泡圖是一種散點圖,在二維圖表上顯示幾個圓(氣泡)。它們用于評估三個或更多數字變量之間的關系。在氣泡圖中,每個點對應一個數據點,每個點的變量值以不同的位置顯示,如水平、垂直、點的大小和點的顏色。

E) 熱圖

熱圖是多元數據的彩色圖形表示法,其結構為列和行的矩陣。熱圖將相關矩陣轉換為顏色代碼,并繪制這些系數,以直觀顯示變量之間的相關強度。這有助于找到最合適的特征,為機器學習建立精確的模型。

除上述技術外,EDA 還采用了 "分類或聚類分析 "技術。這是一種無監督的機器學習形式,用于將輸入數據分類為某些類別或集群,這些類別或集群在不同組中表現出相似的特征。然后可用于在 EDA 中進行重要解釋。

海馬課堂專業課程輔導,輔導不滿意隨心退,試聽課全面升級,3500+嚴選碩博學霸師資,針對學生的薄弱科目和學校教學進度,匹配背景相符的導師,根據學生情況進行1V1專屬備課,課程輔導產品升級贈送考前保障,上課時間靈活安排,中英雙語詳細講解課程中的考點、難點問題,并提供多方位的課后輔導,輔助學生掌握全部課程知識,補足短板。如果你對此還有疑問,或者有更多關于學業輔導方面需求的話,可以添加微信號:hmkt131聯系海馬課堂的Joye老師哦。

相關熱詞搜索:

主站蜘蛛池模板: 婷婷伊人五月天| 精品一区二区三区在线观看视频| 最近最新中文字幕高清中文字幕网| 欧美人与动性行为另类| 国产综合成人亚洲区| 四虎精品久久久久影院| 久久精品视频热| 国产玉足榨精视频在线观看| 欧美老人巨大xxxx做受视频| 国产高跟踩踏vk| 亚洲校园春色小说| www.夜夜操| 青青草原综合网| 无码一区二区三区在线观看| 国产无遮挡又黄又爽在线视频| 亚洲av永久无码| 黄色网址免费在线| 日本一道综合久久aⅴ免费| 国产zzjjzzjj视频全免费| 中文字幕亚洲第一| 精品久久久无码人妻中文字幕 | 欧美日韩视频在线播放| 国产精品蜜芽tv在线观看| 免费一级毛片在播放视频| 99在线观看精品免费99| 欧美日韩亚洲第一页| 国产手机在线视频| 丰满白嫩大屁股ass| 精品久久伦理中文字幕| 在线视频一区二区三区四区| 亚洲国产欧美国产综合一区| 黄视频免费下载| 日韩视频免费观看| 国产福利精品视频| 久久国产精久久精产国| 黑人巨大战冲田杏梨| 手机在线中文字幕| 你是我的城池营垒免费看| 一本一道久久a久久精品综合 | 国产av永久精品无码| 一个妈妈的女儿在线观看5|