Database
什麼是數據庫上下文中的數據清理?
即使在閱讀了 Wikipedia 上的Data Scrubbing之後,當術語用於數據庫時,我仍然不清楚 Data Scrubbing 到底是什麼。
有一種預定義的方式來執行數據清理,這是一個*正式的工程原理嗎?*如果是這樣,我應該研究的關鍵字是什麼?
- 要麼 -
簡單地清理數據庫中的不一致數據是一個籠統的術語還是一個鬆散的術語?
什麼是數據清理?
在數據庫上下文中,它是對與架構一致但在更高級別上是錯誤的數據的更正,例如無效的信用卡號和 SSN、重複記錄、格式不匹配等。
它是一個籠統的、鬆散的術語,僅在特定情況下才具有特定含義。
我創建了“數據清理”常式來定期檢查和修復實時檢查可能不切實際的數據庫問題(即在輸入數據時檢查錯誤、不一致或重複)。清理常式可以修復特定類型的錯誤,例如檢查郵政編碼條目是否與城市/州匹配,或者在給定地址的情況下查找客戶名稱的變體(重複的客戶)。
有時當數據庫被非規範化(出於性能原因)時,清理常式可以在“非高峰”時間檢查數據庫以確保數據保持一致。