혼합 경험적 베이지안 크리깅과 서포트 벡터 머신 회귀를 이용한 교외 및 도시 토양의 니켈 농도 예측

Nature.com을 방문해 주셔서 감사합니다.사용 중인 브라우저 버전은 CSS에 대한 지원이 제한되어 있습니다.최상의 경험을 위해 업데이트된 브라우저를 사용하는 것이 좋습니다(또는 Internet Explorer에서 호환 모드를 해제).그동안 지속적인 지원을 위해 스타일 및 JavaScript 없이 사이트를 표시합니다.
토양 오염은 인간 활동으로 인해 발생하는 큰 문제입니다. PTE(잠재적 독성 원소)의 공간 분포는 대부분의 도시 및 도시 주변 지역에서 다릅니다. 따라서 이러한 토양에서 PTE의 함량을 공간적으로 예측하기는 어렵습니다. 체코 공화국의 Frydek Mistek에서 총 115개의 샘플을 얻었습니다. 예측변수는 Ca, Mg, K이다. 반응변수와 예측변수의 상관행렬은 요소간 만족스러운 상관관계를 보인다. 예측 결과 SVMR(Support Vector Machine Regression)이 좋은 결과를 보였지만 추정된 평균제곱근오차(RMSE)(235.974 mg/kg)와 평균절대오차(MAE)(166.946 mg/kg)가 다른 방법을 적용한 것보다 높았다. 경험적 베이지안 크리깅-다중선형회귀 혼합모델 (EBK-MLR)은 0.1 미만의 결정계수에서 알 수 있듯이 성능이 좋지 않습니다. EBK-SVMR(Empirical Bayesian Kriging-Support Vector Machine Regression) 모델이 낮은 RMSE(95.479 mg/kg) 및 MAE(77.368 mg/kg) 값과 높은 결정계수(R2 = 0.637)로 최고의 모델이었습니다. EBK-SVMR 모델링 기법 출력은 다음을 사용하여 시각화됩니다. 자기 조직화 지도. 하이브리드 모델 CakMg-EBK-SVMR 구성 요소의 평면에 있는 클러스터링된 뉴런은 도시 및 도시 주변 토양에서 Ni 농도를 예측하는 여러 색상 패턴을 보여줍니다. 결과는 EBK와 SVMR을 결합하는 것이 도시 및 도시 주변 토양에서 Ni 농도를 예측하는 효과적인 기술임을 보여줍니다.
니켈(Ni)은 종자 발아에 필요한 대기 질소 고정(N) 및 요소 대사에 기여하기 때문에 식물의 미량 영양소로 간주됩니다. Ni는 종자 발아에 기여하는 것 외에도 곰팡이 및 박테리아 억제제 역할을 할 수 있으며 식물 발달을 촉진할 수 있습니다. 토양에 니켈이 부족하면 식물이 니켈을 흡수하여 잎이 황화됩니다. 토양을 비옥하게 하고 콩과식물이 토양에 질소를 고정시키는 능력을 증가시키는 비료는 토양의 니켈 농도를 지속적으로 증가시킵니다. 니켈은 식물의 미량 영양소이지만 토양의 과도한 섭취는 득보다 실이 더 많습니다. 토양의 니켈 독성은 토양 pH를 최소화하고 식물 성장을 위한 필수 영양소인 철의 흡수를 방해합니다1. Liu3에 따르면 Ni는 식물 발달 및 성장에 필요한 17번째 중요한 요소인 것으로 밝혀졌습니다. 식물 발달 및 성장에서 니켈의 역할 외에도 , 인간은 다양한 응용 분야에 니켈을 필요로 합니다. 자동차 산업의 전기 도금, 니켈 기반 합금 생산, 점화 장치 및 점화 플러그 제조는 모두 다양한 산업 분야에서 니켈을 사용해야 합니다. 니켈의 천연 공급원에는 화산 폭발, 초목, 산불 및 지질학적 과정이 포함됩니다.그러나 인위적 배출원에는 철강 산업의 니켈/카드뮴 배터리, 전기 도금, 아크 용접, 디젤 및 연료유, 석탄 연소 및 폐기물 및 슬러지 소각으로 인한 대기 배출물이 포함됩니다.10, 인접 및 인접 환경에서 표토 오염의 주요 원인은 주로 니켈-구리 기반 제련소 및 광산입니다. 캐나다 Sudbury 니켈-구리 정련소 주변의 표토는 26,000 mg/kg11로 가장 높은 수준의 니켈 오염을 보였습니다. 대조적으로, 러시아의 니켈 생산으로 인한 오염으로 인해 노르웨이 토양에서 더 높은 니켈 농도가 발생했습니다11. Alms et al.12, 지역 최고의 경작지(러시아의 니켈 생산)에서 추출 가능한 HNO3 니켈의 양은 6.25~136.88mg/kg 범위였으며, 이는 평균 30.43mg/kg 및 기준 농도 25mg/kg에 해당합니다. kabata 11에 따르면 연속적인 농작물 시즌 동안 도시 또는 도시 근교 토양의 농업 토양에 인 비료를 시용하면 인이 스며들거나 오염될 수 있습니다. 인간에 대한 니켈의 잠재적 영향은 돌연변이 유발, 염색체 손상, Z-DNA 생성, 차단된 DNA 절단 복구 또는 후생유전학적 과정을 통해 암으로 이어질 수 있습니다13. 동물 실험에서 니켈은 다양한 종양을 유발할 가능성이 있는 것으로 밝혀졌으며 발암성 니켈 복합체는 이러한 종양을 악화시킬 수 있습니다.
토양-식물 관계, 토양과 토양의 생물학적 관계, 생태학적 악화 및 환경 영향 평가에서 발생하는 광범위한 건강 관련 문제로 인해 최근 토양 오염 평가가 번성했습니다. 현재까지 토양의 Ni와 같은 잠재적 독성 요소(PTE)의 공간적 예측은 전통적인 방법을 사용하여 힘들고 시간이 많이 소요되었습니다. DSM)은 토양 과학의 탁월한 하위 분야임이 입증되었습니다. Lagacherie 및 McBratney, 2006은 DSM을 "현장 및 실험실 관찰 방법과 공간 및 비공간 토양 추론 시스템을 사용하여 공간 토양 정보 시스템을 만들고 채우는 것"으로 정의합니다. McBratney et al.17은 현재의 DSM 또는 PSM이 PTE, 토양 유형 및 토양 속성의 공간 분포를 예측하거나 매핑하는 데 가장 효과적인 기술이라고 설명합니다. 지리 통계 및 기계 학습 알고리즘(MLA)은 중요하고 최소한의 데이터를 사용하여 컴퓨터의 도움을 받아 디지털화된 지도를 만드는 DSM 모델링 기술입니다.
Deutsch18 및 Olea19는 지리 통계학을 "시계열 분석이 시간 데이터를 특성화하는 방법과 같은 주로 확률 모델을 사용하여 공간 속성의 표현을 다루는 수치 기술의 모음"으로 정의합니다.주로 지리 통계학은 각 데이터 세트20.Gumiaux 외.도 20은 또한 지리 통계학에서 변동도의 평가가 (a) 데이터 상관의 규모를 계산하고, (b) 데이터 집합 불일치에서 이방성을 식별하고 계산하고, (c) 국부적 효과로부터 분리된 측정 데이터의 내재적 오류를 고려하는 것 외에, 면적 효과도 추정하는 것을 포함하는 세 가지 원칙에 기반한다는 것을 추가로 설명합니다. 이러한 개념을 바탕으로 일반 크리깅, 공동 크리깅, 일반 크리깅, 경험적 PTE, 토양 특성 및 토양 유형을 매핑하거나 예측하기 위한 베이지안 크리깅, 단순 크리깅 방법 및 기타 잘 알려진 보간 기법.
기계 학습 알고리즘(MLA)은 더 큰 비선형 데이터 클래스를 사용하는 상대적으로 새로운 기술로, 데이터 마이닝에 주로 사용되는 알고리즘에 의해 연료가 공급되고 데이터의 패턴을 식별하며 토양 과학 및 반환 작업과 같은 과학 분야의 분류에 반복적으로 적용됩니다. 수많은 연구 논문은 MLA 모델을 사용하여 Tan et al과 같은 토양의 PTE를 예측합니다.22(농업 토양의 중금속 산정을 위한 무작위 삼림), Sakizadeh et al.23 (서포트 벡터 머신과 인공 신경망을 이용한 모델링) 토양 오염 ). 또한 Vega et al.24 (토양 내 중금속 보유 및 흡착 모델링을 위한 CART) Sun et al.25(Cubist의 적용은 토양에서 Cd의 분포임) 및 k-최근접 이웃, 일반화 부스트 회귀 및 부스트 회귀 트리와 같은 기타 알고리즘도 토양에서 PTE를 예측하기 위해 MLA를 적용했습니다.
예측 또는 매핑에 DSM 알고리즘을 적용하는 데는 몇 가지 문제가 있습니다. 많은 저자는 MLA가 지리 통계학보다 우월하고 그 반대도 마찬가지라고 생각합니다. 비록 하나가 다른 것보다 낫지만 둘의 조합은 DSM15에서 매핑 또는 예측의 정확도 수준을 향상시킵니다.Woodcock 및 Gopal26 Finke27;Pontius와 Cheuk28 및 Grunwald29는 예상 토양 매핑의 결함 및 일부 오류에 대해 설명합니다. 토양 과학자들은 DSM 매핑 및 예측의 효율성, 정확성 및 예측 가능성을 최적화하기 위해 다양한 기술을 시도했습니다. 불확실성과 검증의 조합은 효율성을 최적화하고 결함을 줄이기 위해 DSM에 통합된 여러 가지 측면 중 하나입니다.15 지도 생성 및 예측에 의해 도입된 검증 동작 및 불확실성은 지도 품질을 개선하기 위해 독립적으로 검증되어야 한다고 설명합니다. DSM의 한계는 불확실성의 구성 요소를 포함하는 지리적으로 분산된 토양 품질에 기인합니다.그러나 DSM의 확실성 부족은 공변량 오류, 모델 오류, 위치 오류 및 분석 오류 31과 같은 여러 오류 소스에서 발생할 수 있습니다. MLA 및 지리 통계 프로세스에서 유도된 모델링 부정확성은 이해 부족과 관련되어 궁극적으로 실제 프로세스32의 지나친 단순화로 이어집니다. 모델링의 특성에 관계없이 부정확성은 모델링 매개변수, 수학적 모델 예측 또는 보간에 기인할 수 있습니다33. Sergeev et al.과 같은 여러 토양 과학자 및 저자.34;Subbotinaet al.35;Tarasovet al.36 및 Tarasov et al.37은 예측 및 매핑의 효율성을 향상시키는 하이브리드 모델을 생성하기 위해 정확한 품질의 지리 통계 및 기계 학습을 활용했습니다.이러한 하이브리드 또는 결합 알고리즘 모델 중 일부는 ANN-RK(Artificial Neural Network Kriging), MLP-RK(Multilayer Perceptron Residual Kriging), GR-NNRK(Generalized Regression Neural Network Residual Kriging)36, ANN-K-MLP(Artificial Neural Network Kriging-Multilayer Perceptron)37 및 Co-Kriging 및 Gaussian Process Regression38입니다.
Sergeev et al.에 따르면 다양한 모델링 기법을 결합하면 단일 모델을 개발하는 것보다 결과 하이브리드 모델의 결함을 제거하고 효율성을 높일 수 있는 잠재력이 있습니다. 이러한 맥락에서 본 논문은 도시 및 도시 주변 지역의 Ni 농축을 예측하기 위한 최적의 하이브리드 모델을 생성하기 위해 지리통계학과 MLA의 결합된 알고리즘을 적용할 필요가 있다고 주장합니다. ) 모델. EBK와 MLA의 혼성화는 알려져 있지 않습니다. 여러 개의 혼합 모델이 일반, 잔차, 회귀 크리깅 및 MLA의 조합입니다. EBK는 현장에서 정의된 현지화 매개변수를 사용하여 비정적/정적 무작위 필드로 현지화되는 공간 확률적 프로세스를 활용하는 지리 통계적 보간 방법으로, 공간 변동을 허용합니다39. EBK는 농장 토양의 유기 탄소 분포 분석40, 토양 오염 평가를 포함한 다양한 연구에 사용되었습니다. 41 및 토양 속성 매핑42.
한편 SeOM(Self-Organizing Graph)은 Li et al.43, Wang et al.44, Hossain Bhuiyan et al.45 및 Kebonye et al.46 요소의 공간 속성 및 그룹화를 결정합니다.Wang et al.44는 SeOM이 비선형 문제를 그룹화하고 상상하는 능력으로 알려진 강력한 학습 기술이라고 설명합니다. 주성분 분석, 퍼지 클러스터링, 계층적 클러스터링 및 다중 기준 의사 결정과 같은 다른 패턴 인식 기술과 달리 SeOM은 PTE 패턴을 구성하고 식별하는 데 더 좋습니다. Wang et al.44, SeOM은 관련 뉴런의 분포를 공간적으로 그룹화하고 고해상도 데이터 시각화를 제공할 수 있습니다. SeOM은 Ni 예측 데이터를 시각화하여 직접 해석을 위해 결과를 특성화하는 최상의 모델을 얻습니다.
이 백서는 도시 및 도시 근교 토양에서 니켈 함량을 예측하기 위한 최적의 정확도를 가진 견고한 매핑 모델을 생성하는 것을 목표로 합니다. 혼합 모델의 신뢰성은 주로 기본 모델에 연결된 다른 모델의 영향에 달려 있다고 가정합니다.따라서 본 연구에서는 혼합모델을 산출할 수 있는 연구문제에 답하고자 한다. 다만, 대상 원소를 예측하는 모델이 얼마나 정확한가? 또한 검증과 정확도 평가를 통한 효율성 평가의 수준은 어느 정도인가? 따라서 본 연구의 구체적인 목표는 (a) EBK를 기본 모델로 하여 SVMR 또는 MLR에 대한 복합 혼합 모델을 생성하고, (b) 결과 모델을 비교하고, (c) 도시 또는 근교 토양에서 Ni 농도를 예측하기 위한 최적의 혼합 모델을 제안하고, (d) Se의 적용에 있었다. 니켈 공간 변화의 고해상도 맵을 생성하는 OM.
이 연구는 체코 공화국, 특히 Moravia-Silesian 지역의 Frydek Mistek 지구에서 수행되고 있습니다(그림 1 참조). 연구 지역의 지리는 매우 험준하며 대부분 Carpathian Mountains의 바깥 가장자리의 일부인 Moravia-Silesian Beskidy 지역의 일부입니다. 연구 지역은 49° 41′ 0′ N과 18° 20′ 0′ E 사이에 위치하며 고도는 225 및 327m;그러나 이 지역의 기후 상태에 대한 Koppen 분류 체계는 Cfb = 온대 해양성 기후로 평가됩니다. 건기에도 많은 강우량이 있습니다. 온도는 -5 °C에서 24 °C 사이에서 일년 내내 약간 변하며 -14 °C 이하 또는 30 °C 이상으로 떨어지는 경우는 거의 없으며 연평균 강수량은 685 ~ 752 mm47입니다. 전체 지역의 예상 조사 면적은 1,208 평방 킬로미터입니다. 경작지의 39.38%, 산림 면적의 49.36%를 차지합니다. 한편, 본 연구에서 사용된 면적은 약 889.8km2입니다. 오스트라바와 그 주변에서는 철강 산업과 금속 작업이 매우 활발합니다. 금속 공장, 니켈이 스테인리스강(예: 대기 부식에 대한 저항성) 및 합금강(니켈은 우수한 연성 및 인성을 유지하면서 합금의 강도를 증가시킴)에 사용되는 철강 산업, 인산염 비료와 같은 집약적 농업 적용 및 가축 생산은 이 지역에서 니켈의 연구 가능한 잠재적 공급원입니다(예: 어린 양과 저급식 소의 성장률을 높이기 위해 어린 양에 니켈을 추가). 연구 분야에서 니켈의 다른 산업적 용도에는 전기 도금 니켈 및 무전해 니켈 도금 공정을 포함한 전기 도금에서의 사용이 포함됩니다. 토양 특성은 토양 색상, 구조 및 탄산염 함량과 쉽게 구별할 수 있습니다. 하층토, 종종 콘크리트 및 표백제 사용. 그러나 캄비솔과 스타그노솔은 이 지역에서 가장 흔한 토양 유형입니다48. 캄비솔은 고도가 455.1~493.5m인 체코 공화국을 지배합니다49.
연구 지역 지도 [연구 지역 지도는 ArcGIS Desktop(ESRI, Inc, 버전 10.7, URL: https://desktop.arcgis.com)을 사용하여 생성되었습니다.]
Frydek Mistek 지역의 도시 및 근교 토양에서 총 115개의 표토 샘플을 채취했습니다. 사용된 샘플 패턴은 2 × 2km 간격으로 토양 샘플이 있는 규칙적인 그리드였으며 휴대용 GPS 장치(Leica Zeno 5 GPS)를 사용하여 0~20cm 깊이에서 표토를 측정했습니다. 샘플은 Ziploc 백에 포장하고 적절하게 라벨을 붙인 다음 실험실로 배송합니다. 샘플, 기계 시스템(Fritsch 디스크 밀)으로 분쇄하고 체질합니다(체 크기 2mm). 건조, 균질화 및 체질한 토양 샘플 1g을 명확하게 라벨이 붙은 테플론 병에 넣습니다. 각 테플론 용기에 35% HCl 7ml와 65% HNO3 3ml를 분배하고(자동 분배기 사용 - 각 산에 대해 하나씩), 가볍게 덮고 샘플을 반응을 위해 밤새 방치합니다(왕수 프로그램). .상층액을 뜨거운 금속판(온도: 100W 및 160°C)에 2시간 동안 두어 샘플의 소화 과정을 촉진한 다음 식힙니다. 상층액을 50ml 메스 플라스크로 옮기고 탈이온수로 50ml로 희석합니다. 그 후 희석된 상층액을 탈이온수로 50ml PVC 튜브에 여과합니다. 추가로 희석액 1ml를 탈이온수 9ml로 희석하고 PTE pseudo-concentration을 위해 준비된 12ml 튜브에 여과했습니다. PTE(As, Cd, Cr, Cu, Mn, Ni, Pb, Zn, Ca, Mg, K)의 농도는 표준 방법 및 계약에 따라 ICP-OES(Inductively Coupled Plasma Optical Emission Spectroscopy)(Thermo Fisher Scientific, USA)로 결정했습니다. 품질 보증 및 제어(QA/QC) 절차(SRM NIST 2711a Montana)를 확인하십시오. II Soil).PTE의 검출한계가 절반 이하인 경우는 본 연구에서 제외하였다. 본 연구에 사용된 PTE의 검출한계는 0.0004(you)이다. 또한, 각 분석에 대한 품질관리 및 품질보증 프로세스는 참조표준을 분석하여 담보한다. 오차를 최소화하기 위하여 이중분석을 수행하였다.
EBK(Empirical Bayesian Kriging)는 토양 과학과 같은 다양한 분야에서 모델링에 사용되는 많은 지리 통계적 보간 기법 중 하나입니다. 다른 크리깅 보간 기법과 달리 EBK는 세미배리오그램 모델에 의해 추정된 오차를 고려한다는 점에서 전통적인 크리깅 방법과 다릅니다. s 충분한 kriging 방법의 매우 복잡한 부분입니다. EBK의 보간 프로세스는 Krivoruchko50이 제안한 세 가지 기준을 따릅니다. (a) 모델은 입력 데이터 세트에서 semivariogram을 추정합니다. (b) 생성된 semivariogram을 기반으로 각 입력 데이터 세트 위치에 대한 새로운 예측 값입니다. (c) 최종 A 모델은 시뮬레이션된 데이터 세트에서 계산됩니다. 베이지안 방정식 규칙은 사후
여기서 \ (prob \ left (a \ right) \)는 이전, \ (prob \ left (b \ right) \)의 한계 확률을 대부분의 경우 무시됩니다. \ (prob (b, a) \). 반 바리오 그램 계산은 베어의 규칙을 기반으로하는 것입니다. , 이것은 반 바리오 그램에서 관측치 데이터 세트를 만들 가능성이 있는지를 나타냅니다.
서포트 벡터 머신은 동일하지만 선형적으로 독립적이지 않은 클래스를 구별하기 위해 최적의 분리 초평면을 생성하는 기계 학습 알고리즘입니다.Vapnik51은 의도 분류 알고리즘을 만들었지만 최근에는 회귀 지향 문제를 해결하는 데 사용되었습니다.Li et al.52에 따르면 SVM은 최고의 분류기 기술 ​​중 하나이며 다양한 분야에서 사용되었습니다.이 분석에는 SVM(Support Vector Machine Regression – SVMR)의 회귀 구성 요소가 사용되었습니다.Cherkassky와 Mulier53는 SVMR을 개척했습니다. 다중 국가 공간 함수가 포함된 선형 회귀 모델을 사용하여 계산이 수행된 커널 기반 회귀로서 John et al54는 SVMR 모델링이 비선형 관계를 생성하고 공간 함수를 허용하는 초평면 선형 회귀를 사용한다고 보고합니다. Vohland et al.55, 엡실론(ε)-SVMR은 훈련된 데이터 세트를 사용하여 상관 데이터에 대한 훈련에서 최상의 엡실론 바이어스와 독립적으로 데이터를 매핑하는 데 적용되는 엡실론 비구분 함수로 표현 모델을 얻습니다. 미리 설정된 거리 오류는 실제 값에서 무시되고 오류가 ε(ε)보다 크면 토양 특성이 이를 보상합니다. 모델은 또한 훈련 데이터의 복잡성을 지원 벡터의 더 넓은 하위 집합으로 줄입니다.
여기서 b는 스칼라 임계값을 나타내고, \(K\left({x}_{,}{ x}_{k}\right)\)는 커널 함수를 나타내고, \(\alpha\)는 라그랑주 승수를 나타내고, N은 숫자 데이터 세트를 나타내고, \({x}_{k}\)는 데이터 입력을 나타내고, \(y\)는 데이터 출력을 나타냅니다. 사용된 주요 커널 중 하나는 가우시안 방사형 기저 함수(RBF)인 SVMR 연산입니다. RBF 커널은 다음과 같습니다. 최적의 SVMR 모델을 결정하기 위해 적용되었으며, 이는 PTE 교육 데이터에 대한 가장 미묘한 페널티 세트 요소 C 및 커널 매개변수 감마(γ)를 얻는 데 중요합니다. 먼저 교육 세트를 평가한 다음 검증 세트에서 모델 성능을 테스트했습니다. 사용된 스티어링 매개변수는 sigma이고 방법 값은 svmRadial입니다.
다중선형회귀모델(MLR)은 최소자승법을 사용하여 계산된 선형 풀링된 매개변수를 사용하여 반응변수와 다수의 예측변수 사이의 관계를 나타내는 회귀모델이다.
여기서 y는 응답 변수, \(a\)는 절편, n은 예측 변수의 수, \({b}_{1}\)는 계수의 부분 회귀, \({x}_{ i}\)는 예측 변수 또는 설명 변수를 나타내고 \({\varepsilon }_{i}\)는 모델의 오류를 나타내며, 잔차라고도 합니다.
혼합 모델은 EBK를 SVMR 및 MLR과 샌드위치하여 얻었습니다. 이는 EBK 보간법에서 예측값을 추출하여 수행됩니다. 보간된 Ca, K 및 Mg에서 얻은 예측값은 조합 과정을 통해 CaK, CaMg 및 KMg와 같은 새로운 변수를 얻습니다. 그런 다음 Ca, K 및 Mg 원소를 결합하여 네 번째 변수인 CaKMg를 얻습니다. 전체적으로 얻은 변수는 Ca, K, Mg, Ca입니다. K, CaMg, KMg 및 CaKMg. 이러한 변수는 도시 및 도시 주변 토양의 니켈 농도를 예측하는 데 도움이 되는 예측 변수가 되었습니다. 예측 변수에서 SVMR 알고리즘을 수행하여 혼합 모델 EBK_SVM(Empirical Bayesian Kriging-Support Vector Machine)을 얻었습니다. 마찬가지로 변수도 MLR 알고리즘을 통해 파이프되어 혼합 모델 경험적 베이지안 Kriging-다중 선형 회귀(EBK_MLR)를 얻습니다. 일반적으로, 변수 Ca, K, Mg, CaK, CaMg, KMg 및 CaKMg는 도시 및 도시 주변 토양에서 Ni 함량의 예측 변수로 공변량으로 사용됩니다. 얻은 가장 수용 가능한 모델(EBK_SVM 또는 EBK_MLR)은 자가 구성 그래프를 사용하여 시각화됩니다. 이 연구의 워크플로는 그림 2에 나와 있습니다.
SeOM을 사용하는 것은 금융, 의료, 산업, 통계, 토양 과학 등에서 데이터를 구성, 평가 및 예측하는 데 널리 사용되는 도구가 되었습니다. SeOM은 구성, 평가 및 예측을 위해 인공 신경망과 자율 학습 방법을 사용하여 생성됩니다. 본 연구에서 SeOM은 도시 및 도시 주변 토양에서 Ni를 예측하기 위한 최상의 모델을 기반으로 Ni 농도를 시각화하는 데 사용되었습니다. SeOM 평가에서 처리된 데이터는 n 입력 차원 벡터 변수로 사용됩니다43,56.Melssen et al.도 57은 단일 가중치 벡터를 갖는 출력 벡터에 대한 단일 입력 레이어를 통해 입력 벡터를 신경망으로 연결하는 것을 설명한다. SeOM에 의해 생성된 출력은 서로 다른 뉴런 또는 노드로 구성된 2차원 맵이며, 이들의 근접성에 따라 육각형, 원형 ​​또는 사각형 토폴로지 맵으로 직조된다. 메트릭, 양자화 오류(QE) 및 지형 오류(TE)를 기반으로 맵 크기를 비교하면 각각 0.086 및 0.904인 SeOM 모델이 선택되며, 이는 55- 맵 단위(5 × 11). 실험식의 노드 수에 따라 뉴런 구조 결정
본 연구에 사용된 데이터의 수는 115개 샘플이다. 무작위 접근법을 사용하여 데이터를 테스트 데이터(검증을 위해 25%)와 훈련 데이터 세트(보정을 위해 75%)로 나누었다. 훈련 데이터 세트는 회귀 모델(보정)을 생성하는 데 사용되었으며 테스트 데이터 세트는 일반화 능력을 검증하는 데 사용58. 이는 토양의 니켈 함량을 예측하기 위한 다양한 모델의 적합성을 평가하기 위해 수행되었다. K 보간은 대상 변수(PTE)를 예측하기 위한 예측 변수 또는 설명 변수로 사용됩니다. 모델링은 라이브러리(Kohonen), 라이브러리(caret), 라이브러리(modelr), 라이브러리("e1071"), 라이브러리("plyr"), 라이브러리("caTools"), 라이브러리("prospectr") 및 라이브러리("Metrics") 패키지를 사용하여 RStudio에서 처리됩니다.
다양한 검증 매개변수를 사용하여 토양 내 니켈 농도를 예측하기에 가장 적합한 모델을 결정하고 모델의 정확도와 검증을 평가했습니다. 혼성화 모델은 평균 절대 오차(MAE), 평균 제곱근 오차(RMSE), R-제곱 또는 계수 결정(R2)을 사용하여 평가했습니다. R2는 회귀 모델로 표현되는 응답 비율의 분산을 정의합니다. 검증 매개변수를 사용하여 최상의 혼합물 모델을 평가하려면 값이 높아야 하며 값이 1에 가까울수록 정확도가 높습니다. Li et al.59, 0.75 이상의 R2 기준 값은 좋은 예측 변수로 간주됩니다.0.5에서 0.75까지는 허용 가능한 모델 성능이며, 0.5 미만은 허용되지 않는 모델 성능입니다. RMSE 및 MAE 검증 기준 평가 방법을 사용하여 모델을 선택할 때 얻은 낮은 값이 충분하고 최선의 선택으로 간주되었습니다. 다음 방정식은 검증 방법을 설명합니다.
여기서 n은 관찰된 값의 크기를 나타내며\({Y}_{i}\)는 측정된 반응을 나타내고 \({\widehat{Y}}_{i}\)는 첫 번째 i개의 관찰에 대한 예측된 반응 값을 나타냅니다.
예측 변수와 응답 변수에 대한 통계적 설명이 표 1에 나와 있으며 평균, 표준 편차(SD), 변동 계수(CV), 최소값, 최대값, 첨도 및 왜도를 보여줍니다. 요소의 최소값과 최대값은 각각 Mg < Ca < K < Ni 및 Ca < Mg < K < Ni의 내림차순입니다. 연구 영역에서 샘플링된 응답 변수(Ni)의 농도는 4.86에서 42.39 mg/kg 범위였습니다. 비교 세계 평균(29 mg/kg) 및 유럽 평균(37 mg/kg)과 Ni의 ison은 연구 지역에 대해 전반적으로 계산된 기하 평균이 허용 범위 내에 있음을 보여주었습니다. 그럼에도 불구하고 Kabata-Pendias11에 나타난 바와 같이, 현재 연구의 평균 니켈(Ni) 농도를 스웨덴의 농업 토양과 비교하면 현재 평균 니켈 농도가 더 높은 것으로 나타났습니다. 마찬가지로, 현재 연구(Ni 16.15 mg/kg)은 Różański et al이 보고한 폴란드 도시 토양의 Ni에 대한 허용 한계인 60(10.2 mg/kg)보다 높았습니다. 또한 Bretzel과 Calderisi61는 현재 연구와 비교하여 Tuscany의 도시 토양에서 매우 낮은 평균 Ni 농도(1.78 mg/kg)를 기록했습니다. Jim62는 또한 홍콩 도시 토양에서 더 낮은 니켈 농도(12.34 mg/kg)를 발견했습니다. Birke et al63은 독일 작센-안할트(Saxony-Anhalt)의 오래된 광산 및 도시 산업 지역에서 평균 Ni 농도가 17.6mg/kg으로 보고했으며 이는 해당 지역의 평균 Ni 농도(16.15mg/kg)보다 1.45mg/kg 더 높았습니다. 연구 지역의 일부 도시 및 교외 지역 토양의 과도한 니켈 함량은 주로 철강 산업 및 금속 산업에 기인할 수 있습니다. odadoustet al.64는 철강 산업과 금속 가공업이 토양 니켈 오염의 주요 원인이라고 밝혔습니다. 그러나 예측 변수도 Ca의 경우 538.70~69,161.80mg/kg, K의 경우 497.51~3535.68mg/kg, Mg.Jakovljevic 등의 경우 685.68~5970.05mg/kg의 범위였습니다.65는 중앙 세르비아에서 토양의 총 Mg 및 K 함량을 조사했습니다. 그들은 총 농도(각각 410 mg/kg 및 400 mg/kg)가 현재 연구의 Mg 및 K 농도보다 낮다는 것을 발견했습니다. 구별할 수 없지만, 동부 폴란드에서 Orzechowski 및 Smolczynski66는 Ca, Mg 및 K의 총 함량을 평가했으며 Ca(1100 mg/kg), Mg(590 mg/kg)의 평균 농도를 나타냈습니다. 및 K(810 mg/kg) 표토의 함량은 본 연구의 단일 원소보다 낮습니다. Pongrac et al.의 최근 연구.67은 영국 스코틀랜드의 3가지 토양(Mylnefield 토양, Balruddery 토양 및 Hartwood 토양)에서 분석된 총 Ca 함량이 이 연구에서 더 높은 Ca 함량을 나타냄을 보여주었습니다.
샘플링된 원소의 측정된 농도가 다르기 때문에 원소의 데이터 세트 분포는 서로 다른 왜곡을 나타냅니다. 원소의 왜곡과 첨도는 각각 1.53~7.24 및 2.49~54.16 범위였습니다. 계산된 모든 원소의 왜곡과 첨도 수준은 +1 이상이므로 데이터 분포가 불규칙하고 올바른 방향으로 왜곡되고 정점에 있음을 나타냅니다. 원소의 추정 CV도 K, Mg 및 Ni가 중간 정도임을 나타냅니다. 변동성이 있는 반면 Ca는 변동성이 매우 높습니다. K, Ni 및 Mg의 CV는 균일한 분포를 설명합니다. 또한 Ca 분포는 균일하지 않으며 외부 소스가 농축 수준에 영향을 줄 수 있습니다.
응답 요소와 예측 변수의 상관 관계는 요소 간에 만족스러운 상관 관계를 나타냈습니다(그림 3 참조). 상관 관계는 CaNi와 마찬가지로 CaK가 r 값 = 0.53과 중간 정도의 상관 관계를 나타냄을 나타냅니다. Ca와 K는 서로 약간의 연관성을 보이지만 Kingston et al.68과 Santo69는 토양 내 농도가 반비례한다고 제안합니다. 그러나 Ca와 Mg는 K와 길항적이지만 CaK는 상관관계가 좋습니다. 이는 칼륨이 56% 더 높은 탄산칼륨과 같은 비료를 시용했기 때문일 수 있습니다. 니켈은 r 값이 각각 0.52, 0.63 및 0.55인 Ca, K 및 Mg와 적당한 상관 관계가 있습니다. 칼슘, 마그네슘 및 니켈과 같은 PTE와 관련된 관계는 복잡하지만 그럼에도 불구하고 마그네슘은 칼슘 흡수를 억제하고 칼슘은 과도한 마그네슘의 영향을 감소시키며 마그네슘과 칼슘은 모두 토양에서 니켈의 독성 영향을 감소시킵니다.
예측 변수와 반응 사이의 관계를 보여주는 요소에 대한 상관 행렬(참고: 이 그림에는 요소 사이의 산점도가 포함되며 유의 수준은 p < 0,001을 기반으로 함).
그림 4는 원소의 공간적 분포를 보여줍니다. Burgos et al70에 따르면 공간 분포의 적용은 오염된 지역의 핫스팟을 정량화하고 강조 표시하는 데 사용되는 기술입니다. 그림 4의 Ca 농축 수준은 공간 분포 맵의 북서쪽 부분에서 볼 수 있습니다. 그림은 중간에서 높은 Ca 농축 핫스팟을 보여줍니다. 다른 한편으로, 다른 농부들은 pH를 중화하기 위해 산성 토양에서 수산화칼슘을 사용하는 것을 선호하며, 이는 또한 토양의 칼슘 함량을 증가시킵니다71. 칼륨은 또한 지도의 북서쪽과 동쪽에서 핫스팟을 보여줍니다. krabová et al.74, Asare et al.75는 토양 안정화와 KCl 및 NPK로 처리하면 토양의 K 함량이 높아진다는 것을 관찰했습니다.분포도 북서쪽의 공간적 칼륨 농축은 척박한 토양의 칼륨 함량을 증가시키기 위해 염화칼륨, 황산칼륨, 질산칼륨, 칼륨, 칼륨과 같은 칼륨 기반 비료를 사용했기 때문일 수 있습니다. Zádorová et al.76 및 Tlustoš et al.77은 K 기반 비료의 적용이 토양의 K 함량을 증가시켰고 장기적으로 토양 영양분 함량, 특히 K와 Mg가 토양의 핫스팟을 크게 증가시킬 것이라고 설명했습니다. 지도의 북서쪽과 남동쪽의 상대적으로 온건한 핫스팟입니다. 토양의 콜로이드 고정은 토양의 마그네슘 농도를 고갈시킵니다. 황산마그네슘 및 Kieserite는 정상 pH 범위의 토양에서 결핍(마그네슘 결핍을 나타내는 보라색, 빨간색 또는 갈색으로 보이는 식물)을 치료합니다.
요소의 공간 분포 [공간 분포 맵은 ArcGIS Desktop(ESRI, Inc, 버전 10.7, URL: https://desktop.arcgis.com)을 사용하여 생성되었습니다.]
본 연구에 사용된 원소에 대한 모델 성능 지수 결과를 표 2에 나타내었다. 한편, Ni의 RMSE 및 MAE는 모두 0에 가깝다(0.86 RMSE, -0.08 MAE). 반면 K의 RMSE 및 MAE 값은 모두 수용 가능하다. RMSE 및 MAE 결과는 칼슘 및 마그네슘에서 더 컸다. Ni를 예측하는 것이 John et al.의 결과보다 나은 것으로 나타났습니다.54 공동 수집된 데이터를 사용하여 토양의 S 농도를 예측하기 위해 상승적 크리깅을 사용했습니다. 우리가 연구한 EBK 출력은 Fabijaczyk et al.41, Yan et al.79, Beguin et al.80, Adhikary et al.81 및 John et al.82, 특히 K 및 Ni.
도시 및 도시 근교 토양에서 니켈 함량을 예측하기 위한 개별 방법의 성능은 모델의 성능을 사용하여 평가되었습니다(표 3). 모델 검증 및 정확도 평가는 EBK SVMR 모델과 결합된 Ca_Mg_K 예측자가 최상의 성능을 산출함을 확인했습니다. 보정 모델 Ca_Mg_K-EBK_SVMR 모델 R2, 평균 제곱근 오차(RMSE) 및 평균 절대 오차(MAE)는 0.637(R2), 95.479 mg이었습니다. /kg(RMSE) 및 77.368mg/kg(MAE) Ca_Mg_K-SVMR은 0.663(R2), 235.974mg/kg(RMSE) 및 166.946mg/kg(MAE)이었다. 그럼에도 불구하고 Ca_Mg_K-SVMR(0.663mg/kg R2) 및 Ca_Mg-EBK_S에 대해 양호한 R2 값이 얻어졌다. VMR(0.643 = R2);이들의 RMSE 및 MAE 결과는 Ca_Mg_K-EBK_SVMR(R2 0.637)에 대한 것보다 높았다(표 3 참조). 또한 Ca_Mg-EBK_SVMR(RMSE = 1664.64 및 MAE = 1031.49) 모델의 RMSE 및 MAE는 각각 17.5 및 13.4로 Ca_Mg_K-EB보다 컸다. 마찬가지로, Ca_Mg-K SVMR(RMSE = 235.974 및 MAE = 166.946) 모델의 RMSE 및 MAE는 Ca_Mg_K-EBK_SVMR RMSE 및 MAE보다 각각 2.5 및 2.2 더 큽니다. 계산된 RMSE 결과는 데이터 세트가 최적 적합선에 얼마나 집중되어 있는지를 나타냅니다. 더 높은 RSME 및 MAE가 관찰되었습니다. Accord Kebonye et al.46 및 john et al.54, RMSE와 MAE가 0에 가까울수록 결과가 좋다. SVMR과 EBK_SVMR은 양자화된 RSME와 MAE 값이 더 높다. 데이터 세트가 많을수록 MAE 및 RMSE 값이 더 높습니다. 도시 및 교외 토양의 Ni 함량을 예측하기 위한 Ca_Mg_K-EBK_SVMR 혼합 모델의 교차 검증 평가 정확도는 63.70%였습니다. Li et al.59, 이 수준의 정확도는 허용 가능한 모델 성능 비율입니다. 현재 결과는 Tarasov 등의 이전 연구와 비교됩니다.본 연구에서 보고된 EBK_SVMR 정확도 평가지표와 관련하여 MLPRK(Multilayer Perceptron Residual Kriging)를 생성한 하이브리드 모델의 36은 RMSE(210)와 The MAE(167.5)가 본 연구 결과(RMSE 95.479, MAE 77.368)보다 높았다. 그러나 본 연구의 R2(0.637)를 Tarasov et al.36(0.544)으로 볼 때, 이 혼합 모델에서 결정계수(R2)가 더 높은 것이 분명하다. 혼합 모델에 대한 오차 한계(RMSE 및 MAE)(EBK SVMR)는 2배 더 낮다. 마찬가지로 Sergeev et al.34는 개발된 하이브리드 모델(Multilayer Perceptron Residual Kriging)에 대해 0.28(R2)을 기록한 반면, 현재 연구에서 Ni는 0.637(R2)을 기록했다. 이의 예측 정확도 수준 모델(EBK SVMR)은 63.7%인 반면 Sergeev et al.34는 28%입니다. EBK_SVMR 모델과 Ca_Mg_K를 예측자로 사용하여 생성된 최종 맵(그림 5)은 전체 연구 영역에 걸쳐 핫스팟과 중간에서 니켈에 대한 예측을 보여줍니다. 이는 연구 영역의 니켈 농도가 주로 중간이며 일부 특정 영역에서 더 높은 농도를 나타냄을 의미합니다.
최종 예측 맵은 하이브리드 모델 EBK_SVMR을 사용하고 Ca_Mg_K를 예측자로 사용하여 표현됩니다.[공간 분포 맵은 RStudio(버전 1.4.1717: https://www.rstudio.com/)를 사용하여 생성되었습니다.]
그림 6은 개별 뉴런으로 구성된 구성 평면으로서 PTE 농도를 나타낸 것입니다. 구성 평면 중 어느 것도 표시된 것과 같은 색상 패턴을 나타내지 않았습니다. 그러나 그려진 맵당 적절한 뉴런 수는 55개입니다. SeOM은 다양한 색상을 사용하여 생성되며 색상 패턴이 유사할수록 샘플의 특성이 더 유사합니다. 정확한 색상 척도에 따르면 개별 요소(Ca, K 및 Mg)는 단일 높은 뉴런 및 대부분의 낮은 뉴런과 유사한 색상 패턴을 나타냈습니다. 따라서 CaK 및 CaMg는 공유합니다. 매우 높은 차수 뉴런 및 낮음에서 중간 정도의 색상 패턴과 약간의 유사성. 두 모델 모두 빨간색, 주황색 및 노란색과 같은 중간에서 높은 색상의 색상을 표시하여 토양의 Ni 농도를 예측합니다. KMg 모델은 정확한 비율과 낮음에서 중간 색상 패치를 기반으로 많은 높은 색상 패턴을 표시합니다. 낮음에서 높음까지의 정확한 색상 척도에서 모델 구성 요소의 평면 분포 패턴은 토양에서 잠재적인 니켈 농도를 나타내는 높은 색상 패턴을 나타냅니다(그림 4 참조). CakMg 모델 구성 평면은 다양한 색상을 보여줍니다. 또한 모델의 니켈 함량(CakMg) 예측은 그림 5에 표시된 니켈의 공간적 분포와 유사합니다. 두 그래프 모두 도시 및 도시 주변 토양에서 니켈 농도의 높음, 중간 및 낮음 비율을 보여줍니다. 그림 7은 각 모델의 예측값을 기반으로 3개의 클러스터로 분할된 k-평균 그룹화의 등고선 방법을 보여줍니다. 등고선 방법은 최적의 클러스터 수를 나타냅니다. 115개의 토양 중 수집된 샘플, 범주 1이 가장 많은 토양 샘플, 74개를 얻었습니다. 클러스터 2는 33개 샘플을 받았고 클러스터 3은 8개 샘플을 받았습니다. 7개 구성 요소 평면 예측 변수 조합은 올바른 클러스터 해석을 허용하도록 단순화되었습니다. 토양 형성에 영향을 미치는 수많은 인위적 및 자연적 과정으로 인해 분포된 SeOM 맵78에서 적절하게 차별화된 클러스터 패턴을 갖기가 어렵습니다.
각 Empirical Bayesian Kriging Support Vector Machine(EBK_SVM_SeOM) 변수에 의한 컴포넌트 평면 출력.[SeOM 맵은 RStudio(버전 1.4.1717: https://www.rstudio.com/)를 사용하여 생성되었습니다.]
다양한 클러스터 분류 구성 요소 [SeOM 맵은 RStudio(버전 1.4.1717: https://www.rstudio.com/)를 사용하여 생성되었습니다.]
현재 연구는 도시 및 근교 토양의 니켈 농도에 대한 모델링 기법을 명확하게 설명합니다. 이 연구는 토양의 니켈 농도를 예측하는 가장 좋은 방법을 얻기 위해 요소를 모델링 기법과 결합하여 다양한 모델링 기법을 테스트했습니다. 모델링 기법의 SeOM 구성 평면 공간 특징은 정확한 색상 척도에서 낮음에서 높음까지 높은 색상 패턴을 나타내어 토양의 Ni 농도를 나타냅니다. 그러나 공간 분포 맵은 EBK_SVMR이 나타내는 구성 요소의 평면 공간 분포를 확인합니다(그림 5 참조). 지지 벡터 기계 회귀 모델(Ca Mg K-SVMR)은 단일 모델로 토양 내 Ni 농도를 예측하지만 검증 및 정확도 평가 매개변수는 RMSE와 MAE 측면에서 매우 높은 오차를 나타냅니다. 반면에 EBK_MLR 모델에서 사용된 모델링 기법은 결정계수(R2) 값이 낮아 결함이 있습니다. %.EBK 알고리즘과 기계 학습 알고리즘을 결합하면 토양 내 PTEs 농도를 예측할 수 있는 하이브리드 알고리즘을 생성할 수 있음이 밝혀졌습니다. 그 결과 Ca Mg K를 예측 변수로 사용하여 연구 지역의 Ni 농도를 예측하면 토양 내 Ni 예측이 개선될 수 있음을 보여줍니다. 도시 또는 도시 주변 토양의 토양 공간 분포. 일반적으로 토양의 PTE를 평가하고 예측하기 위해 EBK-SVMR 모델을 적용할 것을 제안합니다.또한 EBK를 사용하여 다양한 기계 학습 알고리즘과 하이브리드화할 것을 제안합니다. Ni 농도는 요소를 공변량으로 사용하여 예측했습니다.그러나 더 많은 공변량을 사용하면 모델의 성능이 크게 향상될 수 있어 현 연구의 한계라고 할 수 있다. 본 연구의 또 다른 한계는 데이터셋의 수가 115개라는 점이다.
PlantProbs.net.식물 및 토양의 니켈 https://plantprobs.net/plant/nutrientImbalances/sodium.html(2021년 4월 28일 액세스).
Kasprzak, KS Nickel Advances in modern environmental toxicology.surroundings.toxicology.11, 145–183 (1987).
Cempel, M. & Nikel, G. Nickel: 소스 및 환경 독성에 대한 검토. Polish J. Environment. Stud.15, 375–382(2006).
Freedman, B. & Hutchinson, TC 캐나다 온타리오주 Sudbury에 있는 니켈-구리 제련소 근처의 토양 및 초목에 대기 오염 물질 유입 및 축적.can.J.Bot.58(1), 108-132.https://doi.org/10.1139/b80-014(1980).
Manyiwa, T. et al. Botswana.surroundings.Geochemistry.Health https://doi.org/10.1007/s10653-021-00918-x (2021)의 Selebi-Phikwe 구리-니켈 광산 근처 방목 반추 동물과 관련된 토양, 식물 및 위험의 중금속.
Cabata-Pendias.Kabata-Pendias A. 2011. 토양의 미량 원소 및… 3A+CRC+Press&btnG= (2020년 11월 24일 액세스).
Almås, A., Singh, B., 농업, TS-NJ of & 1995, 정의되지 않음. Soer-Varanger, Norway.agris.fao.org의 농업 토양 및 목초의 중금속 농도에 대한 러시아 니켈 산업의 영향.
Nielsen, GD et al. 음용수에서 니켈 흡수 및 보유는 음식 섭취 및 니켈 민감성과 관련이 있습니다.
Costa, M. & Klein, CB Nickel carcinogenesis, mutation, epigenetics or selection.surroundings.Health Perspective.107, 2 (1999).
아지만, PC;아자도, SK;Borůvka, L.;비니, JKM;사르코디, VYO;Cobonye, ​​NM;잠재적 독성 요소의 경향 분석: 참고문헌 검토. 환경 지구화학 및 건강. Springer 과학 및 비즈니스 미디어 BV 2020.https://doi.org/10.1007/s10653-020-00742-9.
Minasny, B. & McBratney, AB 디지털 토양 매핑: 간략한 역사 및 몇 가지 교훈.Geoderma 264, 301–311.https://doi.org/10.1016/j.geoderma.2015.07.017 (2016).
McBratney, AB, Mendonça Santos, ML & Minasny, B. 디지털 토양 매핑. Geoderma 117(1-2), 3-52.https://doi.org/10.1016/S0016-7061(03)00223-4 (2003).
Deutsch.CV Geostatistical Reservoir Modeling,… 2021년 4월 28일 편집).


게시 시간: 2022년 7월 22일