ಎಲ್ಎಲ್ಎಂ ಮಾನದಂಡ

LLM ಮಾನದಂಡ, ಪುನರ್ಕಲ್ಪನೆ: ಮಾನವ ತೀರ್ಪನ್ನು ಮತ್ತೆ ಜಾರಿಗೆ ತನ್ನಿ

ನೀವು ಸ್ವಯಂಚಾಲಿತ ಸ್ಕೋರ್‌ಗಳನ್ನು ಮಾತ್ರ ನೋಡಿದರೆ, ಹೆಚ್ಚಿನ LLM ಗಳು ಉತ್ತಮವಾಗಿ ಕಾಣುತ್ತವೆ - ಅವು ಸೂಕ್ಷ್ಮವಾಗಿ ತಪ್ಪು, ಅಪಾಯಕಾರಿ ಅಥವಾ ಆಫ್-ಟೋನ್ ಅನ್ನು ಬರೆಯುವವರೆಗೆ. ಸ್ಥಿರ ಮಾನದಂಡಗಳು ಅಳೆಯುವ ಮತ್ತು ನಿಮ್ಮ ಬಳಕೆದಾರರಿಗೆ ನಿಜವಾಗಿ ಅಗತ್ಯವಿರುವ ನಡುವಿನ ಅಂತರ ಅದು. ಈ ಮಾರ್ಗದರ್ಶಿಯಲ್ಲಿ, ಮಾನವ ತೀರ್ಪು (HITL) ಅನ್ನು ಯಾಂತ್ರೀಕರಣದೊಂದಿಗೆ ಹೇಗೆ ಸಂಯೋಜಿಸುವುದು ಎಂಬುದನ್ನು ನಾವು ತೋರಿಸುತ್ತೇವೆ ಆದ್ದರಿಂದ ನಿಮ್ಮ ಎಲ್ಎಲ್ಎಂ ಮಾನದಂಡ ಕೇವಲ ಟೋಕನ್-ಮಟ್ಟದ ನಿಖರತೆಯಲ್ಲ - ಸತ್ಯತೆ, ಸುರಕ್ಷತೆ ಮತ್ತು ಡೊಮೇನ್ ಫಿಟ್ ಅನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆ.

ಎಲ್ಎಲ್ಎಂ ಮಾನದಂಡವು ನಿಜವಾಗಿಯೂ ಏನನ್ನು ಅಳೆಯುತ್ತದೆ

ಸ್ವಯಂಚಾಲಿತ ಮೆಟ್ರಿಕ್‌ಗಳು ಮತ್ತು ಲೀಡರ್‌ಬೋರ್ಡ್‌ಗಳು ವೇಗವಾಗಿರುತ್ತವೆ ಮತ್ತು ಪುನರಾವರ್ತನೀಯವಾಗಿರುತ್ತವೆ. ಬಹು-ಆಯ್ಕೆಯ ಕಾರ್ಯಗಳಲ್ಲಿ ನಿಖರತೆ, ಪಠ್ಯ ಹೋಲಿಕೆಗಾಗಿ BLEU/ROUGE ಮತ್ತು ಭಾಷಾ ಮಾದರಿಗೆ ಗೊಂದಲವು ದಿಕ್ಕಿನ ಸಂಕೇತಗಳನ್ನು ನೀಡುತ್ತದೆ. ಆದರೆ ಅವು ಸಾಮಾನ್ಯವಾಗಿ ತಾರ್ಕಿಕ ಸರಪಳಿಗಳು, ವಾಸ್ತವಿಕ ಆಧಾರ ಮತ್ತು ನೀತಿ ಅನುಸರಣೆಯನ್ನು ಕಳೆದುಕೊಳ್ಳುತ್ತವೆ - ವಿಶೇಷವಾಗಿ ಹೆಚ್ಚಿನ-ಹಕ್ಕುಗಳ ಸಂದರ್ಭಗಳಲ್ಲಿ. ಅದಕ್ಕಾಗಿಯೇ ಆಧುನಿಕ ಕಾರ್ಯಕ್ರಮಗಳು ಬಹು-ಮೆಟ್ರಿಕ್, ಪಾರದರ್ಶಕ ವರದಿ ಮಾಡುವಿಕೆ ಮತ್ತು ಸನ್ನಿವೇಶ ವಾಸ್ತವಿಕತೆಗೆ ಒತ್ತು ನೀಡುತ್ತವೆ.

ಸ್ವಯಂಚಾಲಿತ ಮೆಟ್ರಿಕ್ಸ್ ಮತ್ತು ಸ್ಥಿರ ಪರೀಕ್ಷಾ ಸೆಟ್‌ಗಳು

ಕ್ಲಾಸಿಕ್ ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ಒಂದು ಎಂದು ಯೋಚಿಸಿ ಸ್ಪೀಡೋಮೀಟರ್—ನೀವು ಸುಗಮ ಹೆದ್ದಾರಿಯಲ್ಲಿ ಎಷ್ಟು ವೇಗವಾಗಿ ಹೋಗುತ್ತಿದ್ದೀರಿ ಎಂದು ಹೇಳಲು ಅದ್ಭುತವಾಗಿದೆ. ಆದರೆ ಮಳೆಯಲ್ಲಿ ಬ್ರೇಕ್‌ಗಳು ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆಯೇ ಎಂದು ಅವರು ನಿಮಗೆ ಹೇಳುವುದಿಲ್ಲ. ನೀಲಿ/ರೌಗ್/ಪರ್ಪಲ್‌ಪ್ಲೆಕ್ಸಿಟಿ ಹೋಲಿಕೆಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ, ಆದರೆ ಅವುಗಳನ್ನು ಕಂಠಪಾಠ ಅಥವಾ ಮೇಲ್ಮೈ-ಮಟ್ಟದ ಹೊಂದಾಣಿಕೆಯ ಮೂಲಕ ಆಟವಾಡಬಹುದು.

ಅವರು ಎಲ್ಲಿ ವಿಫಲರಾಗುತ್ತಾರೆ

ನಿಜವಾದ ಬಳಕೆದಾರರು ಅಸ್ಪಷ್ಟತೆ, ಡೊಮೇನ್ ಪರಿಭಾಷೆ, ಸಂಘರ್ಷದ ಗುರಿಗಳು ಮತ್ತು ಬದಲಾಗುತ್ತಿರುವ ನಿಯಮಗಳನ್ನು ತರುತ್ತಾರೆ. ಸ್ಥಿರ ಪರೀಕ್ಷಾ ಸೆಟ್‌ಗಳು ಅದನ್ನು ವಿರಳವಾಗಿ ಸೆರೆಹಿಡಿಯುತ್ತವೆ. ಪರಿಣಾಮವಾಗಿ, ಸಂಪೂರ್ಣವಾಗಿ ಸ್ವಯಂಚಾಲಿತ ಮಾನದಂಡಗಳು ಸಂಕೀರ್ಣ ಉದ್ಯಮ ಕಾರ್ಯಗಳಿಗೆ ಮಾದರಿ ಸಿದ್ಧತೆಯನ್ನು ಅತಿಯಾಗಿ ಅಂದಾಜು ಮಾಡುತ್ತವೆ. HELM/AIR-Bench ನಂತಹ ಸಮುದಾಯ ಪ್ರಯತ್ನಗಳು ಹೆಚ್ಚಿನ ಆಯಾಮಗಳನ್ನು (ದೃಢತೆ, ಸುರಕ್ಷತೆ, ಬಹಿರಂಗಪಡಿಸುವಿಕೆ) ಒಳಗೊಳ್ಳುವ ಮೂಲಕ ಮತ್ತು ಪಾರದರ್ಶಕ, ವಿಕಸಿಸುತ್ತಿರುವ ಸೂಟ್‌ಗಳನ್ನು ಪ್ರಕಟಿಸುವ ಮೂಲಕ ಇದನ್ನು ಪರಿಹರಿಸುತ್ತವೆ.

LLM ಮಾನದಂಡಗಳಲ್ಲಿ ಮಾನವ ಮೌಲ್ಯಮಾಪನದ ಪ್ರಕರಣ

ಕೆಲವು ಗುಣಗಳು ಮೊಂಡುತನದಿಂದ ಮಾನವೀಯವಾಗಿ ಉಳಿದಿವೆ: ಸ್ವರ, ಸಹಾಯಕಾರಿ ಗುಣ, ಸೂಕ್ಷ್ಮವಾದ ಸರಿಯಾದತೆ, ಸಾಂಸ್ಕೃತಿಕ ಸೂಕ್ತತೆ ಮತ್ತು ಅಪಾಯ. ಮಾನವ ಮೌಲ್ಯಮಾಪಕರು - ಸರಿಯಾಗಿ ತರಬೇತಿ ಪಡೆದ ಮತ್ತು ಮಾಪನಾಂಕ ನಿರ್ಣಯಿಸಿದವರು - ಇವುಗಳಿಗೆ ನಮ್ಮಲ್ಲಿರುವ ಅತ್ಯುತ್ತಮ ಸಾಧನಗಳಾಗಿವೆ. ತಂತ್ರವೆಂದರೆ ಅವುಗಳನ್ನು ಬಳಸುವುದು. ಆಯ್ದ ಮತ್ತು ವ್ಯವಸ್ಥಿತವಾಗಿ, ಆದ್ದರಿಂದ ಗುಣಮಟ್ಟವು ಉತ್ತಮವಾಗಿರುವಾಗ ವೆಚ್ಚಗಳು ನಿರ್ವಹಣಾತ್ಮಕವಾಗಿರುತ್ತವೆ.

ಮನುಷ್ಯರನ್ನು ಯಾವಾಗ ಒಳಗೊಳ್ಳಬೇಕು

ಮನುಷ್ಯರನ್ನು ಯಾವಾಗ ಒಳಗೊಳ್ಳಬೇಕು

  • ಅಸ್ಪಷ್ಟತೆ: ಸೂಚನೆಗಳು ಬಹು ಸಮಂಜಸವಾದ ಉತ್ತರಗಳನ್ನು ಒಪ್ಪಿಕೊಳ್ಳುತ್ತವೆ.
  • ಹೆಚ್ಚಿನ ಅಪಾಯ: ಆರೋಗ್ಯ ರಕ್ಷಣೆ, ಹಣಕಾಸು, ಕಾನೂನು, ಸುರಕ್ಷತೆ-ನಿರ್ಣಾಯಕ ಬೆಂಬಲ.
  • ಡೊಮೇನ್ ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸ: ಉದ್ಯಮ ಪರಿಭಾಷೆ, ವಿಶೇಷ ತಾರ್ಕಿಕತೆ.
  • ಭಿನ್ನಾಭಿಪ್ರಾಯದ ಚಿಹ್ನೆಗಳು: ಸ್ವಯಂಚಾಲಿತ ಸ್ಕೋರ್‌ಗಳು ಪರಸ್ಪರ ವಿರುದ್ಧವಾಗಿರುತ್ತವೆ ಅಥವಾ ವ್ಯಾಪಕವಾಗಿ ಬದಲಾಗುತ್ತವೆ.

ರೂಬ್ರಿಕ್ಸ್ ಮತ್ತು ಮಾಪನಾಂಕ ನಿರ್ಣಯವನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸುವುದು (ಸರಳ ಉದಾಹರಣೆ)

1–5 ಮಾಪಕದಿಂದ ಪ್ರಾರಂಭಿಸಿ ಸರಿಯಾದತೆ, ತಳಹದಿ, ಮತ್ತು ನೀತಿ ಜೋಡಣೆ. ಪ್ರತಿ ಸ್ಕೋರ್‌ಗೆ 2–3 ಟಿಪ್ಪಣಿ ಮಾಡಿದ ಉದಾಹರಣೆಗಳನ್ನು ಒದಗಿಸಿ. ಕಡಿಮೆ ರನ್ ಮಾಡಿ ಮಾಪನಾಂಕ ನಿರ್ಣಯ ಸುತ್ತುಗಳು: ರೇಟರ್‌ಗಳು ಹಂಚಿಕೊಂಡ ಬ್ಯಾಚ್ ಅನ್ನು ಸ್ಕೋರ್ ಮಾಡುತ್ತಾರೆ, ನಂತರ ಸ್ಥಿರತೆಯನ್ನು ಬಿಗಿಗೊಳಿಸಲು ತಾರ್ಕಿಕತೆಗಳನ್ನು ಹೋಲಿಸುತ್ತಾರೆ. ಅಂತರ-ರೇಟರ್ ಒಪ್ಪಂದವನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಿ ಮತ್ತು ಗಡಿರೇಖೆಯ ಪ್ರಕರಣಗಳಿಗೆ ತೀರ್ಪು ಅಗತ್ಯವಿರುತ್ತದೆ.

ವಿಧಾನಗಳು: ನ್ಯಾಯಾಧೀಶರಾಗಿ LLM ನಿಂದ ನಿಜವಾದ HITL ವರೆಗೆ

ನ್ಯಾಯಾಧೀಶರಾಗಿ ಎಲ್ಎಲ್ಎಂ (ಮತ್ತೊಂದು ಮಾದರಿಯನ್ನು ಶ್ರೇಣೀಕರಿಸಲು ಒಂದು ಮಾದರಿಯನ್ನು ಬಳಸುವುದು) ಉಪಯುಕ್ತವಾಗಿದೆ ಚಿಕಿತ್ಸೆಯ ಸರದಿ ನಿರ್ಧಾರ: ಇದು ತ್ವರಿತ, ಅಗ್ಗ ಮತ್ತು ನೇರ ಪರಿಶೀಲನೆಗಳಿಗೆ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಆದರೆ ಇದು ಅದೇ ಕುರುಡು ತಾಣಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳಬಹುದು - ಭ್ರಮೆಗಳು, ನಕಲಿ ಪರಸ್ಪರ ಸಂಬಂಧಗಳು ಅಥವಾ "ದರ್ಜೆಯ ಹಣದುಬ್ಬರ". ಇದನ್ನು ಬಳಸಿ ಆದ್ಯತೆ ನೀಡಿ ಮಾನವ ಪರಿಶೀಲನೆಗಾಗಿ ಪ್ರಕರಣಗಳು, ಅದನ್ನು ಬದಲಾಯಿಸಲು ಅಲ್ಲ.

ಪ್ರಾಯೋಗಿಕ ಹೈಬ್ರಿಡ್ ಪೈಪ್‌ಲೈನ್

ಪ್ರಾಯೋಗಿಕ ಹೈಬ್ರಿಡ್ ಪೈಪ್‌ಲೈನ್

  1. ಸ್ವಯಂಚಾಲಿತ ಪೂರ್ವ-ಪರದೆ: ಸ್ಪಷ್ಟ ಪಾಸ್‌ಗಳು/ವೈಫಲ್ಯಗಳನ್ನು ಫಿಲ್ಟರ್ ಮಾಡಲು ಟಾಸ್ಕ್ ಮೆಟ್ರಿಕ್‌ಗಳು, ಮೂಲ ಗಾರ್ಡ್‌ರೈಲ್‌ಗಳು ಮತ್ತು LLM-ಆಸ್-ಜಡ್ಜ್ ಅನ್ನು ರನ್ ಮಾಡಿ.
  2. ಸಕ್ರಿಯ ಆಯ್ಕೆ: ಮಾನವ ಪರಿಶೀಲನೆಗಾಗಿ ಸಂಘರ್ಷದ ಸಂಕೇತಗಳು ಅಥವಾ ಹೆಚ್ಚಿನ ಅನಿಶ್ಚಿತತೆಯನ್ನು ಹೊಂದಿರುವ ಮಾದರಿಗಳನ್ನು ಆರಿಸಿ.
  3. ತಜ್ಞರ ಮಾನವ ಟಿಪ್ಪಣಿ: ತರಬೇತಿ ಪಡೆದ ರೇಟರ್‌ಗಳು (ಅಥವಾ ಡೊಮೇನ್ ತಜ್ಞರು) ಸ್ಪಷ್ಟ ರೂಬ್ರಿಕ್‌ಗಳ ವಿರುದ್ಧ ಅಂಕಗಳನ್ನು ಗಳಿಸುತ್ತಾರೆ; ಭಿನ್ನಾಭಿಪ್ರಾಯಗಳನ್ನು ನಿರ್ಣಯಿಸುತ್ತಾರೆ.
  4. ಗುಣಮಟ್ಟದ ಭರವಸೆ: ಇಂಟರ್-ರೇಟರ್ ವಿಶ್ವಾಸಾರ್ಹತೆಯನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಿ; ಆಡಿಟ್ ಲಾಗ್‌ಗಳು ಮತ್ತು ತಾರ್ಕಿಕತೆಗಳನ್ನು ನಿರ್ವಹಿಸಿ. ಪ್ರಾಯೋಗಿಕ ನೋಟ್‌ಬುಕ್‌ಗಳು (ಉದಾ, HITL ವರ್ಕ್‌ಫ್ಲೋಗಳು) ನೀವು ಈ ಲೂಪ್ ಅನ್ನು ಅಳೆಯುವ ಮೊದಲು ಅದನ್ನು ಮೂಲಮಾದರಿ ಮಾಡಲು ಸುಲಭಗೊಳಿಸುತ್ತದೆ.

ಹೋಲಿಕೆ ಕೋಷ್ಟಕ: ಸ್ವಯಂಚಾಲಿತ vs LLM-ಆಸ್-ನ್ಯಾಯಾಧೀಶರು vs HITL

ಅಪ್ರೋಚ್ ಸಾಮರ್ಥ್ಯ ದುರ್ಬಲತೆಗಳು ಅತ್ಯುತ್ತಮ ಬಳಕೆ
ಸ್ವಯಂಚಾಲಿತ ಮೆಟ್ರಿಕ್‌ಗಳು ವೇಗವಾದ, ಪುನರುತ್ಪಾದಿಸಬಹುದಾದ, ಅಗ್ಗದ ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸ/ತಾರ್ಕಿಕತೆ ತಪ್ಪಾಗಿದೆ, ಅತಿಯಾಗಿ ಹೊಂದಿಕೊಳ್ಳುವುದು ಸುಲಭ. ಮೂಲ ಮತ್ತು ಹಿಂಜರಿತ ಪರಿಶೀಲನೆಗಳು
ನ್ಯಾಯಾಧೀಶರಾಗಿ ಎಲ್ಎಲ್ಎಂ ಮಾಪಕಗಳ ಚಿಕಿತ್ಸೆಯ ಸರದಿ ನಿರ್ಧಾರ, ಮೇಲ್ಮೈ ಸಮಸ್ಯೆಗಳು ಮಾದರಿ ಪಕ್ಷಪಾತಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳುತ್ತದೆ; ಆಡಿಟ್-ಗ್ರೇಡ್ ಅಲ್ಲ. ಮಾನವ ವಿಮರ್ಶೆಗಳಿಗೆ ಆದ್ಯತೆ ನೀಡಿ
HITL (ತಜ್ಞ ರೇಟರ್‌ಗಳು) ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸಗಳನ್ನು ಸೆರೆಹಿಡಿಯುತ್ತದೆ, ಆಡಿಟ್‌ಗೆ ಸಿದ್ಧವಾಗಿದೆ ಚಿಕಿತ್ಸೆಯ ಸರದಿ ನಿರ್ಧಾರವಿಲ್ಲದೆ ನಿಧಾನ, ದುಬಾರಿ ಹೆಚ್ಚಿನ ಅಪಾಯದ ಕಾರ್ಯಗಳು, ನೀತಿ/ಸುರಕ್ಷತಾ ದ್ವಾರಗಳು

ಸಲಹೆ: ಕವರೇಜ್ + ವಿಶ್ವಾಸಾರ್ಹತೆಗಾಗಿ ಮೂರನ್ನೂ ಸಂಯೋಜಿಸಿ.

ಸುರಕ್ಷತೆ ಮತ್ತು ಅಪಾಯದ ಮಾನದಂಡಗಳು ವಿಭಿನ್ನವಾಗಿವೆ

ನಿಯಂತ್ರಕರು ಮತ್ತು ಮಾನದಂಡ ಸಂಸ್ಥೆಗಳು ಅಪಾಯಗಳನ್ನು ದಾಖಲಿಸುವ ಮೌಲ್ಯಮಾಪನಗಳನ್ನು ನಿರೀಕ್ಷಿಸುತ್ತವೆ, ಪರೀಕ್ಷಿಸುತ್ತವೆ ನೈಜ ಸನ್ನಿವೇಶಗಳು, ಮತ್ತು ಮೇಲ್ವಿಚಾರಣೆಯನ್ನು ಪ್ರದರ್ಶಿಸಿ. ದಿ NIST AI RMF (2024 GenAI ಪ್ರೊಫೈಲ್) ಹಂಚಿಕೆಯ ಶಬ್ದಕೋಶ ಮತ್ತು ಅಭ್ಯಾಸಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ; ದಿ NIST GenAI ಮೌಲ್ಯಮಾಪನ ಪ್ರೋಗ್ರಾಂ ಡೊಮೇನ್-ನಿರ್ದಿಷ್ಟ ಪರೀಕ್ಷೆಗಳನ್ನು ನಿಲ್ಲಿಸುತ್ತಿದೆ; ಮತ್ತು ಹೆಲ್ಮ್/ಏರ್-ಬೆಂಚ್ ಬಹು-ಮೆಟ್ರಿಕ್, ಪಾರದರ್ಶಕ ಫಲಿತಾಂಶಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡುತ್ತದೆ. ನಿಮ್ಮ ಆಡಳಿತ ನಿರೂಪಣೆಯನ್ನು ಆಧಾರವಾಗಿಟ್ಟುಕೊಳ್ಳಲು ಇವುಗಳನ್ನು ಬಳಸಿ.

ಸುರಕ್ಷತಾ ಲೆಕ್ಕಪರಿಶೋಧನೆಗಾಗಿ ಏನು ಸಂಗ್ರಹಿಸಬೇಕು

ಸುರಕ್ಷತಾ ಲೆಕ್ಕಪರಿಶೋಧನೆಗಾಗಿ ಏನು ಸಂಗ್ರಹಿಸಬೇಕು

  • ಮೌಲ್ಯಮಾಪನ ಪ್ರೋಟೋಕಾಲ್ಗಳು, ರೂಬ್ರಿಕ್ಸ್, ಮತ್ತು ಟಿಪ್ಪಣಿಕಾರ ತರಬೇತಿ ವಸ್ತುಗಳನ್ನು
  • ದತ್ತಾಂಶ ವಂಶಾವಳಿ ಮತ್ತು ಮಾಲಿನ್ಯ ತಪಾಸಣೆಗಳು
  • ಅಂತರ-ರೇಟರ್ ಅಂಕಿಅಂಶಗಳು ಮತ್ತು ತೀರ್ಪು ಟಿಪ್ಪಣಿಗಳು
  • ಆವೃತ್ತಿ ಮಾಡಲಾಗಿದೆ ಮಾನದಂಡ ಫಲಿತಾಂಶಗಳು ಮತ್ತು ಹಿಂಜರಿತ ಇತಿಹಾಸ

LLM ಪರಿಹಾರಗಳು

ಮಿನಿ-ಸ್ಟೋರಿ: ಬ್ಯಾಂಕಿಂಗ್ KYC ಯಲ್ಲಿ ತಪ್ಪು ಧನಾತ್ಮಕ ಅಂಶಗಳನ್ನು ಕಡಿತಗೊಳಿಸುವುದು

ಬ್ಯಾಂಕಿನ KYC ವಿಶ್ಲೇಷಕ ತಂಡವು ಅನುಸರಣೆ ಎಚ್ಚರಿಕೆಗಳನ್ನು ಸಂಕ್ಷೇಪಿಸಲು ಎರಡು ಮಾದರಿಗಳನ್ನು ಪರೀಕ್ಷಿಸಿತು. ಸ್ವಯಂಚಾಲಿತ ಅಂಕಗಳು ಒಂದೇ ಆಗಿದ್ದವು. HITL ಪಾಸ್ ಸಮಯದಲ್ಲಿ, ರೇಟರ್‌ಗಳು ಅದನ್ನು ಫ್ಲ್ಯಾಗ್ ಮಾಡಿದರು ಮಾದರಿ ಎ ಆಗಾಗ್ಗೆ ಬೀಳುತ್ತದೆ ಋಣಾತ್ಮಕ ಅರ್ಹತಾ ಅಂಶಗಳು ("ಯಾವುದೇ ಪೂರ್ವ ನಿರ್ಬಂಧಗಳಿಲ್ಲ"), ಅರ್ಥಗಳನ್ನು ತಿರುಗಿಸುವುದು. ತೀರ್ಪು ನೀಡಿದ ನಂತರ, ಬ್ಯಾಂಕ್ ಆಯ್ಕೆ ಮಾಡಿತು ಮಾದರಿ ಬಿ ಮತ್ತು ನವೀಕರಿಸಿದ ಪ್ರಾಂಪ್ಟ್‌ಗಳು. ಒಂದು ವಾರದಲ್ಲಿ ತಪ್ಪು ಧನಾತ್ಮಕತೆಗಳು 18% ರಷ್ಟು ಕುಸಿದವು, ಇದು ವಿಶ್ಲೇಷಕರನ್ನು ನಿಜವಾದ ತನಿಖೆಗಳಿಗೆ ಮುಕ್ತಗೊಳಿಸಿತು. (ಪಾಠ: ಸ್ವಯಂಚಾಲಿತ ಅಂಕಗಳು ಸೂಕ್ಷ್ಮವಾದ, ಹೆಚ್ಚಿನ-ಪರಿಣಾಮದ ದೋಷವನ್ನು ತಪ್ಪಿಸಿಕೊಂಡವು; HITL ಅದನ್ನು ಹಿಡಿದಿದೆ.)

ಶೈಪ್ ಎಲ್ಲಿ ಸಹಾಯ ಮಾಡುತ್ತಾರೆ

ಅಸ್ಪಷ್ಟ/ಹೆಚ್ಚಿನ ಅಪಾಯದ ಕಾರ್ಯಗಳಲ್ಲಿ ಮಾನವ ಮೌಲ್ಯಮಾಪನದೊಂದಿಗೆ ಸ್ವಯಂಚಾಲಿತ ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ಮಿಶ್ರಣ ಮಾಡಿ; ಡಾಕ್ಯುಮೆಂಟ್ ರೂಬ್ರಿಕ್ಸ್, ರೇಟರ್ ಮಾಪನಾಂಕ ನಿರ್ಣಯ ಮತ್ತು ಲೆಕ್ಕಪರಿಶೋಧನೆಗಾಗಿ ತೀರ್ಪು. ನೀವು ಕಾಳಜಿ ವಹಿಸುವ NIST RMF ವಿಭಾಗಗಳಿಗೆ ವರದಿಗಳನ್ನು ಜೋಡಿಸಿ.

ಸ್ವಯಂಚಾಲಿತ ಅಂಕಗಳು ತಪ್ಪಿಸಿಕೊಳ್ಳುವ ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸ - ಸ್ವರ, ಸಂದರ್ಭ, ಸೂಕ್ಷ್ಮ ನಿಖರತೆ ಮತ್ತು ನೀತಿ ಜೋಡಣೆ - ಮನುಷ್ಯರು ಸೆರೆಹಿಡಿಯುತ್ತಾರೆ. ಅನಿಶ್ಚಿತತೆ ಹೆಚ್ಚಿರುವಾಗ ಅಥವಾ ಅಪಾಯಗಳು ನಿಜವಾಗಿರುವಾಗ ಅವುಗಳನ್ನು ಬಳಸಿ.

ಇಲ್ಲ. ಅವು ಅಗತ್ಯ ಆದರೆ ಸಾಕಷ್ಟಿಲ್ಲ. ಸುರಕ್ಷತೆಗೆ ಸನ್ನಿವೇಶ-ವಾಸ್ತವಿಕ ಪರೀಕ್ಷೆಗಳು, ಸ್ಪಷ್ಟ ಅಪಾಯ/ದುರುಪಯೋಗ ಪ್ರಕರಣಗಳು ಮತ್ತು ಮಾನವ ಮೇಲ್ವಿಚಾರಣೆಯ ಅಗತ್ಯವಿದೆ; NIST GenAI ಮತ್ತು HELM/AIR-Bench ನಿರ್ದೇಶನವನ್ನು ನೋಡಿ.

ಚಿಕಿತ್ಸೆಯ ಸರದಿ ನಿರ್ಧಾರ ಮತ್ತು ಅಳತೆಗೆ ಉತ್ತಮವಾಗಿದೆ, ಆದರೆ ಇದು ಮಾದರಿ ಪಕ್ಷಪಾತಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳುತ್ತದೆ. ಸಂಕೀರ್ಣ ಕಾರ್ಯಗಳಲ್ಲಿ ಮಾನವ ವಿಮರ್ಶೆಯನ್ನು ಬದಲಾಯಿಸುವ ಬದಲು ಆದ್ಯತೆ ನೀಡಲು ಇದನ್ನು ಬಳಸಿ.

HELM/AIR-Bench (ಸುರಕ್ಷತೆ/ಸಾಮರ್ಥ್ಯ) ನಂತಹ ಸಮುದಾಯ ಕೇಂದ್ರಗಳು ಮತ್ತು ನಿಮ್ಮ ಅಪಾಯಗಳಿಗೆ ಹೊಂದಿಕೆಯಾಗುವ ಯಾವುದೇ ಡೊಮೇನ್-ನಿರ್ದಿಷ್ಟ ಸೂಟ್‌ಗಳನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಿ. ಮಾಲಿನ್ಯವನ್ನು ತಪ್ಪಿಸಲು ಸೆಟ್‌ಗಳನ್ನು ತಾಜಾವಾಗಿಡಿ.

ಸಾಮಾಜಿಕ ಹಂಚಿಕೆ