ನೀವು ಸ್ವಯಂಚಾಲಿತ ಸ್ಕೋರ್ಗಳನ್ನು ಮಾತ್ರ ನೋಡಿದರೆ, ಹೆಚ್ಚಿನ LLM ಗಳು ಉತ್ತಮವಾಗಿ ಕಾಣುತ್ತವೆ - ಅವು ಸೂಕ್ಷ್ಮವಾಗಿ ತಪ್ಪು, ಅಪಾಯಕಾರಿ ಅಥವಾ ಆಫ್-ಟೋನ್ ಅನ್ನು ಬರೆಯುವವರೆಗೆ. ಸ್ಥಿರ ಮಾನದಂಡಗಳು ಅಳೆಯುವ ಮತ್ತು ನಿಮ್ಮ ಬಳಕೆದಾರರಿಗೆ ನಿಜವಾಗಿ ಅಗತ್ಯವಿರುವ ನಡುವಿನ ಅಂತರ ಅದು. ಈ ಮಾರ್ಗದರ್ಶಿಯಲ್ಲಿ, ಮಾನವ ತೀರ್ಪು (HITL) ಅನ್ನು ಯಾಂತ್ರೀಕರಣದೊಂದಿಗೆ ಹೇಗೆ ಸಂಯೋಜಿಸುವುದು ಎಂಬುದನ್ನು ನಾವು ತೋರಿಸುತ್ತೇವೆ ಆದ್ದರಿಂದ ನಿಮ್ಮ ಎಲ್ಎಲ್ಎಂ ಮಾನದಂಡ ಕೇವಲ ಟೋಕನ್-ಮಟ್ಟದ ನಿಖರತೆಯಲ್ಲ - ಸತ್ಯತೆ, ಸುರಕ್ಷತೆ ಮತ್ತು ಡೊಮೇನ್ ಫಿಟ್ ಅನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆ.
ಎಲ್ಎಲ್ಎಂ ಮಾನದಂಡವು ನಿಜವಾಗಿಯೂ ಏನನ್ನು ಅಳೆಯುತ್ತದೆ
ಸ್ವಯಂಚಾಲಿತ ಮೆಟ್ರಿಕ್ಗಳು ಮತ್ತು ಲೀಡರ್ಬೋರ್ಡ್ಗಳು ವೇಗವಾಗಿರುತ್ತವೆ ಮತ್ತು ಪುನರಾವರ್ತನೀಯವಾಗಿರುತ್ತವೆ. ಬಹು-ಆಯ್ಕೆಯ ಕಾರ್ಯಗಳಲ್ಲಿ ನಿಖರತೆ, ಪಠ್ಯ ಹೋಲಿಕೆಗಾಗಿ BLEU/ROUGE ಮತ್ತು ಭಾಷಾ ಮಾದರಿಗೆ ಗೊಂದಲವು ದಿಕ್ಕಿನ ಸಂಕೇತಗಳನ್ನು ನೀಡುತ್ತದೆ. ಆದರೆ ಅವು ಸಾಮಾನ್ಯವಾಗಿ ತಾರ್ಕಿಕ ಸರಪಳಿಗಳು, ವಾಸ್ತವಿಕ ಆಧಾರ ಮತ್ತು ನೀತಿ ಅನುಸರಣೆಯನ್ನು ಕಳೆದುಕೊಳ್ಳುತ್ತವೆ - ವಿಶೇಷವಾಗಿ ಹೆಚ್ಚಿನ-ಹಕ್ಕುಗಳ ಸಂದರ್ಭಗಳಲ್ಲಿ. ಅದಕ್ಕಾಗಿಯೇ ಆಧುನಿಕ ಕಾರ್ಯಕ್ರಮಗಳು ಬಹು-ಮೆಟ್ರಿಕ್, ಪಾರದರ್ಶಕ ವರದಿ ಮಾಡುವಿಕೆ ಮತ್ತು ಸನ್ನಿವೇಶ ವಾಸ್ತವಿಕತೆಗೆ ಒತ್ತು ನೀಡುತ್ತವೆ.
ಸ್ವಯಂಚಾಲಿತ ಮೆಟ್ರಿಕ್ಸ್ ಮತ್ತು ಸ್ಥಿರ ಪರೀಕ್ಷಾ ಸೆಟ್ಗಳು
ಕ್ಲಾಸಿಕ್ ಮೆಟ್ರಿಕ್ಗಳನ್ನು ಒಂದು ಎಂದು ಯೋಚಿಸಿ ಸ್ಪೀಡೋಮೀಟರ್—ನೀವು ಸುಗಮ ಹೆದ್ದಾರಿಯಲ್ಲಿ ಎಷ್ಟು ವೇಗವಾಗಿ ಹೋಗುತ್ತಿದ್ದೀರಿ ಎಂದು ಹೇಳಲು ಅದ್ಭುತವಾಗಿದೆ. ಆದರೆ ಮಳೆಯಲ್ಲಿ ಬ್ರೇಕ್ಗಳು ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆಯೇ ಎಂದು ಅವರು ನಿಮಗೆ ಹೇಳುವುದಿಲ್ಲ. ನೀಲಿ/ರೌಗ್/ಪರ್ಪಲ್ಪ್ಲೆಕ್ಸಿಟಿ ಹೋಲಿಕೆಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ, ಆದರೆ ಅವುಗಳನ್ನು ಕಂಠಪಾಠ ಅಥವಾ ಮೇಲ್ಮೈ-ಮಟ್ಟದ ಹೊಂದಾಣಿಕೆಯ ಮೂಲಕ ಆಟವಾಡಬಹುದು.
ಅವರು ಎಲ್ಲಿ ವಿಫಲರಾಗುತ್ತಾರೆ
ನಿಜವಾದ ಬಳಕೆದಾರರು ಅಸ್ಪಷ್ಟತೆ, ಡೊಮೇನ್ ಪರಿಭಾಷೆ, ಸಂಘರ್ಷದ ಗುರಿಗಳು ಮತ್ತು ಬದಲಾಗುತ್ತಿರುವ ನಿಯಮಗಳನ್ನು ತರುತ್ತಾರೆ. ಸ್ಥಿರ ಪರೀಕ್ಷಾ ಸೆಟ್ಗಳು ಅದನ್ನು ವಿರಳವಾಗಿ ಸೆರೆಹಿಡಿಯುತ್ತವೆ. ಪರಿಣಾಮವಾಗಿ, ಸಂಪೂರ್ಣವಾಗಿ ಸ್ವಯಂಚಾಲಿತ ಮಾನದಂಡಗಳು ಸಂಕೀರ್ಣ ಉದ್ಯಮ ಕಾರ್ಯಗಳಿಗೆ ಮಾದರಿ ಸಿದ್ಧತೆಯನ್ನು ಅತಿಯಾಗಿ ಅಂದಾಜು ಮಾಡುತ್ತವೆ. HELM/AIR-Bench ನಂತಹ ಸಮುದಾಯ ಪ್ರಯತ್ನಗಳು ಹೆಚ್ಚಿನ ಆಯಾಮಗಳನ್ನು (ದೃಢತೆ, ಸುರಕ್ಷತೆ, ಬಹಿರಂಗಪಡಿಸುವಿಕೆ) ಒಳಗೊಳ್ಳುವ ಮೂಲಕ ಮತ್ತು ಪಾರದರ್ಶಕ, ವಿಕಸಿಸುತ್ತಿರುವ ಸೂಟ್ಗಳನ್ನು ಪ್ರಕಟಿಸುವ ಮೂಲಕ ಇದನ್ನು ಪರಿಹರಿಸುತ್ತವೆ.
LLM ಮಾನದಂಡಗಳಲ್ಲಿ ಮಾನವ ಮೌಲ್ಯಮಾಪನದ ಪ್ರಕರಣ
ಕೆಲವು ಗುಣಗಳು ಮೊಂಡುತನದಿಂದ ಮಾನವೀಯವಾಗಿ ಉಳಿದಿವೆ: ಸ್ವರ, ಸಹಾಯಕಾರಿ ಗುಣ, ಸೂಕ್ಷ್ಮವಾದ ಸರಿಯಾದತೆ, ಸಾಂಸ್ಕೃತಿಕ ಸೂಕ್ತತೆ ಮತ್ತು ಅಪಾಯ. ಮಾನವ ಮೌಲ್ಯಮಾಪಕರು - ಸರಿಯಾಗಿ ತರಬೇತಿ ಪಡೆದ ಮತ್ತು ಮಾಪನಾಂಕ ನಿರ್ಣಯಿಸಿದವರು - ಇವುಗಳಿಗೆ ನಮ್ಮಲ್ಲಿರುವ ಅತ್ಯುತ್ತಮ ಸಾಧನಗಳಾಗಿವೆ. ತಂತ್ರವೆಂದರೆ ಅವುಗಳನ್ನು ಬಳಸುವುದು. ಆಯ್ದ ಮತ್ತು ವ್ಯವಸ್ಥಿತವಾಗಿ, ಆದ್ದರಿಂದ ಗುಣಮಟ್ಟವು ಉತ್ತಮವಾಗಿರುವಾಗ ವೆಚ್ಚಗಳು ನಿರ್ವಹಣಾತ್ಮಕವಾಗಿರುತ್ತವೆ.
ಮನುಷ್ಯರನ್ನು ಯಾವಾಗ ಒಳಗೊಳ್ಳಬೇಕು

- ಅಸ್ಪಷ್ಟತೆ: ಸೂಚನೆಗಳು ಬಹು ಸಮಂಜಸವಾದ ಉತ್ತರಗಳನ್ನು ಒಪ್ಪಿಕೊಳ್ಳುತ್ತವೆ.
- ಹೆಚ್ಚಿನ ಅಪಾಯ: ಆರೋಗ್ಯ ರಕ್ಷಣೆ, ಹಣಕಾಸು, ಕಾನೂನು, ಸುರಕ್ಷತೆ-ನಿರ್ಣಾಯಕ ಬೆಂಬಲ.
- ಡೊಮೇನ್ ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸ: ಉದ್ಯಮ ಪರಿಭಾಷೆ, ವಿಶೇಷ ತಾರ್ಕಿಕತೆ.
- ಭಿನ್ನಾಭಿಪ್ರಾಯದ ಚಿಹ್ನೆಗಳು: ಸ್ವಯಂಚಾಲಿತ ಸ್ಕೋರ್ಗಳು ಪರಸ್ಪರ ವಿರುದ್ಧವಾಗಿರುತ್ತವೆ ಅಥವಾ ವ್ಯಾಪಕವಾಗಿ ಬದಲಾಗುತ್ತವೆ.
ರೂಬ್ರಿಕ್ಸ್ ಮತ್ತು ಮಾಪನಾಂಕ ನಿರ್ಣಯವನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸುವುದು (ಸರಳ ಉದಾಹರಣೆ)
1–5 ಮಾಪಕದಿಂದ ಪ್ರಾರಂಭಿಸಿ ಸರಿಯಾದತೆ, ತಳಹದಿ, ಮತ್ತು ನೀತಿ ಜೋಡಣೆ. ಪ್ರತಿ ಸ್ಕೋರ್ಗೆ 2–3 ಟಿಪ್ಪಣಿ ಮಾಡಿದ ಉದಾಹರಣೆಗಳನ್ನು ಒದಗಿಸಿ. ಕಡಿಮೆ ರನ್ ಮಾಡಿ ಮಾಪನಾಂಕ ನಿರ್ಣಯ ಸುತ್ತುಗಳು: ರೇಟರ್ಗಳು ಹಂಚಿಕೊಂಡ ಬ್ಯಾಚ್ ಅನ್ನು ಸ್ಕೋರ್ ಮಾಡುತ್ತಾರೆ, ನಂತರ ಸ್ಥಿರತೆಯನ್ನು ಬಿಗಿಗೊಳಿಸಲು ತಾರ್ಕಿಕತೆಗಳನ್ನು ಹೋಲಿಸುತ್ತಾರೆ. ಅಂತರ-ರೇಟರ್ ಒಪ್ಪಂದವನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಿ ಮತ್ತು ಗಡಿರೇಖೆಯ ಪ್ರಕರಣಗಳಿಗೆ ತೀರ್ಪು ಅಗತ್ಯವಿರುತ್ತದೆ.
ವಿಧಾನಗಳು: ನ್ಯಾಯಾಧೀಶರಾಗಿ LLM ನಿಂದ ನಿಜವಾದ HITL ವರೆಗೆ
ನ್ಯಾಯಾಧೀಶರಾಗಿ ಎಲ್ಎಲ್ಎಂ (ಮತ್ತೊಂದು ಮಾದರಿಯನ್ನು ಶ್ರೇಣೀಕರಿಸಲು ಒಂದು ಮಾದರಿಯನ್ನು ಬಳಸುವುದು) ಉಪಯುಕ್ತವಾಗಿದೆ ಚಿಕಿತ್ಸೆಯ ಸರದಿ ನಿರ್ಧಾರ: ಇದು ತ್ವರಿತ, ಅಗ್ಗ ಮತ್ತು ನೇರ ಪರಿಶೀಲನೆಗಳಿಗೆ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಆದರೆ ಇದು ಅದೇ ಕುರುಡು ತಾಣಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳಬಹುದು - ಭ್ರಮೆಗಳು, ನಕಲಿ ಪರಸ್ಪರ ಸಂಬಂಧಗಳು ಅಥವಾ "ದರ್ಜೆಯ ಹಣದುಬ್ಬರ". ಇದನ್ನು ಬಳಸಿ ಆದ್ಯತೆ ನೀಡಿ ಮಾನವ ಪರಿಶೀಲನೆಗಾಗಿ ಪ್ರಕರಣಗಳು, ಅದನ್ನು ಬದಲಾಯಿಸಲು ಅಲ್ಲ.
ಪ್ರಾಯೋಗಿಕ ಹೈಬ್ರಿಡ್ ಪೈಪ್ಲೈನ್

- ಸ್ವಯಂಚಾಲಿತ ಪೂರ್ವ-ಪರದೆ: ಸ್ಪಷ್ಟ ಪಾಸ್ಗಳು/ವೈಫಲ್ಯಗಳನ್ನು ಫಿಲ್ಟರ್ ಮಾಡಲು ಟಾಸ್ಕ್ ಮೆಟ್ರಿಕ್ಗಳು, ಮೂಲ ಗಾರ್ಡ್ರೈಲ್ಗಳು ಮತ್ತು LLM-ಆಸ್-ಜಡ್ಜ್ ಅನ್ನು ರನ್ ಮಾಡಿ.
- ಸಕ್ರಿಯ ಆಯ್ಕೆ: ಮಾನವ ಪರಿಶೀಲನೆಗಾಗಿ ಸಂಘರ್ಷದ ಸಂಕೇತಗಳು ಅಥವಾ ಹೆಚ್ಚಿನ ಅನಿಶ್ಚಿತತೆಯನ್ನು ಹೊಂದಿರುವ ಮಾದರಿಗಳನ್ನು ಆರಿಸಿ.
- ತಜ್ಞರ ಮಾನವ ಟಿಪ್ಪಣಿ: ತರಬೇತಿ ಪಡೆದ ರೇಟರ್ಗಳು (ಅಥವಾ ಡೊಮೇನ್ ತಜ್ಞರು) ಸ್ಪಷ್ಟ ರೂಬ್ರಿಕ್ಗಳ ವಿರುದ್ಧ ಅಂಕಗಳನ್ನು ಗಳಿಸುತ್ತಾರೆ; ಭಿನ್ನಾಭಿಪ್ರಾಯಗಳನ್ನು ನಿರ್ಣಯಿಸುತ್ತಾರೆ.
- ಗುಣಮಟ್ಟದ ಭರವಸೆ: ಇಂಟರ್-ರೇಟರ್ ವಿಶ್ವಾಸಾರ್ಹತೆಯನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಿ; ಆಡಿಟ್ ಲಾಗ್ಗಳು ಮತ್ತು ತಾರ್ಕಿಕತೆಗಳನ್ನು ನಿರ್ವಹಿಸಿ. ಪ್ರಾಯೋಗಿಕ ನೋಟ್ಬುಕ್ಗಳು (ಉದಾ, HITL ವರ್ಕ್ಫ್ಲೋಗಳು) ನೀವು ಈ ಲೂಪ್ ಅನ್ನು ಅಳೆಯುವ ಮೊದಲು ಅದನ್ನು ಮೂಲಮಾದರಿ ಮಾಡಲು ಸುಲಭಗೊಳಿಸುತ್ತದೆ.
ಹೋಲಿಕೆ ಕೋಷ್ಟಕ: ಸ್ವಯಂಚಾಲಿತ vs LLM-ಆಸ್-ನ್ಯಾಯಾಧೀಶರು vs HITL
| ಅಪ್ರೋಚ್ | ಸಾಮರ್ಥ್ಯ | ದುರ್ಬಲತೆಗಳು | ಅತ್ಯುತ್ತಮ ಬಳಕೆ |
|---|---|---|---|
| ಸ್ವಯಂಚಾಲಿತ ಮೆಟ್ರಿಕ್ಗಳು | ವೇಗವಾದ, ಪುನರುತ್ಪಾದಿಸಬಹುದಾದ, ಅಗ್ಗದ | ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸ/ತಾರ್ಕಿಕತೆ ತಪ್ಪಾಗಿದೆ, ಅತಿಯಾಗಿ ಹೊಂದಿಕೊಳ್ಳುವುದು ಸುಲಭ. | ಮೂಲ ಮತ್ತು ಹಿಂಜರಿತ ಪರಿಶೀಲನೆಗಳು |
| ನ್ಯಾಯಾಧೀಶರಾಗಿ ಎಲ್ಎಲ್ಎಂ | ಮಾಪಕಗಳ ಚಿಕಿತ್ಸೆಯ ಸರದಿ ನಿರ್ಧಾರ, ಮೇಲ್ಮೈ ಸಮಸ್ಯೆಗಳು | ಮಾದರಿ ಪಕ್ಷಪಾತಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳುತ್ತದೆ; ಆಡಿಟ್-ಗ್ರೇಡ್ ಅಲ್ಲ. | ಮಾನವ ವಿಮರ್ಶೆಗಳಿಗೆ ಆದ್ಯತೆ ನೀಡಿ |
| HITL (ತಜ್ಞ ರೇಟರ್ಗಳು) | ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸಗಳನ್ನು ಸೆರೆಹಿಡಿಯುತ್ತದೆ, ಆಡಿಟ್ಗೆ ಸಿದ್ಧವಾಗಿದೆ | ಚಿಕಿತ್ಸೆಯ ಸರದಿ ನಿರ್ಧಾರವಿಲ್ಲದೆ ನಿಧಾನ, ದುಬಾರಿ | ಹೆಚ್ಚಿನ ಅಪಾಯದ ಕಾರ್ಯಗಳು, ನೀತಿ/ಸುರಕ್ಷತಾ ದ್ವಾರಗಳು |
ಸಲಹೆ: ಕವರೇಜ್ + ವಿಶ್ವಾಸಾರ್ಹತೆಗಾಗಿ ಮೂರನ್ನೂ ಸಂಯೋಜಿಸಿ.
ಸುರಕ್ಷತೆ ಮತ್ತು ಅಪಾಯದ ಮಾನದಂಡಗಳು ವಿಭಿನ್ನವಾಗಿವೆ
ನಿಯಂತ್ರಕರು ಮತ್ತು ಮಾನದಂಡ ಸಂಸ್ಥೆಗಳು ಅಪಾಯಗಳನ್ನು ದಾಖಲಿಸುವ ಮೌಲ್ಯಮಾಪನಗಳನ್ನು ನಿರೀಕ್ಷಿಸುತ್ತವೆ, ಪರೀಕ್ಷಿಸುತ್ತವೆ ನೈಜ ಸನ್ನಿವೇಶಗಳು, ಮತ್ತು ಮೇಲ್ವಿಚಾರಣೆಯನ್ನು ಪ್ರದರ್ಶಿಸಿ. ದಿ NIST AI RMF (2024 GenAI ಪ್ರೊಫೈಲ್) ಹಂಚಿಕೆಯ ಶಬ್ದಕೋಶ ಮತ್ತು ಅಭ್ಯಾಸಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ; ದಿ NIST GenAI ಮೌಲ್ಯಮಾಪನ ಪ್ರೋಗ್ರಾಂ ಡೊಮೇನ್-ನಿರ್ದಿಷ್ಟ ಪರೀಕ್ಷೆಗಳನ್ನು ನಿಲ್ಲಿಸುತ್ತಿದೆ; ಮತ್ತು ಹೆಲ್ಮ್/ಏರ್-ಬೆಂಚ್ ಬಹು-ಮೆಟ್ರಿಕ್, ಪಾರದರ್ಶಕ ಫಲಿತಾಂಶಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡುತ್ತದೆ. ನಿಮ್ಮ ಆಡಳಿತ ನಿರೂಪಣೆಯನ್ನು ಆಧಾರವಾಗಿಟ್ಟುಕೊಳ್ಳಲು ಇವುಗಳನ್ನು ಬಳಸಿ.
ಸುರಕ್ಷತಾ ಲೆಕ್ಕಪರಿಶೋಧನೆಗಾಗಿ ಏನು ಸಂಗ್ರಹಿಸಬೇಕು

- ಮೌಲ್ಯಮಾಪನ ಪ್ರೋಟೋಕಾಲ್ಗಳು, ರೂಬ್ರಿಕ್ಸ್, ಮತ್ತು ಟಿಪ್ಪಣಿಕಾರ ತರಬೇತಿ ವಸ್ತುಗಳನ್ನು
- ದತ್ತಾಂಶ ವಂಶಾವಳಿ ಮತ್ತು ಮಾಲಿನ್ಯ ತಪಾಸಣೆಗಳು
- ಅಂತರ-ರೇಟರ್ ಅಂಕಿಅಂಶಗಳು ಮತ್ತು ತೀರ್ಪು ಟಿಪ್ಪಣಿಗಳು
- ಆವೃತ್ತಿ ಮಾಡಲಾಗಿದೆ ಮಾನದಂಡ ಫಲಿತಾಂಶಗಳು ಮತ್ತು ಹಿಂಜರಿತ ಇತಿಹಾಸ
ಮಿನಿ-ಸ್ಟೋರಿ: ಬ್ಯಾಂಕಿಂಗ್ KYC ಯಲ್ಲಿ ತಪ್ಪು ಧನಾತ್ಮಕ ಅಂಶಗಳನ್ನು ಕಡಿತಗೊಳಿಸುವುದು
ಬ್ಯಾಂಕಿನ KYC ವಿಶ್ಲೇಷಕ ತಂಡವು ಅನುಸರಣೆ ಎಚ್ಚರಿಕೆಗಳನ್ನು ಸಂಕ್ಷೇಪಿಸಲು ಎರಡು ಮಾದರಿಗಳನ್ನು ಪರೀಕ್ಷಿಸಿತು. ಸ್ವಯಂಚಾಲಿತ ಅಂಕಗಳು ಒಂದೇ ಆಗಿದ್ದವು. HITL ಪಾಸ್ ಸಮಯದಲ್ಲಿ, ರೇಟರ್ಗಳು ಅದನ್ನು ಫ್ಲ್ಯಾಗ್ ಮಾಡಿದರು ಮಾದರಿ ಎ ಆಗಾಗ್ಗೆ ಬೀಳುತ್ತದೆ ಋಣಾತ್ಮಕ ಅರ್ಹತಾ ಅಂಶಗಳು ("ಯಾವುದೇ ಪೂರ್ವ ನಿರ್ಬಂಧಗಳಿಲ್ಲ"), ಅರ್ಥಗಳನ್ನು ತಿರುಗಿಸುವುದು. ತೀರ್ಪು ನೀಡಿದ ನಂತರ, ಬ್ಯಾಂಕ್ ಆಯ್ಕೆ ಮಾಡಿತು ಮಾದರಿ ಬಿ ಮತ್ತು ನವೀಕರಿಸಿದ ಪ್ರಾಂಪ್ಟ್ಗಳು. ಒಂದು ವಾರದಲ್ಲಿ ತಪ್ಪು ಧನಾತ್ಮಕತೆಗಳು 18% ರಷ್ಟು ಕುಸಿದವು, ಇದು ವಿಶ್ಲೇಷಕರನ್ನು ನಿಜವಾದ ತನಿಖೆಗಳಿಗೆ ಮುಕ್ತಗೊಳಿಸಿತು. (ಪಾಠ: ಸ್ವಯಂಚಾಲಿತ ಅಂಕಗಳು ಸೂಕ್ಷ್ಮವಾದ, ಹೆಚ್ಚಿನ-ಪರಿಣಾಮದ ದೋಷವನ್ನು ತಪ್ಪಿಸಿಕೊಂಡವು; HITL ಅದನ್ನು ಹಿಡಿದಿದೆ.)
ಶೈಪ್ ಎಲ್ಲಿ ಸಹಾಯ ಮಾಡುತ್ತಾರೆ
- ಪದಕೋಶ ಮತ್ತು ಶಿಕ್ಷಣ: ಮಾನವ-ಸಂಬಂಧದ ಕುರಿತು ಸರಳ-ಇಂಗ್ಲಿಷ್ ವಿವರಣೆ ಮತ್ತು ಅದು GenAI ಗೆ ಏಕೆ ಮುಖ್ಯವಾಗಿದೆ.
- ಹೇಗೆ ಮತ್ತು ತಂತ್ರ: A ಎಲ್ ಎಲ್ ಎಂ ಮೌಲ್ಯಮಾಪನಕ್ಕೆ ಆರಂಭಿಕ ಮಾರ್ಗದರ್ಶಿ ಮೊದಲಿನಿಂದ ಪ್ರಾರಂಭವಾಗುವ ತಂಡಗಳಿಗೆ.
- ವೇದಿಕೆ: A ಉತ್ಪಾದಕ AI ಮೌಲ್ಯಮಾಪನ ಮತ್ತು ಮೇಲ್ವಿಚಾರಣಾ ವೇದಿಕೆ ಚಿಕಿತ್ಸೆಯ ಸರದಿ ನಿರ್ಧಾರ, ಪ್ರಯೋಗಗಳು ಮತ್ತು ಲೆಕ್ಕಪರಿಶೋಧನೆಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಲು.
ನೀವು LLM ಅನ್ನು ಹೇಗೆ ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ಬೆಂಚ್ಮಾರ್ಕ್ ಮಾಡುತ್ತೀರಿ?
ಅಸ್ಪಷ್ಟ/ಹೆಚ್ಚಿನ ಅಪಾಯದ ಕಾರ್ಯಗಳಲ್ಲಿ ಮಾನವ ಮೌಲ್ಯಮಾಪನದೊಂದಿಗೆ ಸ್ವಯಂಚಾಲಿತ ಮೆಟ್ರಿಕ್ಗಳನ್ನು ಮಿಶ್ರಣ ಮಾಡಿ; ಡಾಕ್ಯುಮೆಂಟ್ ರೂಬ್ರಿಕ್ಸ್, ರೇಟರ್ ಮಾಪನಾಂಕ ನಿರ್ಣಯ ಮತ್ತು ಲೆಕ್ಕಪರಿಶೋಧನೆಗಾಗಿ ತೀರ್ಪು. ನೀವು ಕಾಳಜಿ ವಹಿಸುವ NIST RMF ವಿಭಾಗಗಳಿಗೆ ವರದಿಗಳನ್ನು ಜೋಡಿಸಿ.
ಎಲ್ ಎಲ್ ಎಂ ಮಾನದಂಡದಲ್ಲಿ ಮಾನವ ಮೌಲ್ಯಮಾಪನದ ಪಾತ್ರವೇನು?
ಸ್ವಯಂಚಾಲಿತ ಅಂಕಗಳು ತಪ್ಪಿಸಿಕೊಳ್ಳುವ ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸ - ಸ್ವರ, ಸಂದರ್ಭ, ಸೂಕ್ಷ್ಮ ನಿಖರತೆ ಮತ್ತು ನೀತಿ ಜೋಡಣೆ - ಮನುಷ್ಯರು ಸೆರೆಹಿಡಿಯುತ್ತಾರೆ. ಅನಿಶ್ಚಿತತೆ ಹೆಚ್ಚಿರುವಾಗ ಅಥವಾ ಅಪಾಯಗಳು ನಿಜವಾಗಿರುವಾಗ ಅವುಗಳನ್ನು ಬಳಸಿ.
ಸುರಕ್ಷತೆಗಾಗಿ ಸ್ವಯಂಚಾಲಿತ ಮಾನದಂಡಗಳು ಸಾಕೇ?
ಇಲ್ಲ. ಅವು ಅಗತ್ಯ ಆದರೆ ಸಾಕಷ್ಟಿಲ್ಲ. ಸುರಕ್ಷತೆಗೆ ಸನ್ನಿವೇಶ-ವಾಸ್ತವಿಕ ಪರೀಕ್ಷೆಗಳು, ಸ್ಪಷ್ಟ ಅಪಾಯ/ದುರುಪಯೋಗ ಪ್ರಕರಣಗಳು ಮತ್ತು ಮಾನವ ಮೇಲ್ವಿಚಾರಣೆಯ ಅಗತ್ಯವಿದೆ; NIST GenAI ಮತ್ತು HELM/AIR-Bench ನಿರ್ದೇಶನವನ್ನು ನೋಡಿ.
ನ್ಯಾಯಾಧೀಶರಾಗಿ ಎಲ್ಎಲ್ಎಂ ಮಾನವ ರೇಟಿಂಗ್ಗಳಿಗೆ ಹೇಗೆ ಹೋಲಿಸುತ್ತದೆ?
ಚಿಕಿತ್ಸೆಯ ಸರದಿ ನಿರ್ಧಾರ ಮತ್ತು ಅಳತೆಗೆ ಉತ್ತಮವಾಗಿದೆ, ಆದರೆ ಇದು ಮಾದರಿ ಪಕ್ಷಪಾತಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳುತ್ತದೆ. ಸಂಕೀರ್ಣ ಕಾರ್ಯಗಳಲ್ಲಿ ಮಾನವ ವಿಮರ್ಶೆಯನ್ನು ಬದಲಾಯಿಸುವ ಬದಲು ಆದ್ಯತೆ ನೀಡಲು ಇದನ್ನು ಬಳಸಿ.
2025 ರಲ್ಲಿ ನಾನು ಯಾವ ಮಾನದಂಡಗಳನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಬೇಕು?
HELM/AIR-Bench (ಸುರಕ್ಷತೆ/ಸಾಮರ್ಥ್ಯ) ನಂತಹ ಸಮುದಾಯ ಕೇಂದ್ರಗಳು ಮತ್ತು ನಿಮ್ಮ ಅಪಾಯಗಳಿಗೆ ಹೊಂದಿಕೆಯಾಗುವ ಯಾವುದೇ ಡೊಮೇನ್-ನಿರ್ದಿಷ್ಟ ಸೂಟ್ಗಳನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಿ. ಮಾಲಿನ್ಯವನ್ನು ತಪ್ಪಿಸಲು ಸೆಟ್ಗಳನ್ನು ತಾಜಾವಾಗಿಡಿ.
