ML ಗಾಗಿ NLP ಡೇಟಾಸೆಟ್

ನಿಮ್ಮ ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಗಳನ್ನು ಸೂಪರ್ಚಾರ್ಜ್ ಮಾಡಲು ಉನ್ನತ NLP ಡೇಟಾಸೆಟ್‌ಗಳು

ಎನ್‌ಎಲ್‌ಪಿ ಎಂದರೇನು?

NLP (ನ್ಯಾಚುರಲ್ ಲ್ಯಾಂಗ್ವೇಜ್ ಪ್ರೊಸೆಸಿಂಗ್) ಕಂಪ್ಯೂಟರ್‌ಗಳು ಮಾನವ ಭಾಷೆಯನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಇದು ಮಾನವರು ಮಾಡುವ ರೀತಿಯಲ್ಲಿ ಪಠ್ಯ ಮತ್ತು ಭಾಷಣವನ್ನು ಓದಲು, ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಮತ್ತು ಪ್ರತಿಕ್ರಿಯಿಸಲು ಕಂಪ್ಯೂಟರ್‌ಗಳಿಗೆ ಕಲಿಸುವಂತಿದೆ.

NLP ಏನು ಮಾಡಬಹುದು?

  • ಗೊಂದಲಮಯ ಪಠ್ಯವನ್ನು ಸಂಘಟಿತ ಡೇಟಾವಾಗಿ ಪರಿವರ್ತಿಸಿ
  • ಕಾಮೆಂಟ್‌ಗಳು ಧನಾತ್ಮಕ ಅಥವಾ ಋಣಾತ್ಮಕವಾಗಿದ್ದರೆ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಿ
  • ಭಾಷೆಗಳ ನಡುವೆ ಅನುವಾದಿಸಿ
  • ದೀರ್ಘ ಪಠ್ಯಗಳ ಸಾರಾಂಶವನ್ನು ರಚಿಸಿ
  • ಮತ್ತು ಹೆಚ್ಚು!
  • NLP ಯೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸುವುದು:

ಉತ್ತಮ NLP ಸಿಸ್ಟಂಗಳನ್ನು ನಿರ್ಮಿಸಲು, ಅವರಿಗೆ ತರಬೇತಿ ನೀಡಲು ನಿಮಗೆ ಸಾಕಷ್ಟು ಉದಾಹರಣೆಗಳ ಅಗತ್ಯವಿದೆ - ಹೆಚ್ಚು ಅಭ್ಯಾಸದೊಂದಿಗೆ ಮಾನವರು ಹೇಗೆ ಉತ್ತಮವಾಗಿ ಕಲಿಯುತ್ತಾರೆ. ಒಳ್ಳೆಯ ಸುದ್ದಿ ಏನೆಂದರೆ ನೀವು ಈ ಉದಾಹರಣೆಗಳನ್ನು ಹುಡುಕಬಹುದಾದ ಹಲವು ಉಚಿತ ಸಂಪನ್ಮೂಲಗಳಿವೆ: ಮುಖವನ್ನು ತಬ್ಬಿಕೊಳ್ಳುವುದು, ಕಾಗ್ಲೆ ಮತ್ತು GitHub

NLP ಮಾರುಕಟ್ಟೆ ಗಾತ್ರ ಮತ್ತು ಬೆಳವಣಿಗೆ:

2023 ರ ಹೊತ್ತಿಗೆ, ನ್ಯಾಚುರಲ್ ಲ್ಯಾಂಗ್ವೇಜ್ ಪ್ರೊಸೆಸಿಂಗ್ (NLP) ಮಾರುಕಟ್ಟೆಯು ಸುಮಾರು $26 ಶತಕೋಟಿ ಮೌಲ್ಯದ್ದಾಗಿದೆ. 30 ರಿಂದ 2023 ರವರೆಗೆ ಸುಮಾರು 2030% ರಷ್ಟು ಸಂಯುಕ್ತ ವಾರ್ಷಿಕ ಬೆಳವಣಿಗೆಯ ದರದೊಂದಿಗೆ (CAGR) ಗಣನೀಯವಾಗಿ ಬೆಳೆಯುವ ನಿರೀಕ್ಷೆಯಿದೆ. ಈ ಬೆಳವಣಿಗೆಯು ಆರೋಗ್ಯ ರಕ್ಷಣೆ, ಹಣಕಾಸು ಮತ್ತು ಗ್ರಾಹಕ ಸೇವೆಯಂತಹ ಉದ್ಯಮಗಳಲ್ಲಿ NLP ಅಪ್ಲಿಕೇಶನ್‌ಗಳಿಗೆ ಹೆಚ್ಚುತ್ತಿರುವ ಬೇಡಿಕೆಯಿಂದ ಪ್ರೇರೇಪಿಸಲ್ಪಟ್ಟಿದೆ.

ಉತ್ತಮ NLP ಡೇಟಾಸೆಟ್ ಅನ್ನು ಹೇಗೆ ಆಯ್ಕೆ ಮಾಡುವುದು, ಈ ಕೆಳಗಿನ ಅಂಶಗಳನ್ನು ಪರಿಗಣಿಸಿ:

  • ಪ್ರಸ್ತುತತೆ: ಡೇಟಾಸೆಟ್ ನಿಮ್ಮ ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯ ಅಥವಾ ಡೊಮೇನ್‌ನೊಂದಿಗೆ ಹೊಂದಾಣಿಕೆಯಾಗುತ್ತದೆ ಎಂದು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ.
  • ಗಾತ್ರ: ದೊಡ್ಡ ಡೇಟಾಸೆಟ್‌ಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಮಾದರಿ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಸುಧಾರಿಸುತ್ತದೆ, ಆದರೆ ಗುಣಮಟ್ಟದೊಂದಿಗೆ ಗಾತ್ರವನ್ನು ಸಮತೋಲನಗೊಳಿಸುತ್ತದೆ.
  • ವೈವಿಧ್ಯತೆ: ಮಾದರಿಯ ದೃಢತೆಯನ್ನು ಹೆಚ್ಚಿಸಲು ವಿವಿಧ ಭಾಷೆಯ ಶೈಲಿಗಳು ಮತ್ತು ಸಂದರ್ಭಗಳೊಂದಿಗೆ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ನೋಡಿ.
  • ಗುಣಮಟ್ಟ: ದೋಷಗಳನ್ನು ಪರಿಚಯಿಸುವುದನ್ನು ತಪ್ಪಿಸಲು ಉತ್ತಮವಾಗಿ ಲೇಬಲ್ ಮಾಡಲಾದ ಮತ್ತು ನಿಖರವಾದ ಡೇಟಾವನ್ನು ಪರಿಶೀಲಿಸಿ.
  • ಪ್ರವೇಶಿಸುವಿಕೆ: ಡೇಟಾಸೆಟ್ ಬಳಕೆಗೆ ಲಭ್ಯವಿದೆಯೇ ಎಂಬುದನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ ಮತ್ತು ಯಾವುದೇ ಪರವಾನಗಿ ನಿರ್ಬಂಧಗಳನ್ನು ಪರಿಗಣಿಸಿ.
  • ಪ್ರಿಪ್ರೊಸೆಸಿಂಗ್: ಡೇಟಾಸೆಟ್‌ಗೆ ಗಮನಾರ್ಹವಾದ ಶುಚಿಗೊಳಿಸುವಿಕೆ ಅಥವಾ ಪೂರ್ವ ಸಂಸ್ಕರಣೆಯ ಅಗತ್ಯವಿದೆಯೇ ಎಂದು ನಿರ್ಧರಿಸಿ.
  • ಸಮುದಾಯ ಬೆಂಬಲ: ಜನಪ್ರಿಯ ಡೇಟಾಸೆಟ್‌ಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಹೆಚ್ಚಿನ ಸಂಪನ್ಮೂಲಗಳು ಮತ್ತು ಸಮುದಾಯ ಬೆಂಬಲವನ್ನು ಹೊಂದಿರುತ್ತವೆ, ಇದು ಸಹಾಯಕವಾಗಬಹುದು.

ಈ ಅಂಶಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುವ ಮೂಲಕ, ನಿಮ್ಮ ಪ್ರಾಜೆಕ್ಟ್‌ನ ಅಗತ್ಯಗಳಿಗೆ ಸೂಕ್ತವಾದ ಡೇಟಾಸೆಟ್ ಅನ್ನು ನೀವು ಆಯ್ಕೆ ಮಾಡಬಹುದು

NLP ಗಾಗಿ ಟಾಪ್ 33 ನೋಡಲೇಬೇಕಾದ ಓಪನ್ ಡೇಟಾಸೆಟ್‌ಗಳು

ಜನರಲ್

  • ಯುಸಿಐನ ಸ್ಪ್ಯಾಂಬೇಸ್ (ಲಿಂಕ್)

    Hewlett-Packard Labs ನಲ್ಲಿ ರಚಿಸಲಾದ Spambase, ವೈಯಕ್ತೀಕರಿಸಿದ ಸ್ಪ್ಯಾಮ್ ಫಿಲ್ಟರ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವ ಗುರಿಯನ್ನು ಹೊಂದಿರುವ ಬಳಕೆದಾರರಿಂದ ಸ್ಪ್ಯಾಮ್ ಇಮೇಲ್‌ಗಳ ಸಂಗ್ರಹವನ್ನು ಹೊಂದಿದೆ. ಇದು ಇಮೇಲ್ ಸಂದೇಶಗಳಿಂದ 4600 ಕ್ಕೂ ಹೆಚ್ಚು ವೀಕ್ಷಣೆಗಳನ್ನು ಹೊಂದಿದೆ, ಅದರಲ್ಲಿ 1820 ಸ್ಪ್ಯಾಮ್ ಆಗಿದೆ.

  • ಎನ್ರಾನ್ ಡೇಟಾಸೆಟ್ (ಲಿಂಕ್)

    ಎನ್ರಾನ್ ಡೇಟಾಸೆಟ್ ಸಾರ್ವಜನಿಕರಿಗೆ ತಮ್ಮ ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಗಳಿಗೆ ತರಬೇತಿ ನೀಡಲು ಲಭ್ಯವಿರುವ ಅನಾಮಧೇಯ 'ನೈಜ' ಇಮೇಲ್‌ಗಳ ವ್ಯಾಪಕ ಸಂಗ್ರಹವನ್ನು ಹೊಂದಿದೆ. ಇದು 150 ಬಳಕೆದಾರರಿಂದ ಅರ್ಧ ಮಿಲಿಯನ್‌ಗಿಂತಲೂ ಹೆಚ್ಚು ಇಮೇಲ್‌ಗಳನ್ನು ಹೊಂದಿದೆ, ಪ್ರಧಾನವಾಗಿ ಎನ್ರಾನ್‌ನ ಹಿರಿಯ ನಿರ್ವಹಣೆ. ಈ ಡೇಟಾಸೆಟ್ ರಚನಾತ್ಮಕ ಮತ್ತು ರಚನೆಯಿಲ್ಲದ ಎರಡೂ ಸ್ವರೂಪಗಳಲ್ಲಿ ಬಳಕೆಗೆ ಲಭ್ಯವಿದೆ. ರಚನೆಯಿಲ್ಲದ ಡೇಟಾವನ್ನು ಹೆಚ್ಚಿಸಲು, ನೀವು ಡೇಟಾ ಸಂಸ್ಕರಣಾ ತಂತ್ರಗಳನ್ನು ಅನ್ವಯಿಸಬೇಕು.

  • ಸಿಸ್ಟಂಗಳ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಶಿಫಾರಸು ಮಾಡಿ (ಲಿಂಕ್)

    ಶಿಫಾರಸು ಮಾಡುವ ಸಿಸ್ಟಂ ಡೇಟಾಸೆಟ್ ವಿವಿಧ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಹೊಂದಿರುವ ವಿವಿಧ ಡೇಟಾಸೆಟ್‌ಗಳ ದೊಡ್ಡ ಸಂಗ್ರಹವಾಗಿದೆ,

    • ಉತ್ಪನ್ನ ವಿಮರ್ಶೆಗಳು
    • ಸ್ಟಾರ್ ರೇಟಿಂಗ್‌ಗಳು
    • ಫಿಟ್ನೆಸ್ ಟ್ರ್ಯಾಕಿಂಗ್
    • ಹಾಡಿನ ಡೇಟಾ
    • ಸಾಮಾಜಿಕ ಜಾಲಗಳು
    • ಟೈಮ್‌ಸ್ಟ್ಯಾಂಪ್‌ಗಳು
    • ಬಳಕೆದಾರ/ಐಟಂ ಸಂವಹನಗಳು
    • GPS ಡೇಟಾ
  • ಪೆನ್ ಟ್ರೀಬ್ಯಾಂಕ್ (ಲಿಂಕ್)

    ವಾಲ್ ಸ್ಟ್ರೀಟ್ ಜರ್ನಲ್‌ನ ಈ ಕಾರ್ಪಸ್, ಅನುಕ್ರಮ ಲೇಬಲಿಂಗ್ ಮಾದರಿಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು ಜನಪ್ರಿಯವಾಗಿದೆ.

  • ಎನ್‌ಎಲ್‌ಟಿಕೆ (ಲಿಂಕ್)

    ಈ ಪೈಥಾನ್ ಲೈಬ್ರರಿಯು NLP ಗಾಗಿ 100 ಕ್ಕೂ ಹೆಚ್ಚು ಕಾರ್ಪೋರಾ ಮತ್ತು ಲೆಕ್ಸಿಕಲ್ ಸಂಪನ್ಮೂಲಗಳಿಗೆ ಪ್ರವೇಶವನ್ನು ಒದಗಿಸುತ್ತದೆ. ಇದು NLTK ಪುಸ್ತಕವನ್ನು ಒಳಗೊಂಡಿದೆ, ಗ್ರಂಥಾಲಯವನ್ನು ಬಳಸುವ ತರಬೇತಿ ಕೋರ್ಸ್.

  • ಸಾರ್ವತ್ರಿಕ ಅವಲಂಬನೆಗಳು (ಲಿಂಕ್)

    100 ಕ್ಕೂ ಹೆಚ್ಚು ಭಾಷೆಗಳಲ್ಲಿ ಸಂಪನ್ಮೂಲಗಳು, 200 ಟ್ರೀಬ್ಯಾಂಕ್‌ಗಳು ಮತ್ತು 300 ಕ್ಕೂ ಹೆಚ್ಚು ಸಮುದಾಯದ ಸದಸ್ಯರ ಬೆಂಬಲದೊಂದಿಗೆ ವ್ಯಾಕರಣವನ್ನು ಟಿಪ್ಪಣಿ ಮಾಡಲು UD ಸ್ಥಿರವಾದ ಮಾರ್ಗವನ್ನು ಒದಗಿಸುತ್ತದೆ.

ಭಾವನೆ ವಿಶ್ಲೇಷಣೆ

  • ಚಲನಚಿತ್ರಗಳು ಮತ್ತು ಹಣಕಾಸುಗಾಗಿ ನಿಘಂಟುಗಳು (ಲಿಂಕ್)

    ಭಾವನೆ ವಿಶ್ಲೇಷಣೆ
    ಚಲನಚಿತ್ರಗಳು ಮತ್ತು ಹಣಕಾಸು ಡೇಟಾಸೆಟ್‌ಗಾಗಿ ಡಿಕ್ಷನರೀಸ್ ಡೊಮೇನ್-ನಿರ್ದಿಷ್ಟ ನಿಘಂಟುಗಳನ್ನು ಹಣಕಾಸು ಭರ್ತಿಗಳು ಮತ್ತು ಚಲನಚಿತ್ರ ವಿಮರ್ಶೆಗಳಲ್ಲಿ ಧನಾತ್ಮಕ ಅಥವಾ ಋಣಾತ್ಮಕ ಧ್ರುವೀಯತೆಗಾಗಿ ಒದಗಿಸುತ್ತದೆ. ಈ ನಿಘಂಟುಗಳನ್ನು IMDb ಮತ್ತು US ಫಾರ್ಮ್-8 ಭರ್ತಿಗಳಿಂದ ಪಡೆಯಲಾಗಿದೆ.

  • ಭಾವನೆ 140 (ಲಿಂಕ್)

    ಸೆಂಟಿಮೆಂಟ್ 140 160,000 ಕ್ಕೂ ಹೆಚ್ಚು ಟ್ವೀಟ್‌ಗಳನ್ನು 6 ವಿಭಿನ್ನ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ವರ್ಗೀಕರಿಸಲಾದ ವಿವಿಧ ಎಮೋಟಿಕಾನ್‌ಗಳನ್ನು ಹೊಂದಿದೆ: ಟ್ವೀಟ್ ದಿನಾಂಕ, ಧ್ರುವೀಯತೆ, ಪಠ್ಯ, ಬಳಕೆದಾರ ಹೆಸರು, ಐಡಿ ಮತ್ತು ಪ್ರಶ್ನೆ. Twitter ಚಟುವಟಿಕೆಯ ಆಧಾರದ ಮೇಲೆ ಬ್ರ್ಯಾಂಡ್, ಉತ್ಪನ್ನ ಅಥವಾ ವಿಷಯದ ಭಾವನೆಯನ್ನು ಕಂಡುಹಿಡಿಯಲು ಈ ಡೇಟಾಸೆಟ್ ನಿಮಗೆ ಸಾಧ್ಯವಾಗಿಸುತ್ತದೆ. ಈ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ರಚಿಸಲಾಗಿರುವುದರಿಂದ, ಇತರ ಮಾನವ ಟಿಪ್ಪಣಿಗಳ ಟ್ವೀಟ್‌ಗಳಂತಲ್ಲದೆ, ಇದು ಧನಾತ್ಮಕ ಭಾವನೆಗಳು ಮತ್ತು ನಕಾರಾತ್ಮಕ ಭಾವನೆಗಳೊಂದಿಗೆ ಟ್ವೀಟ್‌ಗಳನ್ನು ಪ್ರತಿಕೂಲವೆಂದು ವರ್ಗೀಕರಿಸುತ್ತದೆ.

  • ಬಹು-ಡೊಮೇನ್ ಸೆಂಟಿಮೆಂಟ್ ಡೇಟಾಸೆಟ್ (ಲಿಂಕ್)

    ಈ ಮಲ್ಟಿ-ಡೊಮೇನ್ ಸೆಂಟಿಮೆಂಟ್ ಡೇಟಾಸೆಟ್ ವಿವಿಧ ಉತ್ಪನ್ನಗಳಿಗೆ Amazon ವಿಮರ್ಶೆಗಳ ಭಂಡಾರವಾಗಿದೆ. ಪುಸ್ತಕಗಳಂತಹ ಕೆಲವು ಉತ್ಪನ್ನ ವರ್ಗಗಳು ಸಾವಿರಾರು ವಿಮರ್ಶೆಗಳನ್ನು ಹೊಂದಿದ್ದರೆ, ಇತರರು ಕೆಲವೇ ನೂರು ವಿಮರ್ಶೆಗಳನ್ನು ಹೊಂದಿದ್ದಾರೆ. ಇದಲ್ಲದೆ, ಸ್ಟಾರ್ ರೇಟಿಂಗ್‌ಗಳೊಂದಿಗೆ ವಿಮರ್ಶೆಗಳನ್ನು ಬೈನರಿ ಲೇಬಲ್‌ಗಳಾಗಿ ಪರಿವರ್ತಿಸಬಹುದು.

  • ಸ್ಟ್ಯಾಂಡ್‌ಫೋರ್ಡ್ ಸೆಂಟಿಮೆಂಟ್ ಟ್ರೀಬ್ಯಾಂಕ್ (ಲಿಂಕ್)

    ರಾಟನ್ ಟೊಮ್ಯಾಟೋಸ್‌ನ ಈ NLP ಡೇಟಾಸೆಟ್ ಉದ್ದವಾದ ನುಡಿಗಟ್ಟುಗಳು ಮತ್ತು ಹೆಚ್ಚು ವಿವರವಾದ ಪಠ್ಯ ಉದಾಹರಣೆಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.

  • ಬ್ಲಾಗ್ ಆಥರ್ಶಿಪ್ ಕಾರ್ಪಸ್ (ಲಿಂಕ್)

    ಈ ಸಂಗ್ರಹಣೆಯು ಸುಮಾರು 1.4 ಮಿಲಿಯನ್ ಪದಗಳೊಂದಿಗೆ ಬ್ಲಾಗ್ ಪೋಸ್ಟ್‌ಗಳನ್ನು ಹೊಂದಿದೆ, ಪ್ರತಿ ಬ್ಲಾಗ್ ಪ್ರತ್ಯೇಕ ಡೇಟಾಸೆಟ್ ಆಗಿದೆ.

  • OpinRank ಡೇಟಾಸೆಟ್ (ಲಿಂಕ್)

    ಎಡ್ಮಂಡ್ಸ್ ಮತ್ತು ಟ್ರಿಪ್ ಅಡ್ವೈಸರ್ ನಿಂದ 300,000 ವಿಮರ್ಶೆಗಳು, ಕಾರ್ ಮಾಡೆಲ್ ಅಥವಾ ಟ್ರಾವೆಲ್ ಡೆಸ್ಟಿನೇಶನ್ ಮತ್ತು ಹೋಟೆಲ್ ಮೂಲಕ ಆಯೋಜಿಸಲಾಗಿದೆ.

ಪಠ್ಯ

  • ವಿಕಿ QA ಕಾರ್ಪಸ್ (ಲಿಂಕ್)

    ಮುಕ್ತ-ಡೊಮೇನ್ ಪ್ರಶ್ನೆ ಮತ್ತು ಉತ್ತರ ಸಂಶೋಧನೆಗೆ ಸಹಾಯ ಮಾಡಲು ರಚಿಸಲಾಗಿದೆ, WiKi QA ಕಾರ್ಪಸ್ ಸಾರ್ವಜನಿಕವಾಗಿ ಲಭ್ಯವಿರುವ ಅತ್ಯಂತ ವ್ಯಾಪಕವಾದ ಡೇಟಾಸೆಟ್‌ಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ. ಬಿಂಗ್ ಸರ್ಚ್ ಇಂಜಿನ್ ಪ್ರಶ್ನೆ ಲಾಗ್‌ಗಳಿಂದ ಸಂಕಲಿಸಲಾಗಿದೆ, ಇದು ಪ್ರಶ್ನೋತ್ತರ ಜೋಡಿಗಳೊಂದಿಗೆ ಬರುತ್ತದೆ. ಇದು 3000 ಕ್ಕೂ ಹೆಚ್ಚು ಪ್ರಶ್ನೆಗಳನ್ನು ಮತ್ತು 1500 ಲೇಬಲ್ ಉತ್ತರ ವಾಕ್ಯಗಳನ್ನು ಹೊಂದಿದೆ.

  • ಕಾನೂನು ಪ್ರಕರಣ ವರದಿಗಳ ಡೇಟಾಸೆಟ್ (ಲಿಂಕ್)

    ಕಾನೂನು ಪ್ರಕರಣ ವರದಿಗಳ ಡೇಟಾಸೆಟ್ 4000 ಕಾನೂನು ಪ್ರಕರಣಗಳ ಸಂಗ್ರಹವನ್ನು ಹೊಂದಿದೆ ಮತ್ತು ಸ್ವಯಂಚಾಲಿತ ಪಠ್ಯ ಸಾರಾಂಶ ಮತ್ತು ಉಲ್ಲೇಖ ವಿಶ್ಲೇಷಣೆಗಾಗಿ ತರಬೇತಿ ನೀಡಲು ಬಳಸಬಹುದು. ಪ್ರತಿಯೊಂದು ಡಾಕ್ಯುಮೆಂಟ್, ಕ್ಯಾಚ್‌ಫ್ರೇಸ್‌ಗಳು, ಉಲ್ಲೇಖದ ತರಗತಿಗಳು, ಉಲ್ಲೇಖದ ಕ್ಯಾಚ್‌ಫ್ರೇಸ್‌ಗಳು ಮತ್ತು ಹೆಚ್ಚಿನದನ್ನು ಬಳಸಲಾಗುತ್ತದೆ.

  • ಜೆಪರ್ಡಿ (ಲಿಂಕ್)

    ಜೆಪರ್ಡಿ ಡೇಟಾಸೆಟ್ ಎನ್ನುವುದು ಜನಪ್ರಿಯ ರಸಪ್ರಶ್ನೆ ಟಿವಿ ಶೋನಲ್ಲಿ ಕಾಣಿಸಿಕೊಂಡಿರುವ 200,000 ಕ್ಕೂ ಹೆಚ್ಚು ಪ್ರಶ್ನೆಗಳ ಸಂಗ್ರಹವಾಗಿದ್ದು, ಇದನ್ನು ರೆಡ್ಡಿಟ್ ಬಳಕೆದಾರರು ಒಟ್ಟಿಗೆ ಸೇರಿಸಿದ್ದಾರೆ. ಪ್ರತಿ ಡೇಟಾ ಪಾಯಿಂಟ್ ಅನ್ನು ಅದರ ಪ್ರಸಾರ ದಿನಾಂಕ, ಸಂಚಿಕೆ ಸಂಖ್ಯೆ, ಮೌಲ್ಯ, ಸುತ್ತು ಮತ್ತು ಪ್ರಶ್ನೆ/ಉತ್ತರದಿಂದ ವರ್ಗೀಕರಿಸಲಾಗಿದೆ.

  • 20 ಸುದ್ದಿ ಗುಂಪುಗಳು (ಲಿಂಕ್)

    20,000 ದಾಖಲೆಗಳ ಸಂಗ್ರಹವು 20 ಸುದ್ದಿ ಗುಂಪುಗಳು ಮತ್ತು ವಿಷಯಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, ಧರ್ಮದಿಂದ ಜನಪ್ರಿಯ ಕ್ರೀಡೆಗಳವರೆಗೆ ವಿಷಯಗಳನ್ನು ವಿವರಿಸುತ್ತದೆ.

  • ರಾಯಿಟರ್ಸ್ ನ್ಯೂಸ್ ಡೇಟಾಸೆಟ್ (ಲಿಂಕ್)

    ಮೊದಲ ಬಾರಿಗೆ 1987 ರಲ್ಲಿ ಕಾಣಿಸಿಕೊಂಡಿತು, ಈ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಲೇಬಲ್ ಮಾಡಲಾಗಿದೆ, ಇಂಡೆಕ್ಸ್ ಮಾಡಲಾಗಿದೆ ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆ ಉದ್ದೇಶಗಳಿಗಾಗಿ ಸಂಕಲಿಸಲಾಗಿದೆ.

  • ArXiv (ಲಿಂಕ್)

    ಈ ಗಣನೀಯ 270 GB ಡೇಟಾಸೆಟ್ ಎಲ್ಲಾ arXiv ಸಂಶೋಧನಾ ಪ್ರಬಂಧಗಳ ಸಂಪೂರ್ಣ ಪಠ್ಯವನ್ನು ಒಳಗೊಂಡಿದೆ.

  • ಯುರೋಪಿಯನ್ ಪಾರ್ಲಿಮೆಂಟ್ ಪ್ರೊಸೀಡಿಂಗ್ಸ್ ಪ್ಯಾರಲಲ್ ಕಾರ್ಪಸ್ (ಲಿಂಕ್)

    ಪಾರ್ಲಿಮೆಂಟ್ ನಡಾವಳಿಗಳಿಂದ ವಾಕ್ಯ ಜೋಡಿಗಳು 21 ಯುರೋಪಿಯನ್ ಭಾಷೆಗಳಿಂದ ನಮೂದುಗಳನ್ನು ಒಳಗೊಂಡಿವೆ, ಯಂತ್ರ ಕಲಿಕೆ ಕಾರ್ಪೋರಾಕ್ಕಾಗಿ ಕೆಲವು ಕಡಿಮೆ ಸಾಮಾನ್ಯ ಭಾಷೆಗಳನ್ನು ಒಳಗೊಂಡಿವೆ.

  • ಬಿಲಿಯನ್ ವರ್ಡ್ ಬೆಂಚ್ಮಾರ್ಕ್ (ಲಿಂಕ್)

    WMT 2011 ನ್ಯೂಸ್ ಕ್ರಾಲ್‌ನಿಂದ ಪಡೆಯಲಾಗಿದೆ, ಈ ಭಾಷಾ ಮಾಡೆಲಿಂಗ್ ಡೇಟಾಸೆಟ್ ನವೀನ ಭಾಷಾ ಮಾಡೆಲಿಂಗ್ ತಂತ್ರಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು ಸುಮಾರು ಒಂದು ಶತಕೋಟಿ ಪದಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.

ಆಡಿಯೋ ಭಾಷಣ

  • ಸ್ಪೋಕನ್ ವಿಕಿಪೀಡಿಯಾ ಕಾರ್ಪೋರಾ (ಲಿಂಕ್)

    ಆಡಿಯೋ ಭಾಷಣ ಇಂಗ್ಲಿಷ್ ಭಾಷೆಯ ಆಚೆಗೆ ಹೋಗಲು ಬಯಸುವ ಪ್ರತಿಯೊಬ್ಬರಿಗೂ ಈ ಡೇಟಾಸೆಟ್ ಪರಿಪೂರ್ಣವಾಗಿದೆ. ಈ ಡೇಟಾಸೆಟ್ ಡಚ್ ಮತ್ತು ಜರ್ಮನ್ ಮತ್ತು ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿ ಮಾತನಾಡುವ ಲೇಖನಗಳ ಸಂಗ್ರಹವನ್ನು ಹೊಂದಿದೆ. ಇದು ವೈವಿಧ್ಯಮಯ ವಿಷಯಗಳ ವ್ಯಾಪ್ತಿಯನ್ನು ಹೊಂದಿದೆ ಮತ್ತು ನೂರಾರು ಗಂಟೆಗಳವರೆಗೆ ನಡೆಯುವ ಸ್ಪೀಕರ್ ಸೆಟ್‌ಗಳನ್ನು ಹೊಂದಿದೆ.

  • 2000 HUB5 ಇಂಗ್ಲೀಷ್ (ಲಿಂಕ್)

    2000 HUB5 ಇಂಗ್ಲಿಷ್ ಡೇಟಾಸೆಟ್ ಇಂಗ್ಲಿಷ್ ಭಾಷೆಯಲ್ಲಿ 40 ದೂರವಾಣಿ ಸಂಭಾಷಣೆಯ ಪ್ರತಿಗಳನ್ನು ಹೊಂದಿದೆ. ದತ್ತಾಂಶವನ್ನು ನ್ಯಾಷನಲ್ ಇನ್‌ಸ್ಟಿಟ್ಯೂಟ್ ಆಫ್ ಸ್ಟ್ಯಾಂಡರ್ಡ್ಸ್ ಅಂಡ್ ಟೆಕ್ನಾಲಜಿ ಒದಗಿಸಿದೆ ಮತ್ತು ಅದರ ಮುಖ್ಯ ಗಮನವು ಸಂಭಾಷಣೆಯ ಭಾಷಣವನ್ನು ಗುರುತಿಸುವುದು ಮತ್ತು ಭಾಷಣವನ್ನು ಪಠ್ಯವಾಗಿ ಪರಿವರ್ತಿಸುವುದು.

  • ಲಿಬ್ರಿಸ್ಪೀಚ್ (ಲಿಂಕ್)

    LibriSpeech ಡೇಟಾಸೆಟ್ ಸುಮಾರು 1000 ಗಂಟೆಗಳ ಇಂಗ್ಲಿಷ್ ಭಾಷಣದ ಸಂಗ್ರಹವಾಗಿದೆ ಮತ್ತು ಆಡಿಯೊ ಪುಸ್ತಕಗಳಿಂದ ಅಧ್ಯಾಯಗಳಾಗಿ ವಿಷಯಗಳ ಮೂಲಕ ಸರಿಯಾಗಿ ವಿಂಗಡಿಸಲಾಗಿದೆ, ಇದು ನೈಸರ್ಗಿಕ ಭಾಷಾ ಪ್ರಕ್ರಿಯೆಗೆ ಪರಿಪೂರ್ಣ ಸಾಧನವಾಗಿದೆ.

  • ಉಚಿತ ಸ್ಪೋಕನ್ ಡಿಜಿಟ್ ಡೇಟಾಸೆಟ್ (ಲಿಂಕ್)

    ಈ NLP ಡೇಟಾಸೆಟ್ ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿ ಮಾತನಾಡುವ ಅಂಕಿಗಳ 1,500 ಕ್ಕೂ ಹೆಚ್ಚು ರೆಕಾರ್ಡಿಂಗ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.

  • M-AI ಲ್ಯಾಬ್ಸ್ ಸ್ಪೀಚ್ ಡೇಟಾಸೆಟ್ (ಲಿಂಕ್)

    ಡೇಟಾಸೆಟ್ ಸುಮಾರು 1,000 ಗಂಟೆಗಳ ಆಡಿಯೊವನ್ನು ಪ್ರತಿಲೇಖನಗಳೊಂದಿಗೆ ನೀಡುತ್ತದೆ, ಬಹು ಭಾಷೆಗಳನ್ನು ಒಳಗೊಂಡಿದೆ ಮತ್ತು ಪುರುಷ, ಹೆಣ್ಣು ಮತ್ತು ಮಿಶ್ರ ಧ್ವನಿಗಳಿಂದ ವರ್ಗೀಕರಿಸಲಾಗಿದೆ.

  • ಗದ್ದಲದ ಭಾಷಣ ಡೇಟಾಬೇಸ್ (ಲಿಂಕ್)

    ಈ ಡೇಟಾಸೆಟ್ ಸಮಾನಾಂತರ ಗದ್ದಲದ ಮತ್ತು ಕ್ಲೀನ್ ಸ್ಪೀಚ್ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳನ್ನು ಹೊಂದಿದೆ, ಇದು ಭಾಷಣ ವರ್ಧನೆ ಸಾಫ್ಟ್‌ವೇರ್ ಅಭಿವೃದ್ಧಿಗೆ ಉದ್ದೇಶಿಸಲಾಗಿದೆ ಆದರೆ ಸವಾಲಿನ ಪರಿಸ್ಥಿತಿಗಳಲ್ಲಿ ಮಾತಿನ ತರಬೇತಿಗೆ ಸಹ ಪ್ರಯೋಜನಕಾರಿಯಾಗಿದೆ.

ವಿಮರ್ಶೆಗಳು

  • Yelp ವಿಮರ್ಶೆಗಳು (ಲಿಂಕ್)

    Yelp ಡೇಟಾಸೆಟ್ 8.5 ಪ್ಲಸ್ ವ್ಯವಹಾರಗಳು, ಅವುಗಳ ವಿಮರ್ಶೆಗಳು ಮತ್ತು ಬಳಕೆದಾರರ ಡೇಟಾದ ಸುಮಾರು 160,000 ಮಿಲಿಯನ್ ವಿಮರ್ಶೆಗಳ ವ್ಯಾಪಕ ಸಂಗ್ರಹವನ್ನು ಹೊಂದಿದೆ. ಭಾವನೆಗಳ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ನಿಮ್ಮ ಮಾದರಿಗಳಿಗೆ ತರಬೇತಿ ನೀಡಲು ವಿಮರ್ಶೆಗಳನ್ನು ಬಳಸಬಹುದು. ಇದಲ್ಲದೆ, ಈ ಡೇಟಾಸೆಟ್ ಎಂಟು ಮೆಟ್ರೋಪಾಲಿಟನ್ ಸ್ಥಳಗಳನ್ನು ಒಳಗೊಂಡ 200,000 ಕ್ಕೂ ಹೆಚ್ಚು ಚಿತ್ರಗಳನ್ನು ಹೊಂದಿದೆ.

  • IMDB ವಿಮರ್ಶೆಗಳು (ಲಿಂಕ್)

    IMDB ವಿಮರ್ಶೆಗಳು 50 ಸಾವಿರಕ್ಕೂ ಹೆಚ್ಚು ಚಲನಚಿತ್ರಗಳಿಗೆ ಎರಕಹೊಯ್ದ ಮಾಹಿತಿ, ರೇಟಿಂಗ್‌ಗಳು, ವಿವರಣೆ ಮತ್ತು ಪ್ರಕಾರವನ್ನು ಒಳಗೊಂಡಿರುವ ಅತ್ಯಂತ ಜನಪ್ರಿಯ ಡೇಟಾಸೆಟ್‌ಗಳಲ್ಲಿ ಸೇರಿವೆ. ನಿಮ್ಮ ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು ಮತ್ತು ತರಬೇತಿ ನೀಡಲು ಈ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಬಳಸಬಹುದು.

  • Amazon ವಿಮರ್ಶೆಗಳು ಮತ್ತು ರೇಟಿಂಗ್‌ಗಳ ಡೇಟಾಸೆಟ್ (ಲಿಂಕ್)

    Amazon ವಿಮರ್ಶೆ ಮತ್ತು ರೇಟಿಂಗ್ ಡೇಟಾಸೆಟ್ 1996 ರಿಂದ 2014 ರವರೆಗೆ ಸಂಗ್ರಹಿಸಲಾದ ಅಮೆಜಾನ್‌ನಿಂದ ವಿವಿಧ ಉತ್ಪನ್ನಗಳ ಮೆಟಾಡೇಟಾ ಮತ್ತು ವಿಮರ್ಶೆಗಳ ಮೌಲ್ಯಯುತ ಸಂಗ್ರಹವನ್ನು ಒಳಗೊಂಡಿದೆ - ಸುಮಾರು 142.8 ಮಿಲಿಯನ್ ದಾಖಲೆಗಳು. ಮೆಟಾಡೇಟಾವು ಬೆಲೆ, ಉತ್ಪನ್ನ ವಿವರಣೆ, ಬ್ರ್ಯಾಂಡ್, ವರ್ಗ ಮತ್ತು ಹೆಚ್ಚಿನದನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ಆದರೆ ವಿಮರ್ಶೆಗಳು ಪಠ್ಯದ ಗುಣಮಟ್ಟ, ಪಠ್ಯದ ಉಪಯುಕ್ತತೆ, ರೇಟಿಂಗ್‌ಗಳು ಮತ್ತು ಹೆಚ್ಚಿನದನ್ನು ಹೊಂದಿರುತ್ತವೆ.

ಪ್ರಶ್ನೆ ಮತ್ತು ಉತ್ತರ

  • ಸ್ಟ್ಯಾನ್‌ಫೋರ್ಡ್ ಪ್ರಶ್ನೆ ಮತ್ತು ಉತ್ತರ ಡೇಟಾಸೆಟ್ (SQuAD) (ಲಿಂಕ್)

    ಈ ರೀಡಿಂಗ್ ಕಾಂಪ್ರಹೆನ್ಷನ್ ಡೇಟಾಸೆಟ್ 100,000 ಉತ್ತರಿಸಬಹುದಾದ ಪ್ರಶ್ನೆಗಳನ್ನು ಮತ್ತು 50,000 ಉತ್ತರಿಸಲಾಗದ ಪ್ರಶ್ನೆಗಳನ್ನು ಹೊಂದಿದೆ, ಎಲ್ಲವನ್ನೂ ವಿಕಿಪೀಡಿಯಾ ಗುಂಪಿನ ಕೆಲಸಗಾರರು ರಚಿಸಿದ್ದಾರೆ.

  • ನೈಸರ್ಗಿಕ ಪ್ರಶ್ನೆಗಳು (ಲಿಂಕ್)

    ಈ ತರಬೇತಿ ಸೆಟ್ 300,000 ತರಬೇತಿ ಉದಾಹರಣೆಗಳು, 7,800 ಅಭಿವೃದ್ಧಿ ಉದಾಹರಣೆಗಳು ಮತ್ತು 7,800 ಪರೀಕ್ಷಾ ಉದಾಹರಣೆಗಳನ್ನು ಹೊಂದಿದೆ, ಪ್ರತಿಯೊಂದೂ Google ಪ್ರಶ್ನೆ ಮತ್ತು ಹೊಂದಾಣಿಕೆಯ ವಿಕಿಪೀಡಿಯಾ ಪುಟವನ್ನು ಹೊಂದಿದೆ.

  • TriviaQA (ಲಿಂಕ್)

    ಈ ಸವಾಲಿನ ಪ್ರಶ್ನೆ ಸೆಟ್ 950,000 QA ಜೋಡಿಗಳನ್ನು ಹೊಂದಿದೆ, ಇದರಲ್ಲಿ ಮಾನವ-ಪರಿಶೀಲಿಸಿದ ಮತ್ತು ಯಂತ್ರ-ರಚಿತ ಉಪವಿಭಾಗಗಳು ಸೇರಿವೆ.

  • CLEVR (ಸಂಯೋಜಿತ ಭಾಷೆ ಮತ್ತು ಪ್ರಾಥಮಿಕ ವಿಷುಯಲ್ ರೀಸನಿಂಗ್) (ಲಿಂಕ್)

    ಡೇಟಾಸೆಟ್‌ಗೆ ಉತ್ತರಿಸುವ ಈ ದೃಶ್ಯ ಪ್ರಶ್ನೆಯು 3D ಸಲ್ಲಿಸಿದ ವಸ್ತುಗಳು ಮತ್ತು ದೃಶ್ಯ ದೃಶ್ಯದ ಕುರಿತು ವಿವರಗಳೊಂದಿಗೆ ಸಾವಿರಾರು ಪ್ರಶ್ನೆಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.

ಆದ್ದರಿಂದ, ನಿಮ್ಮ ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಯನ್ನು ತರಬೇತಿ ಮಾಡಲು ನೀವು ಯಾವ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಆರಿಸಿದ್ದೀರಿ?

ನಾವು ಹೋಗುತ್ತಿರುವಾಗ, ನಾವು ನಿಮ್ಮನ್ನು ಬಿಟ್ಟುಬಿಡುತ್ತೇವೆ ಪರ ಸಲಹೆ.

ನಿಮ್ಮ ಅಗತ್ಯಗಳಿಗಾಗಿ NLP ಡೇಟಾಸೆಟ್ ಅನ್ನು ಆಯ್ಕೆಮಾಡುವ ಮೊದಲು README ಫೈಲ್ ಅನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಪರಿಶೀಲಿಸುವುದನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ. ಡೇಟಾಸಮೂಹವು ನಿಮಗೆ ಅಗತ್ಯವಿರುವ ಎಲ್ಲಾ ಅಗತ್ಯ ಮಾಹಿತಿಯನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ಉದಾಹರಣೆಗೆ ಡೇಟಾಸೆಟ್‌ನ ವಿಷಯ, ಡೇಟಾವನ್ನು ವರ್ಗೀಕರಿಸಿದ ವಿವಿಧ ನಿಯತಾಂಕಗಳು ಮತ್ತು ಡೇಟಾಸೆಟ್‌ನ ಸಂಭವನೀಯ ಬಳಕೆಯ ಸಂದರ್ಭಗಳು.

ನೀವು ನಿರ್ಮಿಸುವ ಮಾದರಿಗಳ ಹೊರತಾಗಿಯೂ, ನಮ್ಮ ಯಂತ್ರಗಳನ್ನು ನಮ್ಮ ಜೀವನದೊಂದಿಗೆ ಹೆಚ್ಚು ನಿಕಟವಾಗಿ ಮತ್ತು ಆಂತರಿಕವಾಗಿ ಸಂಯೋಜಿಸುವ ಉತ್ತೇಜಕ ನಿರೀಕ್ಷೆಯಿದೆ. NLP ಯೊಂದಿಗೆ, ವ್ಯಾಪಾರ, ಚಲನಚಿತ್ರಗಳು, ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ, ಹಣಕಾಸು ಮತ್ತು ಹೆಚ್ಚಿನವುಗಳ ಸಾಧ್ಯತೆಗಳನ್ನು ಬಹುಪಟ್ಟು ಹೆಚ್ಚಿಸಲಾಗಿದೆ.

ಸಾಮಾಜಿಕ ಹಂಚಿಕೆ